Spacy, una biblioteca de processament de llenguatge natural

Explosion AI va donar a conèixer el llançament de la nova versió de la biblioteca gratuïta «Spacy»La qual compta amb una implementació de algoritmes de processament de el llenguatge natural (NLP). A la pràctica, el projecte es pot utilitzar per construir autoresponedors, Bots, classificadors de text i diversos sistemes de diàleg que determinen el significat de frases.

la biblioteca està dissenyada per proporcionar una API persistent que no està vinculada als algoritmes utilitzats i llista per a usar en productes reals. la biblioteca utilitza els últims avenços en PNL i els algoritmes més eficients disponibles per a processar informació.

Si apareix un algoritme més eficient, la biblioteca es transfereix a ell, però aquesta transició no afecta l'API ni a les aplicacions.

Una característica d'spacy és també una arquitectura dissenyada per processar documents complets, sense preprocessament en preprocesadores que divideixen el document en frases. Els models s'ofereixen en dues versions: per a màxima productivitat i màxima precisió.

Les principals característiques d'spacy:

  • Suport per al voltant de 60 idiomes.
  • Models ja entrenats disponibles per a diferents idiomes i aplicacions.
  • Aprenentatge multitasca utilitzant transformadors prèviament entrenats com BERT (Representacions de codificador bidireccional de Transformers).
  • Suport per vectors prèviament entrenats i incrustacions de paraules.
  • Alt rendiment.
  • Model de sistema d'entrenament llest per a usar a la feina.
  • Tokenització motivada lingüísticament.
  • Disponibilitat de components preparats per utilitzar per vincular entitats nomenades, marcar parts de l'discurs, classificar text, analitzar dependències basades en etiquetes, dividir oracions, marcar parts de l'discurs, anàlisi morfològica, lematització, etc.
  • Suport per ampliar la funcionalitat amb components i atributs personalitzats.
  • Suport per crear els seus propis models basats en PyTorch, TensorFlow i altres marcs.
  • Eines integrades per a visualització de sintaxi i enllaç importants amb nom (NER, reconeixement d'entitat amb nom).
  • Procés simple d'empaquetar i implementar models i administrar el flux de treball.
  • Alta precisió.

la biblioteca està escrita en Python amb elements en cython, Una extensió de Python que permet la crida directa de funcions en el llenguatge C.

El codi de el projecte es distribueix sota la llicència MIT. Els models d'idiomes estan preparats per a 58 idiomes.

Sobre la nova versió de spacy 3.0

La versió Spacy 3.0 es destaca per la implementació de famílies de models reentrenadas per 18 idiomes i 59 pipelines entrenats en total, inclosos 5 nous pipelines basats en transformadors

El model s'ofereix en tres versions (16 MB, 41 MB - 20 mil vectors i 491 MB - 500 mil vectors) i està optimitzat per treballar sota la càrrega de CPU i inclou els components tok2vec, morphologizer, parser, Senter, sar, attribute_ruler i lemmatizer.

Hem estat treballant en spacy v3.0 durant més d'un any, i gairebé dos anys si es compte tot el treball realitzat en Thinc. El nostre principal objectiu amb el llançament és fer que sigui més fàcil de portar els seus propis models a spacy, especialment els models de l'estat de la tècnica com transformadors. Pot escriure models que alimenten els components de spacy en marcs com PyTorch o TensorFlow, utilitzant el nostre nou i increïble sistema de configuració per descriure totes les seves configuracions. I atès que els fluxos de treball moderns de PNL sovint consten de diversos passos, hi ha un nou sistema de flux de treball per ajudar a mantenir la seva feina organitzat.

Altres de les innovacions importants que es destaquen de la nova versió:

  • Nou flux de treball per a models d'entrenament.
  • Nou sistema de configuració.
  • Suport per a models de pipeline basats en transformadors, aptes per a l'aprenentatge multitasca.
  • La capacitat de connectar els seus propis models mitjançant diversos marcs d'aprenentatge automàtic, com PyTorch, TensorFlow i MXNet.
  • Suport de projectes per administrar totes les etapes dels fluxos de treball, des del preprocessament fins a la implementació de el model.
  • Suport per a la integració amb els paquets Data Version Control (DVC), Streamlit, Weights & Biases i Ray.
  • Nous components integrats: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler i Transformer.
  • Nova API per crear els teus propis components.

Finalment, si estàs interessat en conèixer més a l'respecte d'aquesta nova versió o sobre spacy, pots consultar els detalls en el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.