spaCy, o bibliotecă de procesare a limbajului natural

Explosion AI a dezvăluit lansarea noua versiune a bibliotecii gratuite «SpaCy»Care are o implementare de algoritmi de procesare a limbajului natural (NLP). In practica, proiectul poate fi folosit pentru a construi răspunsuri automate, roboți, clasificatori de text și diverse sisteme de dialog care determină semnificația frazelor.

Bibliotecă este conceput pentru a oferi un API persistent Nu este legat de algoritmii utilizați și gata de utilizare în produse reale. Bibliotecă folosește cele mai recente progrese în NLP și cei mai eficienți algoritmi disponibile pentru procesarea informațiilor.

Dacă apare un algoritm mai eficient, biblioteca este transmisă în acesta, dar această tranziție nu afectează API-ul sau aplicațiile.

O caracteristică a spaCy este, de asemenea, o arhitectură concepută pentru a procesa documente complete, fără preprocesare în preprocesoare care împart documentul în fraze. Modelele sunt oferite în două versiuni: pentru productivitate maximă și precizie maximă.

Principalele caracteristici ale spaCy:

  • Suport pentru aproximativ 60 de limbi.
  • Modele deja instruite disponibile pentru diferite limbi și aplicații.
  • Învățare multitasking folosind transformatoare antrenate anterior, cum ar fi BERT (Randirional Encoder Renderings of Transformers).
  • Suport pentru vectori pre-instruiți și încorporări de cuvinte.
  • De înaltă performanță.
  • Model de sistem de pregătire la locul de muncă gata de utilizare.
  • Tokenizarea motivată lingvistic.
  • Componentele gata de utilizare sunt disponibile pentru conectarea entităților denumite, marcarea părților de vorbire, clasificarea textului, analiza dependențelor bazate pe etichete, divizarea propozițiilor, marcarea părților de vorbire, analiza morfologică, stemming etc.
  • Suport pentru extinderea funcționalității cu componente și atribute personalizate.
  • Suport pentru crearea propriilor modele bazate pe PyTorch, TensorFlow și alte cadre.
  • Instrumente încorporate pentru legarea entității numite și vizualizarea sintaxei (NER, recunoașterea entității numite).
  • Proces simplu de ambalare și implementare a modelelor și gestionarea fluxului de lucru.
  • Precizie ridicată.

Bibliotecă este scris în Python cu elemente în Cython, o extensie Python care permite apelarea directă a funcțiilor în limbajul C.

Codul proiectului este distribuit sub licența MIT. Modelele de limbă sunt gata pentru 58 de limbi.

Despre noua versiune a spaCy 3.0

Versiunea spaCy 3.0 se remarcă prin implementarea familii model recalificat pentru 18 limbi și 59 conducte instruite în total, inclusiv 5 conducte noi bazate pe transformatoare

Modelul este oferit în trei versiuni (16 MB, 41 MB - 20 mii vectori și 491 MB - 500 mii vectori) și este optimizat pentru a funcționa sub sarcină CPU și include componentele tok2vec, morphologizer, parser, senter, ner, attribute_ruler și lemmatizer.

Lucrăm la spaCy v3.0 de peste un an și aproape doi ani dacă numărați toată munca făcută pe Thinc. Scopul nostru principal cu lansarea este de a face mai ușor să aduceți propriile modele în SPACY, în special modelele de ultimă generație, cum ar fi transformatoarele. Puteți scrie modele care alimentează componentele spaCy în cadre precum PyTorch sau TensorFlow, folosind noul nostru sistem de configurare minunat pentru a descrie toate setările. Și întrucât fluxurile de lucru moderne NLP constau adesea în mai mulți pași, există un nou sistem de flux de lucru care vă ajută să vă păstrați munca organizată.

Alte inovații importante care se deosebesc de noua versiune:

  • Flux de lucru nou pentru modelele de instruire.
  • Sistem de configurare nou.
  • Suport pentru modele de conducte bazate pe transformatoare, potrivite pentru învățarea multitasking.
  • Capacitatea de a vă conecta propriile modele utilizând diverse cadre de învățare automată, cum ar fi PyTorch, TensorFlow și MXNet.
  • Suport pentru proiect pentru a gestiona toate etapele fluxurilor de lucru, de la pre-procesare până la implementarea modelului.
  • Suport pentru integrare cu Data Version Control (DVC), Streamlit, Weights & Biases și pachete Ray.
  • Componente noi încorporate: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler și Transformer.
  • Nou API pentru a crea propriile componente.

În cele din urmă, dacă sunteți interesat să aflați mai multe despre asta din această nouă versiune sau despre spaCy, puteți verifica detaliile În următorul link.


Conținutul articolului respectă principiile noastre de etică editorială. Pentru a raporta o eroare, faceți clic pe aici.

Fii primul care comenteaza

Lasă comentariul tău

Adresa ta de email nu va fi publicată.

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.