spaCy, knjižnica za obdelavo naravnega jezika

Explosion AI je predstavil začetek nova različica brezplačne knjižnice «SpaCy»Ki ima izvedbo algoritmi za obdelavo naravnega jezika (NLP). V praksi, projekt lahko uporabimo za izdelavo samodejnih odzivnikov, roboti, klasifikatorji besedila in različni pogovorni sistemi, ki določajo pomen besednih zvez.

Knjižnica je zasnovan za zagotavljanje trajnega API-ja Ni povezan z algoritmi, ki se uporabljajo in so pripravljeni za uporabo v resničnih izdelkih. Knjižnica uporablja najnovejši napredek NLP in najučinkovitejše algoritme na voljo za obdelavo informacij.

Če se prikaže učinkovitejši algoritem, mu se knjižnica posreduje, vendar ta prehod ne vpliva na API ali aplikacije.

Značilnost spaCy gre tudi za arhitekturo, namenjeno obdelavi celotnih dokumentov, brez predhodne obdelave v predprocesorjih, ki dokument delijo na besedne zveze. Modeli so na voljo v dveh različicah: za največjo produktivnost in največjo natančnost.

Glavne značilnosti spaCy:

  • Podpora za približno 60 jezikov.
  • Na voljo že usposobljeni modeli za različne jezike in aplikacije.
  • Večopravilno učenje z uporabo predhodno usposobljenih transformatorjev, kot je BERT (Bidirectional Encoder Renderings of Transformers).
  • Podpora za predhodno usposobljene vektorje in vdelave besed.
  • Visokozmogljivo.
  • Pripravljen model sistema usposabljanja na delovnem mestu.
  • Jezikovno motivirana tokenizacija.
  • Na voljo so že pripravljene komponente za povezovanje imenovanih entitet, označevanje delov govora, razvrščanje besedila, analiziranje odvisnosti na osnovi oznak, ločevanje stavkov, označevanje delov govora, morfološka analiza, zarezovanje itd.
  • Podpora za razširitev funkcionalnosti s komponentami in atributi po meri.
  • Podpora za ustvarjanje lastnih modelov, ki temeljijo na PyTorch, TensorFlow in drugih okoljih.
  • Vgrajena orodja za vezavo poimenovanih entitet in vizualizacijo sintakse (NER, prepoznavanje poimenovanih entitet).
  • Preprost postopek pakiranja in uvajanja modelov ter upravljanje poteka dela.
  • Visoka natančnost.

Knjižnica je napisan v Pythonu z elementi v Cythonu, razširitev Python, ki omogoča neposredno klicanje funkcije v jeziku C.

Koda projekta se distribuira pod licenco MIT. Jezikovni modeli so pripravljeni za 58 jezikov.

O novi različici spaCy 3.0

Različica spaCy 3.0 izstopa po izvedbi vzorčne družine prekvalificiran za 18 jezikov in Usposobljeno 59 cevovodov skupaj 5 novih cevovodov na osnovi transformatorjev

Model je na voljo v treh različicah (16 MB, 41 MB - 20 tisoč vektorjev in 491 MB - 500 tisoč vektorjev) in je optimiziran za delo pod obremenitvijo procesorja in vključuje komponente tok2vec, morfologizator, razčlenjevalnik, senter, ner, atribut_ruler in lematizator.

Na spaCy v3.0 delamo že več kot eno leto in skoraj dve leti, če upoštevamo vse opravljeno delo na Thincu. Naš glavni cilj s predstavitvijo je olajšati prenos lastnih modelov v SPACY, zlasti najsodobnejših modelov, kot so transformatorji. Modele, ki napajajo komponente spaCy, lahko napišete v ogrodja, kot sta PyTorch ali TensorFlow, z uporabo našega novega konfiguracijskega sistema za opis vseh vaših nastavitev. Ker so sodobni postopki NLP pogosto sestavljeni iz več korakov, je na voljo nov sistem poteka dela, ki vam pomaga organizirati delo.

Druge pomembne novosti ki izstopajo iz nove različice:

  • Nov potek dela za modele usposabljanja.
  • Nov sistem za konfiguracijo.
  • Podpora za modele cevovodov na osnovi transformatorjev, primerne za učenje večopravilnosti.
  • Možnost povezovanja lastnih modelov z uporabo različnih okvirov strojnega učenja, kot so PyTorch, TensorFlow in MXNet.
  • Projektna podpora za upravljanje vseh stopenj poteka dela, od predobdelave do izvedbe modela.
  • Podpora za integracijo s paketom Data Version Control (DVC), Streamlit, Weights & Biases in Ray.
  • Nove vgrajene komponente: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler in Transformer.
  • Nov API za ustvarjanje lastnih komponent.

Končno, če vas zanima več o tem te nove različice ali o spaCy, lahko preverite podrobnosti V naslednji povezavi.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.