spaCy, knjižnica za obradu prirodnog jezika

Explosion AI predstavio je lansiranje nova verzija besplatne knjižnice «SpaCy»Koji ima provedbu algoritmi za obradu prirodnog jezika (NLP). U praksi, projekt se može koristiti za izgradnju automatskih odgovora, botovi, klasifikatori teksta i razni dijaloški sustavi koji određuju značenje fraza.

Knjižnica je dizajniran za pružanje trajnog API-ja Nije povezan s algoritmima koji se koriste i spreman za upotrebu u stvarnim proizvodima. Knjižnica koristi najnovija dostignuća u NLP-u i najučinkovitije algoritme dostupan za obradu informacija.

Ako se pojavi učinkovitiji algoritam, knjižnica mu se prosljeđuje, ali ovaj prijelaz ne utječe na API ili aplikacije.

Značajka spaCy-a to je također arhitektura dizajnirana za obradu cjelovitih dokumenata, bez predobrade u pretprocesorima koji dijele dokument na fraze. Modeli se nude u dvije verzije: za maksimalnu produktivnost i maksimalnu preciznost.

Glavne značajke spaCy-a:

  • Podrška za oko 60 jezika.
  • Već obučeni modeli dostupni za različite jezike i programe.
  • Učenje u više zadataka pomoću prethodno obučenih transformatora poput BERT-a (dvosmjerni prikazi kodera transformatora).
  • Podrška za unaprijed obučene vektore i ugrađivanje riječi.
  • Visoke performanse.
  • Spreman za upotrebu model sustava obuke na radnom mjestu.
  • Lingvistički motivirana tokenizacija.
  • Dostupne su gotove komponente za povezivanje imenovanih cjelina, obilježavanje dijelova govora, klasificiranje teksta, analizu ovisnosti temeljenih na oznakama, dijeljenje rečenica, označavanje dijelova govora, morfološku analizu, rezanje itd.
  • Podrška za proširenje funkcionalnosti s prilagođenim komponentama i atributima.
  • Podrška za stvaranje vlastitih modela temeljenih na PyTorch, TensorFlow i drugim okvirima.
  • Ugrađeni alati za povezivanje imenovanih entiteta i vizualizaciju sintakse (NER, prepoznavanje imenovanih entiteta).
  • Jednostavan postupak pakiranja i postavljanja modela te upravljanje tijekom rada.
  • Visoka točnost.

Knjižnica je napisan na Pythonu s elementima na Cythonu, Python proširenje koje omogućuje izravno pozivanje funkcija na jeziku C.

Kod projekta distribuira se pod licencom MIT. Jezični su modeli spremni za 58 jezika.

O novoj verziji spaCy 3.0

Verzija spaCy 3.0 izdvaja se po implementaciji uzor obitelji prekvalificiran za 18 jezika i Obučeno 59 cjevovoda ukupno, uključujući 5 novih cjevovoda na bazi transformatora

Model se nudi u tri verzije (16 MB, 41 MB - 20 tisuća vektora i 491 MB - 500 tisuća vektora) i optimiziran je za rad pod opterećenjem procesora i uključuje komponente tok2vec, morfologizator, parser, senter, ner, attribute_ruler i lematizator.

Na spaCy v3.0 radimo više od godinu dana i gotovo dvije godine ako računate sav posao odrađen na Thincu. Naš je glavni cilj lansiranjem olakšati donošenje vlastitih modela u SPACY, posebno najsuvremenije modele poput transformatora. Možete napisati modele koji spaCy komponente unose u okvire poput PyTorch ili TensorFlow, koristeći naš sjajni novi konfiguracijski sustav da opiše sve vaše postavke. A budući da se moderni NLP tijekovi rada često sastoje od više koraka, novi je sustav tijeka rada koji će vam pomoći da organizirate svoj posao.

Ostale važne inovacije koji se ističu u novoj verziji:

  • Novi tijek rada za modele treninga.
  • Novi sustav za konfiguraciju.
  • Podrška za modele cjevovoda zasnovanih na transformatorima, prikladne za učenje multitaskinga.
  • Mogućnost povezivanja vlastitih modela pomoću različitih okvira za strojno učenje, kao što su PyTorch, TensorFlow i MXNet.
  • Projektna podrška za upravljanje svim fazama tijekova rada, od prethodne obrade do implementacije modela.
  • Podrška za integraciju s Data Version Control (DVC), Streamlit, Weights & Biases i Ray paketima.
  • Nove ugrađene komponente: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler i transformator.
  • Novi API za stvaranje vlastitih komponenata.

Konačno, ako vas zanima više o tome ove nove verzije ili o spaCy-u, možete provjeriti detalje U sljedećem linku.


Sadržaj članka pridržava se naših načela urednička etika. Da biste prijavili pogrešku, kliknite ovdje.

Budite prvi koji će komentirati

Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.