spaCy, természetes nyelvi feldolgozó könyvtár

A Explosion AI bemutatta a az ingyenes könyvtár új verziója "Borsos»Amelynek van megvalósítása természetes nyelv feldolgozó algoritmusok (NLP). Gyakorlatban, a projekt felhasználható automatikus válaszok készítésére, botok, szövegosztályozók és különféle párbeszédrendszerek, amelyek meghatározzák a kifejezések jelentését.

Könyvtár úgy tervezték, hogy állandó API-t biztosítson Nem kapcsolódik a valós termékekben használt és használatra kész algoritmusokhoz. Könyvtár az NLP legújabb vívmányait és a leghatékonyabb algoritmusokat használja rendelkezésre áll az információk feldolgozásához.

Ha hatékonyabb algoritmus jelenik meg, a könyvtár átkerül neki, de ez az átmenet nem érinti az API-t vagy az alkalmazásokat.

A fürdő jellemzője a teljes dokumentumok feldolgozására szolgáló architektúra is, előfeldolgozás nélkül olyan előfeldolgozókban, amelyek frázisokra osztják a dokumentumot. A modelleket két változatban kínálják: a maximális termelékenység és a maximális pontosság érdekében.

A fürdő főbb jellemzői:

Körülbelül 60 nyelv támogatása.
Már betanított modellek állnak rendelkezésre különböző nyelvekhez és alkalmazásokhoz.
Többfeladatos tanulás korábban képzett transzformátorok, például a BERT (Transformers Bidirectional Encoder Renderings of Transformers) segítségével.
Támogatás előre betanított vektorokhoz és szóbeágyazásokhoz.
Nagy teljesítményű.
Használatra kész munkahelyi képzési rendszer modell.
Nyelvi indíttatású tokenizálás.
Kész komponensek állnak rendelkezésre a megnevezett entitások összekapcsolására, a beszéd egyes részeinek jelölésére, a szöveg osztályozására, a címkén alapuló függőségek elemzésére, a mondatok felosztására, a beszéd egyes részeinek megjelölésére, morfológiai elemzésre, a következtetésre stb.
Támogatás a funkcionalitás bővítéséhez egyedi összetevőkkel és attribútumokkal.
Támogatás saját modellek létrehozásához PyTorch, TensorFlow és más keretrendszerek alapján.
Beépített eszközök a megnevezett entitások kötésére és a szintaxis megjelenítésére (NER, elnevezett entitás-felismerés).
A modellek csomagolásának és telepítésének, valamint a munkafolyamat kezelésének egyszerű folyamata.
Nagy pontosság.

Könyvtár Python-ban, a Cython-ban található elemekkel van megírva, egy Python kiterjesztés, amely lehetővé teszi a közvetlen függvényhívást a C nyelven.

A projekt kódja az MIT licenc alatt terjesztik. A nyelvi modellek 58 nyelvre készek.

A spaCy 3.0 új verziójáról

A spaCy 3.0 verzió kiemelkedik a mintacsaládok 18 nyelvre átképzett és 59 csővezeték képzett összesen 5 új transzformátor alapú csővezeték

A modellt három változatban kínálják (16 MB, 41 MB - 20 ezer vektor és 491 MB - 500 ezer vektor) és úgy van optimalizálva, hogy CPU terhelés alatt működjön és tartalmazza a tok2vec, a morphologizer, az értelmező, a küldő, a ner, az attribute_ruler és a lemmatizer összetevőket.

Több mint egy éve dolgozunk a spaCy v3.0-n, és csaknem két éve, ha a Thinc-en végzett összes munkát számba vesszük. A bevezetéssel az a fő célunk, hogy megkönnyítsük saját modelljeink SPACY-ba történő behozatalát, különös tekintettel a korszerű modellekre, például a transzformátorokra. Írhat olyan modelleket, amelyek a spaCy összetevőit betáplálják olyan keretrendszerbe, mint a PyTorch vagy a TensorFlow, a fantasztikus új konfigurációs rendszerünk segítségével leírva az összes beállítást. És mivel a modern NLP munkafolyamatok gyakran több lépésből állnak, van egy új munkafolyamat-rendszer, amely megkönnyíti a munka szervezettségét.

Egyéb fontos újítások amelyek kiemelkednek az új verzióból:

Új munkafolyamat a képzési modellek számára.
Új konfigurációs rendszer.
Transzformátor alapú csővezeték-modellek támogatása, alkalmas a többfeladatos tanuláshoz.
Saját modellek összekapcsolásának képessége különféle gépi tanulási keretrendszerek, például PyTorch, TensorFlow és MXNet használatával.
Projekt támogatás a munkafolyamatok minden szakaszának kezelésére, az előfeldolgozástól a modell megvalósításáig.
Támogatás az integrációhoz az adatverzió-vezérlővel (DVC), a Streamlit, a súlyok és előítéletek és a Ray csomagokkal.
Új beépített alkatrészek: SentenceRecognizer, Morphologizer, Lemmatizer,
AttributeRuler és Transformer.
Új API saját összetevők létrehozásához.

Végül, ha érdekel, hogy többet tudjon meg róla ennek az új verziónak vagy a spaCy-ról ellenőrizheti a részleteket A következő linken.

DesdeLinux

spaCy, természetes nyelv feldolgozó könyvtár

A spaCy 3.0 új verziójáról

Hagyja megjegyzését Mégsem válaszát