spaCy, természetes nyelv feldolgozó könyvtár

A Explosion AI bemutatta a az ingyenes könyvtár új verziója "Borsos»Amelynek van megvalósítása természetes nyelv feldolgozó algoritmusok (NLP). Gyakorlatban, a projekt felhasználható automatikus válaszok készítésére, botok, szövegosztályozók és különféle párbeszédrendszerek, amelyek meghatározzák a kifejezések jelentését.

Könyvtár úgy tervezték, hogy állandó API-t biztosítson Nem kapcsolódik a valós termékekben használt és használatra kész algoritmusokhoz. Könyvtár az NLP legújabb vívmányait és a leghatékonyabb algoritmusokat használja rendelkezésre áll az információk feldolgozásához.

Ha hatékonyabb algoritmus jelenik meg, a könyvtár átkerül neki, de ez az átmenet nem érinti az API-t vagy az alkalmazásokat.

A fürdő jellemzője a teljes dokumentumok feldolgozására szolgáló architektúra is, előfeldolgozás nélkül olyan előfeldolgozókban, amelyek frázisokra osztják a dokumentumot. A modelleket két változatban kínálják: a maximális termelékenység és a maximális pontosság érdekében.

A fürdő főbb jellemzői:

  • Körülbelül 60 nyelv támogatása.
  • Már betanított modellek állnak rendelkezésre különböző nyelvekhez és alkalmazásokhoz.
  • Többfeladatos tanulás korábban képzett transzformátorok, például a BERT (Transformers Bidirectional Encoder Renderings of Transformers) segítségével.
  • Támogatás előre betanított vektorokhoz és szóbeágyazásokhoz.
  • Nagy teljesítményű.
  • Használatra kész munkahelyi képzési rendszer modell.
  • Nyelvi indíttatású tokenizálás.
  • Kész komponensek állnak rendelkezésre a megnevezett entitások összekapcsolására, a beszéd egyes részeinek jelölésére, a szöveg osztályozására, a címkén alapuló függőségek elemzésére, a mondatok felosztására, a beszéd egyes részeinek megjelölésére, morfológiai elemzésre, a következtetésre stb.
  • Támogatás a funkcionalitás bővítéséhez egyedi összetevőkkel és attribútumokkal.
  • Támogatás saját modellek létrehozásához PyTorch, TensorFlow és más keretrendszerek alapján.
  • Beépített eszközök a megnevezett entitások kötésére és a szintaxis megjelenítésére (NER, elnevezett entitás-felismerés).
  • A modellek csomagolásának és telepítésének, valamint a munkafolyamat kezelésének egyszerű folyamata.
  • Nagy pontosság.

Könyvtár Python-ban, a Cython-ban található elemekkel van megírva, egy Python kiterjesztés, amely lehetővé teszi a közvetlen függvényhívást a C nyelven.

A projekt kódja az MIT licenc alatt terjesztik. A nyelvi modellek 58 nyelvre készek.

A spaCy 3.0 új verziójáról

A spaCy 3.0 verzió kiemelkedik a mintacsaládok 18 nyelvre átképzett és 59 csővezeték képzett összesen 5 új transzformátor alapú csővezeték

A modellt három változatban kínálják (16 MB, 41 MB - 20 ezer vektor és 491 MB - 500 ezer vektor) és úgy van optimalizálva, hogy CPU terhelés alatt működjön és tartalmazza a tok2vec, a morphologizer, az értelmező, a küldő, a ner, az attribute_ruler és a lemmatizer összetevőket.

Több mint egy éve dolgozunk a spaCy v3.0-n, és csaknem két éve, ha a Thinc-en végzett összes munkát számba vesszük. A bevezetéssel az a fő célunk, hogy megkönnyítsük saját modelljeink SPACY-ba történő behozatalát, különös tekintettel a korszerű modellekre, például a transzformátorokra. Írhat olyan modelleket, amelyek a spaCy összetevőit betáplálják olyan keretrendszerbe, mint a PyTorch vagy a TensorFlow, a fantasztikus új konfigurációs rendszerünk segítségével leírva az összes beállítást. És mivel a modern NLP munkafolyamatok gyakran több lépésből állnak, van egy új munkafolyamat-rendszer, amely megkönnyíti a munka szervezettségét.

Egyéb fontos újítások amelyek kiemelkednek az új verzióból:

  • Új munkafolyamat a képzési modellek számára.
  • Új konfigurációs rendszer.
  • Transzformátor alapú csővezeték-modellek támogatása, alkalmas a többfeladatos tanuláshoz.
  • Saját modellek összekapcsolásának képessége különféle gépi tanulási keretrendszerek, például PyTorch, TensorFlow és MXNet használatával.
  • Projekt támogatás a munkafolyamatok minden szakaszának kezelésére, az előfeldolgozástól a modell megvalósításáig.
  • Támogatás az integrációhoz az adatverzió-vezérlővel (DVC), a Streamlit, a súlyok és előítéletek és a Ray csomagokkal.
  • Új beépített alkatrészek: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler és Transformer.
  • Új API saját összetevők létrehozásához.

Végül, ha érdekel, hogy többet tudjon meg róla ennek az új verziónak vagy a spaCy-ról ellenőrizheti a részleteket A következő linken.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.