A Explosion AI bemutatta a az ingyenes könyvtár új verziója "Borsos»Amelynek van megvalósítása természetes nyelv feldolgozó algoritmusok (NLP). Gyakorlatban, a projekt felhasználható automatikus válaszok készítésére, botok, szövegosztályozók és különféle párbeszédrendszerek, amelyek meghatározzák a kifejezések jelentését.
Könyvtár úgy tervezték, hogy állandó API-t biztosítson Nem kapcsolódik a valós termékekben használt és használatra kész algoritmusokhoz. Könyvtár az NLP legújabb vívmányait és a leghatékonyabb algoritmusokat használja rendelkezésre áll az információk feldolgozásához.
Ha hatékonyabb algoritmus jelenik meg, a könyvtár átkerül neki, de ez az átmenet nem érinti az API-t vagy az alkalmazásokat.
A fürdő jellemzője a teljes dokumentumok feldolgozására szolgáló architektúra is, előfeldolgozás nélkül olyan előfeldolgozókban, amelyek frázisokra osztják a dokumentumot. A modelleket két változatban kínálják: a maximális termelékenység és a maximális pontosság érdekében.
A fürdő főbb jellemzői:
- Körülbelül 60 nyelv támogatása.
- Már betanított modellek állnak rendelkezésre különböző nyelvekhez és alkalmazásokhoz.
- Többfeladatos tanulás korábban képzett transzformátorok, például a BERT (Transformers Bidirectional Encoder Renderings of Transformers) segítségével.
- Támogatás előre betanított vektorokhoz és szóbeágyazásokhoz.
- Nagy teljesítményű.
- Használatra kész munkahelyi képzési rendszer modell.
- Nyelvi indíttatású tokenizálás.
- Kész komponensek állnak rendelkezésre a megnevezett entitások összekapcsolására, a beszéd egyes részeinek jelölésére, a szöveg osztályozására, a címkén alapuló függőségek elemzésére, a mondatok felosztására, a beszéd egyes részeinek megjelölésére, morfológiai elemzésre, a következtetésre stb.
- Támogatás a funkcionalitás bővítéséhez egyedi összetevőkkel és attribútumokkal.
- Támogatás saját modellek létrehozásához PyTorch, TensorFlow és más keretrendszerek alapján.
- Beépített eszközök a megnevezett entitások kötésére és a szintaxis megjelenítésére (NER, elnevezett entitás-felismerés).
- A modellek csomagolásának és telepítésének, valamint a munkafolyamat kezelésének egyszerű folyamata.
- Nagy pontosság.
Könyvtár Python-ban, a Cython-ban található elemekkel van megírva, egy Python kiterjesztés, amely lehetővé teszi a közvetlen függvényhívást a C nyelven.
A projekt kódja az MIT licenc alatt terjesztik. A nyelvi modellek 58 nyelvre készek.
A spaCy 3.0 új verziójáról
A spaCy 3.0 verzió kiemelkedik a mintacsaládok 18 nyelvre átképzett és 59 csővezeték képzett összesen 5 új transzformátor alapú csővezeték
A modellt három változatban kínálják (16 MB, 41 MB - 20 ezer vektor és 491 MB - 500 ezer vektor) és úgy van optimalizálva, hogy CPU terhelés alatt működjön és tartalmazza a tok2vec, a morphologizer, az értelmező, a küldő, a ner, az attribute_ruler és a lemmatizer összetevőket.
Több mint egy éve dolgozunk a spaCy v3.0-n, és csaknem két éve, ha a Thinc-en végzett összes munkát számba vesszük. A bevezetéssel az a fő célunk, hogy megkönnyítsük saját modelljeink SPACY-ba történő behozatalát, különös tekintettel a korszerű modellekre, például a transzformátorokra. Írhat olyan modelleket, amelyek a spaCy összetevőit betáplálják olyan keretrendszerbe, mint a PyTorch vagy a TensorFlow, a fantasztikus új konfigurációs rendszerünk segítségével leírva az összes beállítást. És mivel a modern NLP munkafolyamatok gyakran több lépésből állnak, van egy új munkafolyamat-rendszer, amely megkönnyíti a munka szervezettségét.
Egyéb fontos újítások amelyek kiemelkednek az új verzióból:
- Új munkafolyamat a képzési modellek számára.
- Új konfigurációs rendszer.
- Transzformátor alapú csővezeték-modellek támogatása, alkalmas a többfeladatos tanuláshoz.
- Saját modellek összekapcsolásának képessége különféle gépi tanulási keretrendszerek, például PyTorch, TensorFlow és MXNet használatával.
- Projekt támogatás a munkafolyamatok minden szakaszának kezelésére, az előfeldolgozástól a modell megvalósításáig.
- Támogatás az integrációhoz az adatverzió-vezérlővel (DVC), a Streamlit, a súlyok és előítéletek és a Ray csomagokkal.
- Új beépített alkatrészek: SentenceRecognizer, Morphologizer, Lemmatizer,
- AttributeRuler és Transformer.
- Új API saját összetevők létrehozásához.
Végül, ha érdekel, hogy többet tudjon meg róla ennek az új verziónak vagy a spaCy-ról ellenőrizheti a részleteket A következő linken.