spaCy, knihovna pro zpracování přirozeného jazyka

Explosion AI odhalila spuštění nová verze bezplatné knihovny «SpaCy»Který má implementaci algoritmy zpracování přirozeného jazyka (NLP). V praxi, projekt lze použít k vytvoření automatických odpovědí, roboty, klasifikátory textu a různé dialogové systémy, které určují význam frází.

Knihovna je navržen tak, aby poskytoval trvalé API Není propojen s použitými algoritmy a připraven k použití ve skutečných produktech. Knihovna využívá nejnovější pokroky v NLP a nejúčinnější algoritmy k dispozici ke zpracování informací.

Pokud se objeví efektivnější algoritmus, předá se do něj knihovna, ale tento přechod neovlivní API ani aplikace.

Funkce spaCy je to také architektura určená ke zpracování úplných dokumentů, bez předzpracování v preprocesorech, které rozdělují dokument na fráze. Modely jsou nabízeny ve dvou verzích: pro maximální produktivitu a maximální přesnost.

Hlavní vlastnosti spaCy:

  • Podpora přibližně 60 jazyků.
  • K dispozici jsou již vyškolené modely pro různé jazyky a aplikace.
  • Výuka multitaskingu pomocí dříve vyškolených transformátorů, jako je BERT (Bidirectional Encoder Renderings of Transformers).
  • Podpora předem vyškolených vektorů a vkládání slov.
  • Vysoký výkon.
  • Model výcvikového systému připravený k okamžitému použití.
  • Jazykově motivovaná tokenizace.
  • K dispozici jsou komponenty připravené k použití pro propojení pojmenovaných entit, označení částí řeči, klasifikaci textu, analýzu závislostí založených na značkách, rozdělení vět, označení částí řeči, morfologickou analýzu, odvození atd.
  • Podpora pro rozšíření funkčnosti o vlastní komponenty a atributy.
  • Podpora pro vytváření vlastních modelů založených na PyTorch, TensorFlow a dalších rámcích.
  • Integrované nástroje pro vázání pojmenovaných entit a vizualizaci syntaxe (NER, rozpoznávání pojmenovaných entit).
  • Jednoduchý proces balení a nasazení modelů a správy pracovního toku.
  • Vysoká přesnost.

Knihovna je napsán v Pythonu s prvky v Cythonu, rozšíření Pythonu, které umožňuje přímé volání funkcí v jazyce C.

Kód projektu je distribuován pod licencí MIT. Jazykové modely jsou připraveny pro 58 jazyků.

O nové verzi spaCy 3.0

Verze spaCy 3.0 vyniká implementací modelové rodiny přeškolení na 18 jazyků a Vycvičeno 59 potrubí celkem, včetně 5 nových potrubí založených na transformátorech

Model je nabízen ve třech verzích (16 MB, 41 MB - 20 tisíc vektorů a 491 MB - 500 tisíc vektorů) a je optimalizován pro práci při zatížení CPU a zahrnuje komponenty tok2vec, morphologizer, parser, senter, ner, attribute_ruler a lemmatizer.

Na spaCy v3.0 pracujeme déle než rok a pokud spočítáte veškerou práci odvedenou na Thinc, téměř dva roky. Naším hlavním cílem při uvedení na trh je usnadnit přenášení vlastních modelů do SPACY, zejména těch nejmodernějších modelů, jako jsou transformátory. Můžete psát modely, které krmí komponenty spaCy do frameworků jako PyTorch nebo TensorFlow, pomocí našeho úžasného nového konfiguračního systému k popisu všech vašich nastavení. A protože moderní pracovní postupy NLP často sestávají z několika kroků, existuje nový systém pracovních postupů, který vám pomůže udržet organizovanou práci.

Další důležité inovace které vyčnívají z nové verze:

  • Nový pracovní postup pro tréninkové modely.
  • Nový konfigurační systém.
  • Podpora transformátorových modelů potrubí vhodných pro multitaskingové učení.
  • Možnost připojit své vlastní modely pomocí různých rámců strojového učení, jako jsou PyTorch, TensorFlow a MXNet.
  • Podpora projektu pro správu všech fází pracovních toků, od předběžného zpracování až po implementaci modelu.
  • Podpora integrace s balíčky Data Version Control (DVC), Streamlit, Weights & Biases a Ray.
  • Nové integrované komponenty: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler a Transformer.
  • Nové API pro vytváření vlastních komponent.

Konečně, pokud máte zájem o tom vědět více této nové verze nebo o spaCy můžete zkontrolovat podrobnosti Na následujícím odkazu.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.