spaCy, knižnica na spracovanie prirodzeného jazyka

Explosion AI predstavila zahájenie nová verzia bezplatnej knižnice «SpaCy»Ktorý má implementáciu algoritmy spracovania prirodzeného jazyka (NLP). V praxi, projekt je možné použiť na zostavenie automatických odpovedí, roboty, klasifikátory textu a rôzne systémy dialógov, ktoré určujú význam fráz.

Knižnica je navrhnutý tak, aby poskytoval trvalé API Nie je prepojený s použitými algoritmami a je pripravený na použitie v skutočných produktoch. Knižnica využíva najnovšie pokroky v NLP a najefektívnejšie algoritmy k dispozícii na spracovanie informácií.

Ak sa objaví efektívnejší algoritmus, predá sa mu knižnica, ale tento prechod neovplyvní API ani aplikácie.

Funkcia spaCy je to tiež architektúra určená na spracovanie kompletných dokumentov, bez predbežného spracovania v predbežných procesoroch, ktoré rozdeľujú dokument na frázy. Modely sú ponúkané v dvoch verziách: pre maximálnu produktivitu a maximálnu presnosť.

Hlavné vlastnosti spaCy:

  • Podpora približne 60 jazykov.
  • Už sú k dispozícii vyškolené modely pre rôzne jazyky a aplikácie.
  • Učenie viacerých úloh pomocou predtým trénovaných transformátorov, ako je BERT (obojsmerné kódovanie vykresľovania transformátorov).
  • Podpora vopred vyškolených vektorov a vkladania slov.
  • Vysoký výkon.
  • Model výcvikového systému pripravený na okamžité použitie.
  • Jazykovo motivovaná tokenizácia.
  • K dispozícii sú pripravené komponenty na prepájanie pomenovaných entít, označovanie častí reči, klasifikáciu textu, analýzu závislostí založených na značkách, rozdeľovanie viet, označovanie častí reči, morfologickú analýzu, vyňatie atď.
  • Podpora rozšírenia funkčnosti o vlastné komponenty a atribúty.
  • Podpora vytvárania vlastných modelov založených na PyTorch, TensorFlow a iných rámcoch.
  • Vstavané nástroje na viazanie pomenovaných entít a vizualizáciu syntaxe (NER, Named Entity Recognition).
  • Jednoduchý proces balenia a nasadenia modelov a riadenia pracovného toku.
  • Vysoká presnosť.

Knižnica je napísaný v Pythone s prvkami v Cythone, rozšírenie Pythonu, ktoré umožňuje priame volanie funkcií v jazyku C.

Kód projektu je distribuovaný pod licenciou MIT. Jazykové modely sú pripravené pre 58 jazykov.

O novej verzii spaCy 3.0

Verzia spaCy 3.0 vyniká implementáciou modelové rodiny preškolený na 18 jazykov a Vycvičených 59 potrubí celkovo vrátane 5 nových potrubí na báze transformátorov

Model je ponúkaný v troch verziách (16 MB, 41 MB - 20 tisíc vektorov a 491 MB - 500 tisíc vektorov) a je optimalizovaný na prácu pri zaťažení CPU a obsahuje komponenty tok2vec, morphologizer, parser, senter, ner, attribute_ruler a lemmatizer.

Na spaCy v3.0 pracujeme už viac ako rok a ak započítate všetku prácu vykonanú na Thinc, takmer dva roky. Naším hlavným cieľom pri uvedení na trh je uľahčiť prinášanie vlastných modelov v SPACY, najmä najmodernejších modelov, ako sú transformátory. Môžete písať modely, ktoré napájajú komponenty spaCy do rámcov ako PyTorch alebo TensorFlow, pomocou nášho úžasného nového konfiguračného systému, ktorý popisuje všetky vaše nastavenia. A keďže moderné pracovné postupy NLP často pozostávajú z viacerých krokov, existuje nový systém pracovných tokov, ktorý vám pomôže organizovať vašu prácu.

Ďalšie dôležité inovácie ktoré vyčnievajú z novej verzie:

  • Nový pracovný postup pre výcvikové modely.
  • Nový konfiguračný systém.
  • Podpora pre transformačné potrubné modely vhodné pre multitaskingové učenie.
  • Schopnosť pripojiť svoje vlastné modely pomocou rôznych rámcov strojového učenia, ako sú PyTorch, TensorFlow a MXNet.
  • Podpora projektu na riadenie všetkých fáz pracovných tokov, od predbežného spracovania po implementáciu modelu.
  • Podpora integrácie s balíčkami Data Version Control (DVC), Streamlit, Weights & Biases a Ray.
  • Nové vstavané komponenty: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler a Transformer.
  • Nové API na vytváranie vlastných komponentov.

konečne, ak máte záujem dozvedieť sa o tom viac tejto novej verzie alebo o spaCy, môžete skontrolovať podrobnosti Na nasledujúcom odkaze.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.