spaCy, ett naturligt språkbibliotek

Explosion AI presenterade lanseringen av den nya versionen av gratisbiblioteket «SpaCy»Som har en implementering av naturliga språkbearbetningsalgoritmer (NLP). I praktiken, projektet kan användas för att bygga autosvar, bots, textklassificerare och olika dialogsystem som bestämmer betydelsen av fraser.

Bibliotek är utformad för att tillhandahålla ett beständigt API Det är inte kopplat till de algoritmer som används och är redo att användas i riktiga produkter. Bibliotek använder de senaste framstegen inom NLP och de mest effektiva algoritmerna tillgänglig för att behandla information.

Om en mer effektiv algoritm visas överförs biblioteket till den, men denna övergång påverkar inte API: et eller applikationerna.

En del av spaCy det är också en arkitektur som är utformad för att behandla kompletta dokument, utan förbehandling i förbehandlare som delar upp dokumentet i fraser. Modellerna erbjuds i två versioner: för maximal produktivitet och maximal precision.

De viktigaste funktionerna i spaCy:

  • Stöd för cirka 60 språk.
  • Redan utbildade modeller tillgängliga för olika språk och applikationer.
  • Multitask-lärande med tidigare utbildade transformatorer som BERT (Bidirectional Encoder Renderings of Transformers).
  • Stöd för förutbildade vektorer och ordinbäddningar.
  • Hög prestanda.
  • Färdig att använda arbetsutbildningsmodellen.
  • Språkmotiverad tokenisering.
  • Färdiga komponenter finns tillgängliga för att länka namngivna enheter, markera delar av talet, klassificera text, analysera taggbaserade beroenden, dela meningar, markera delar av tal, morfologisk analys, stemming etc.
  • Stöd för att utöka funktionaliteten med anpassade komponenter och attribut.
  • Stöd för att skapa egna modeller baserade på PyTorch, TensorFlow och andra ramar.
  • Inbyggda verktyg för Named Entity Binding och Syntax Visualization (NER, Named Entity Recognition).
  • Enkel process för att packa och distribuera modeller och hantera arbetsflöde.
  • Hög precision.

Bibliotek är skriven i Python med element i Cython, en Python-förlängning som möjliggör direkt funktionssamtal på C-språket.

Projektkoden distribueras under MIT-licensen. Språkmodeller är redo för 58 språk.

Om den nya versionen av spaCy 3.0

Versionen av spaCy 3.0 sticker ut för implementeringen av modellera familjer omskolas för 18 språk och 59 rörledningar tränade totalt, inklusive 5 nya transformatorbaserade rörledningar

Modellen erbjuds i tre versioner (16 MB, 41 MB - 20 tusen vektorer och 491 MB - 500 tusen vektorer) och är optimerad för att fungera under CPU-belastning och inkluderar komponenterna tok2vec, morphologizer, parser, senter, ner, attribute_ruler och lemmatizer.

Vi har arbetat med spaCy v3.0 i över ett år och nästan två år om du räknar med allt arbete på Thinc. Vårt huvudsakliga mål med lanseringen är att göra det lättare att bära dina egna modeller i SPACY, särskilt toppmoderna modeller som transformatorer. Du kan skriva modeller som matar spaCy-komponenterna i ramverk som PyTorch eller TensorFlow, med vårt fantastiska nya konfigurationssystem för att beskriva alla dina inställningar. Och eftersom moderna NLP-arbetsflöden ofta består av flera steg finns det ett nytt arbetsflödessystem som hjälper dig att hålla ditt arbete organiserat.

Andra viktiga innovationer som sticker ut från den nya versionen:

  • Nytt arbetsflöde för träningsmodeller.
  • Nytt konfigurationssystem.
  • Stöd för transformatorbaserade rörledningsmodeller, lämpliga för multitasking-lärande.
  • Möjligheten att ansluta dina egna modeller med olika maskininlärningsramar, som PyTorch, TensorFlow och MXNet.
  • Projektstöd för att hantera alla steg i arbetsflöden, från förbehandling till modellimplementering.
  • Stöd för integration med Data Version Control (DVC), Streamlit, Weights & Biases och Ray-paket.
  • Nya inbyggda komponenter: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler och Transformer.
  • Nytt API för att skapa dina egna komponenter.

Slutligen, om du är intresserad av att veta mer om det i den här nya versionen eller om spaCy kan du kontrollera detaljerna I följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.