spaCy, et naturligt sprogbehandlingsbibliotek

Eksplosion AI afslørede lanceringen af den nye version af det gratis bibliotek «SpaCy»Som har en implementering af naturlige sprogbehandlingsalgoritmer (NLP). I praksis, projektet kan bruges til at oprette autosvar, bots, tekstklassifikatorer og forskellige dialogsystemer, der bestemmer betydningen af ​​sætninger.

Bibliotek er designet til at give en vedvarende API Det er ikke knyttet til de anvendte algoritmer og klar til brug i ægte produkter. Bibliotek bruger de seneste fremskridt inden for NLP og de mest effektive algoritmer tilgængelig til behandling af information.

Hvis der vises en mere effektiv algoritme, overføres biblioteket til den, men denne overgang påvirker ikke API eller applikationer.

Et træk ved spaCy det er også en arkitektur designet til at behandle komplette dokumenter, uden forbehandling i forbehandlere, der opdeler dokumentet i sætninger. Modellerne tilbydes i to versioner: for maksimal produktivitet og maksimal præcision.

De vigtigste funktioner i spaCy:

  • Support til omkring 60 sprog.
  • Allerede uddannede modeller tilgængelige til forskellige sprog og applikationer.
  • Multitask-læring ved hjælp af tidligere uddannede transformatorer som BERT (Bidirectional Encoder Renderings of Transformers).
  • Støtte til foruddannede vektorer og ordindlejringer.
  • Høj ydeevne.
  • Klar til brug on-the-job træningssystemmodel.
  • Sprogligt motiveret tokenisering.
  • Færdige komponenter er tilgængelige til at forbinde navngivne enheder, markere dele af talen, klassificere tekst, analysere tagbaserede afhængigheder, opdele sætninger, markere dele af talen, morfologisk analyse, stemming osv.
  • Understøttelse af udvidelse af funktionalitet med brugerdefinerede komponenter og attributter.
  • Støtte til at oprette dine egne modeller baseret på PyTorch, TensorFlow og andre rammer.
  • Indbyggede værktøjer til Named Entity Binding og Syntax Visualization (NER, Named Entity Recognition).
  • Enkel proces til emballering og implementering af modeller og styring af workflow.
  • Høj nøjagtighed.

Bibliotek er skrevet i Python med elementer i Cython, en Python-udvidelse, der muliggør direkte funktionskald på C-sproget.

Projektkoden distribueres under MIT-licensen. Sprogmodellerne er klar til 58 sprog.

Om den nye version af spaCy 3.0

SpaCy 3.0-versionen skiller sig ud til implementeringen af modelfamilier omskoleret til 18 sprog og 59 trænede rørledninger i alt inklusive 5 nye transformerbaserede rørledninger

Modellen tilbydes i tre versioner (16 MB, 41 MB - 20 tusind vektorer og 491 MB - 500 tusind vektorer) og er optimeret til at arbejde under CPU-belastning og inkluderer komponenterne tok2vec, morphologizer, parser, senter, ner, attribute_ruler og lemmatizer.

Vi har arbejdet med spaCy v3.0 i over et år og næsten to år, hvis du tæller alt det arbejde, der er udført på Thinc. Vores hovedmål med lanceringen er at gøre det lettere at bringe dine egne modeller i SPACY, især de nyeste modeller som transformere. Du kan skrive modeller, der føder spaCy-komponenterne til rammer som PyTorch eller TensorFlow, ved hjælp af vores fantastiske nye konfigurationssystem til at beskrive alle dine indstillinger. Og da moderne NLP-arbejdsgange ofte består af flere trin, er der et nyt workflow-system, der hjælper dig med at holde dit arbejde organiseret.

Andre vigtige innovationer der skiller sig ud fra den nye version:

  • Ny arbejdsgang til træningsmodeller.
  • Nyt konfigurationssystem.
  • Støtte til transformerbaserede rørledningsmodeller, der er velegnet til multitasking-læring.
  • Evnen til at forbinde dine egne modeller ved hjælp af forskellige maskinlæringsrammer, såsom PyTorch, TensorFlow og MXNet.
  • Projektstøtte til styring af alle faser af arbejdsgange, fra forbehandling til modelimplementering.
  • Understøttelse af integration med Data Version Control (DVC), Streamlit, Weights & Biases og Ray-pakker.
  • Nye indbyggede komponenter: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler og Transformer.
  • Ny API til at oprette dine egne komponenter.

Endelig hvis du er interesseret i at vide mere om det i denne nye version eller om spaCy, kan du kontrollere detaljerne I det følgende link.


Indholdet af artiklen overholder vores principper for redaktionel etik. Klik på for at rapportere en fejl her.

Vær den første til at kommentere

Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.