spaCy, et naturlig språkbehandlingsbibliotek

Explosion AI avduket lanseringen av den nye versjonen av gratisbiblioteket «SpaCy»Som har en implementering av naturlige språkbehandlingsalgoritmer (NLP). I praksis, prosjektet kan brukes til å bygge autosvar, bots, tekstklasser og forskjellige dialogsystemer som bestemmer betydningen av setninger.

Bibliotek er designet for å gi en vedvarende API Det er ikke knyttet til algoritmene som er brukt og klare til bruk i ekte produkter. Bibliotek bruker de siste fremskrittene innen NLP og de mest effektive algoritmene tilgjengelig for å behandle informasjon.

Hvis en mer effektiv algoritme vises, sendes biblioteket til den, men denne overgangen påvirker ikke API eller applikasjoner.

En funksjon av spaCy det er også en arkitektur designet for å behandle komplette dokumenter, uten forhåndsbehandling i forhåndsbehandlere som deler dokumentet i fraser. Modellene tilbys i to versjoner: for maksimal produktivitet og maksimal presisjon.

Hovedtrekkene i spaCy:

  • Støtte for rundt 60 språk.
  • Allerede trente modeller tilgjengelig for forskjellige språk og applikasjoner.
  • Multitask-læring ved hjelp av tidligere trente transformatorer som BERT (Bidirectional Encoder Renderings of Transformers).
  • Støtte for forhåndstrente vektorer og ordinnstøpninger.
  • Høy ytelse.
  • Klar til bruk arbeidsmodell for treningssystem.
  • Språklig motivert tokenisering.
  • Ferdige komponenter er tilgjengelige for å koble sammen navngitte enheter, markere deler av talen, klassifisere tekst, analysere tagbaserte avhengigheter, dele setninger, markere deler av talen, morfologisk analyse, stemming osv.
  • Støtte for utvidelse av funksjonalitet med tilpassede komponenter og attributter.
  • Støtte for å lage dine egne modeller basert på PyTorch, TensorFlow og andre rammer.
  • Innebygde verktøy for Named Entity Binding og Syntax Visualization (NER, Named Entity Recognition).
  • Enkel prosess for emballering og distribusjon av modeller og administrering av arbeidsflyt.
  • Høy presisjon.

Bibliotek er skrevet i Python med elementer i Cython, en Python-utvidelse som tillater direkte funksjonssamtaler på C-språket.

Prosjektkoden distribueres under MIT-lisensen. Språkmodellene er klare for 58 språk.

Om den nye versjonen av spaCy 3.0

SpaCy 3.0-versjonen skiller seg ut for implementeringen av modellfamilier omskolert i 18 språk og 59 rørledninger trent totalt, inkludert 5 nye transformatorbaserte rørledninger

Modellen tilbys i tre versjoner (16 MB, 41 MB - 20 tusen vektorer og 491 MB - 500 tusen vektorer) og er optimalisert for å fungere under CPU-belastning og inkluderer komponentene tok2vec, morphologizer, parser, senter, ner, attribute_ruler og lemmatizer.

Vi har jobbet med spaCy v3.0 i over et år, og nesten to år hvis du teller alt arbeidet som er gjort på Thinc. Vårt hovedmål med lanseringen er å gjøre det enklere å ta med egne modeller i SPACY, spesielt toppmoderne modeller som transformatorer. Du kan skrive modeller som mater spaCy-komponentene inn i rammer som PyTorch eller TensorFlow, ved å bruke vårt fantastiske nye konfigurasjonssystem for å beskrive alle innstillingene dine. Og siden moderne NLP-arbeidsflyter ofte består av flere trinn, er det et nytt arbeidsflytsystem som hjelper deg med å holde arbeidet organisert.

Andre viktige innovasjoner som skiller seg ut fra den nye versjonen:

  • Ny arbeidsflyt for treningsmodeller.
  • Nytt konfigurasjonssystem.
  • Støtte for transformatorbaserte rørledningsmodeller, egnet for multitasking-læring.
  • Evnen til å koble til dine egne modeller ved hjelp av forskjellige maskinlæringsrammer, som PyTorch, TensorFlow og MXNet.
  • Prosjektstøtte for å administrere alle trinn i arbeidsflyter, fra forbehandling til implementering av modeller.
  • Støtte for integrasjon med Data Version Control (DVC), Streamlit, Vekter og forspenninger og Ray-pakker.
  • Nye innebygde komponenter: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler og Transformer.
  • Ny API for å lage dine egne komponenter.

Endelig, hvis du er interessert i å vite mer om det av denne nye versjonen eller om spaCy, kan du sjekke detaljene I den følgende lenken.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.