spaCy, una libreria per l'elaborazione del linguaggio naturale

Explosion AI ha svelato il lancio di la nuova versione della libreria gratuita «SpaCy»Che ha un'implementazione di algoritmi di elaborazione del linguaggio naturale (PNL). In pratica, il progetto può essere utilizzato per costruire autorisponditori, bot, classificatori di testo e vari sistemi di dialogo che determinano il significato delle frasi.

La biblioteca è progettato per fornire un'API persistente Non è collegato agli algoritmi utilizzati e pronto per l'uso nei prodotti reali. Biblioteca utilizza gli ultimi progressi della PNL e gli algoritmi più efficienti disponibile per elaborare le informazioni.

Se viene visualizzato un algoritmo più efficiente, la libreria viene passata al suo interno, ma questa transizione non influisce sull'API o sulle applicazioni.

Una caratteristica di spaCy è anche un'architettura progettata per elaborare documenti completi, senza preelaborazione nei preprocessori che dividono il documento in frasi. I modelli sono proposti in due versioni: per la massima produttività e la massima precisione.

Le caratteristiche principali di spaCy:

  • Supporto per circa 60 lingue.
  • Modelli già addestrati disponibili per diverse lingue e applicazioni.
  • Apprendimento multitasking utilizzando trasformatori precedentemente addestrati come BERT (Bidirectional Encoder Renderings of Transformers).
  • Supporto per vettori pre-addestrati e incorporamenti di parole.
  • Alte prestazioni.
  • Modello di sistema di formazione sul lavoro pronto per l'uso.
  • Tokenizzazione motivata linguisticamente.
  • Sono disponibili componenti pronti all'uso per collegare entità denominate, contrassegnare parti del discorso, classificare il testo, analizzare le dipendenze basate su tag, dividere frasi, contrassegnare parti del discorso, analisi morfologica, stemming, ecc.
  • Supporto per l'estensione della funzionalità con componenti e attributi personalizzati.
  • Supporto per creare i tuoi modelli basati su PyTorch, TensorFlow e altri framework.
  • Strumenti integrati per il binding di entità denominate e la visualizzazione della sintassi (NER, Named Entity Recognition).
  • Semplice processo di creazione di pacchetti e distribuzione di modelli e gestione del flusso di lavoro.
  • Alta precisione.

La biblioteca è scritto in Python con elementi in Cython, un'estensione Python che consente la chiamata diretta di funzioni nel linguaggio C.

Il codice del progetto è distribuito sotto la licenza MIT. I modelli linguistici sono pronti per 58 lingue.

Informazioni sulla nuova versione di spaCy 3.0

La versione spaCy 3.0 si distingue per l'implementazione di famiglie modello riqualificato per 18 lingue e 59 pipeline addestrate in totale, comprese 5 nuove tubazioni basate su trasformatore

Il modello è offerto in tre versioni (16 MB, 41 MB - 20 mila vettori e 491 MB - 500 mila vettori) e è ottimizzato per funzionare sotto carico della CPU e include i componenti tok2vec, morphologizer, parser, senter, ner, attribute_ruler e lemmatizer.

Lavoriamo su spaCy v3.0 da oltre un anno e quasi due anni se si conta tutto il lavoro svolto su Thinc. Il nostro obiettivo principale con il lancio è rendere più facile portare i tuoi modelli in SPACY, in particolare i modelli all'avanguardia come i trasformatori. Puoi scrivere modelli che alimentano i componenti spaCy in framework come PyTorch o TensorFlow, utilizzando il nostro fantastico nuovo sistema di configurazione per descrivere tutte le tue impostazioni. E poiché i flussi di lavoro PNL moderni spesso consistono in più passaggi, esiste un nuovo sistema di flusso di lavoro per aiutarti a mantenere il tuo lavoro organizzato.

Altre importanti innovazioni che si distinguono dalla nuova versione:

  • Nuovo flusso di lavoro per i modelli di formazione.
  • Nuovo sistema di configurazione.
  • Supporto per modelli di pipeline basati su trasformatore, adatti per l'apprendimento multitasking.
  • La possibilità di connettere i tuoi modelli utilizzando vari framework di machine learning, come PyTorch, TensorFlow e MXNet.
  • Supporto al progetto per gestire tutte le fasi dei flussi di lavoro, dalla pre-elaborazione all'implementazione del modello.
  • Supporto per l'integrazione con i pacchetti Data Version Control (DVC), Streamlit, Weights & Biases e Ray.
  • Nuovi componenti integrati: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler e Transformer.
  • Nuova API per creare i tuoi componenti.

Infine, se sei interessato a saperne di più di questa nuova versione o su spaCy, puoi controllare i dettagli nel seguente link


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.