kylpylä, luonnollinen kielenkäsittelykirjasto

Explosion AI paljasti ilmainen kirjaston uusi versio «Kylpylä»Joka on toteutettu luonnollisen kielen käsittelyalgoritmit (NLP). Käytännössä, projektia voidaan käyttää vastausten rakentamiseen, botit, tekstiluokittelijat ja erilaiset valintajärjestelmät, jotka määrittävät lauseiden merkityksen.

Kirjasto on suunniteltu tarjoamaan pysyvä API Se ei ole linkitetty algoritmeihin, joita käytetään ja jotka ovat valmiita käytettäväksi todellisissa tuotteissa. Kirjasto käyttää NLP: n uusimpia edistysaskeleita ja tehokkaimpia algoritmeja käytettävissä tietojen käsittelyyn.

Jos näkyviin tulee tehokkaampi algoritmi, kirjasto siirretään siihen, mutta tämä siirtymä ei vaikuta sovellusliittymään tai sovelluksiin.

SpaCyn ominaisuus se on myös arkkitehtuuri, joka on suunniteltu käsittelemään täydellisiä asiakirjoja, ilman esikäsittelyä esikäsittelijöissä, jotka jakavat asiakirjan lauseiksi. Malleja on saatavana kahtena versiona: maksimaalisen tuottavuuden ja tarkkuuden saavuttamiseksi.

Kylpylän pääpiirteet:

  • Tuki noin 60 kielelle.
  • Jo koulutettuja malleja saatavana eri kielille ja sovelluksille.
  • Usean tehtävän oppiminen käyttämällä aiemmin koulutettuja muuntajia, kuten BERT (Bidirectional Encoder Renderings of Transformers).
  • Tuki ennalta koulutetuille vektoreille ja sanojen upotuksille.
  • Korkea suorituskyky.
  • Käyttövalmis työpaikan koulutusjärjestelmän malli.
  • Kielellisesti perusteltu tokenisaatio.
  • Käyttövalmiita komponentteja on saatavilla nimettyjen entiteettien linkittämiseen, puheen osien merkitsemiseen, tekstin luokitteluun, tagipohjaisten riippuvuuksien analysointiin, lauseiden jakamiseen, puheen osien merkitsemiseen, morfologiseen analyysiin, perimiseen jne.
  • Tuki toiminnallisuuden laajentamiseen mukautetuilla komponenteilla ja määritteillä.
  • Tuki oman mallin luomiseen PyTorchin, TensorFlow'n ja muihin kehyksiin perustuen.
  • Sisäänrakennetut työkalut nimettyjen entiteettien sidontaan ja syntaksin visualisointiin (NER, Named Entity Recognition)
  • Yksinkertainen mallien pakkaus- ja käyttöönotto sekä työnkulun hallinta.
  • Korkea tarkkuus.

Kirjasto on kirjoitettu Pythonissa ja elementit Cythonissa, Python-laajennus, joka sallii suoran funktion kutsun C-kielellä.

Projektin koodi jaetaan MIT-lisenssillä. Kielimallit ovat valmiita 58 kielelle.

Tietoja spaCy 3.0: n uudesta versiosta

SpaCy 3.0 -versio erottuu toiminnasta malliperheet koulutettu uudelleen 18 kielelle ja 59 putkilinjaa koulutettu yhteensä 5 uutta muuntajapohjaista putkistoa

Mallia on saatavana kolmessa versiossa (16 Mt, 41 Mt - 20 tuhatta vektoria ja 491 Mt - 500 tuhatta vektoria) ja on optimoitu toimimaan suorittimen kuormituksella ja sisältää tok2vec-, morfologizer-, jäsentäjä-, lähettäjän-, ner-, attribute_ruler- ja lemmatizer-komponentit.

Olemme työskennelleet spaCy v3.0: n kanssa yli vuoden, ja melkein kaksi vuotta, jos lasket kaiken Thincin kanssa tehdyn työn. Päätavoitteemme lanseerauksen yhteydessä on helpottaa omien mallien tuomista SPACY-tilaan, etenkin uusimpia malleja, kuten muuntajia. Voit kirjoittaa malleja, jotka syöttävät spaCy-komponentteja kehyksiin, kuten PyTorch tai TensorFlow, käyttämällä upeaa uutta kokoonpanojärjestelmäämme kuvaamaan kaikki asetuksesi. Ja koska nykyaikaiset NLP-työnkulut koostuvat usein useista vaiheista, on uusi työnkulkujärjestelmä, joka auttaa pitämään työn järjestyksessä.

Muita tärkeitä innovaatioita jotka erottuvat uudesta versiosta:

  • Uusi työnkulku koulutusmalleille.
  • Uusi kokoonpanojärjestelmä.
  • Tuki muuntajapohjaisille putkimalleille, jotka sopivat moniajo-oppimiseen.
  • Mahdollisuus yhdistää omat mallisi käyttämällä erilaisia ​​koneoppimiskehyksiä, kuten PyTorch, TensorFlow ja MXNet.
  • Projektituki työnkulkujen kaikkien vaiheiden hallitsemiseksi esikäsittelystä mallin käyttöönottoon.
  • Tuki integroinnille Data Version Control (DVC), Streamlit, Weights & Biases ja Ray-paketteihin.
  • Uudet sisäänrakennetut komponentit: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ja Transformer.
  • Uusi sovellusliittymä omien komponenttien luomiseen.

lopuksi, jos olet kiinnostunut tietämään siitä lisää tästä uudesta versiosta tai spaCY: stä, voit tarkistaa yksityiskohdat Seuraavassa linkissä.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.