SPACY, natūralios kalbos apdorojimo biblioteka

Sprogdinimo AI pristatė naują nemokamos bibliotekos versiją «SpaCy»Kuris yra įdiegtas natūralios kalbos apdorojimo algoritmai (NLP). Praktikoje, projektas gali būti naudojamas kurti automatinius atsakiklius, robotai, teksto klasifikatoriai ir įvairios dialogo sistemos, nustatančios frazių reikšmę.

Biblioteka yra sukurta siekiant suteikti patvarią API Jis nėra susietas su algoritmais, naudojamais ir paruoštais naudoti realiuose produktuose. Biblioteka naudoja naujausius NLP pasiekimus ir efektyviausius algoritmus prieinama informacijai apdoroti.

Jei pasirodo efektyvesnis algoritmas, biblioteka perduodama į ją, tačiau šis perėjimas neturi įtakos API ar programoms.

SPACY bruožas tai taip pat yra architektūra, skirta apdoroti išsamius dokumentus, be išankstinio apdorojimo pirminiuose procesoriuose, kurie dokumentą dalija į frazes. Modeliai siūlomi dviem versijomis: siekiant maksimalaus produktyvumo ir maksimalaus tikslumo.

Pagrindiniai SPACY bruožai:

  • Palaikymas maždaug 60 kalbų.
  • Jau parengti modeliai, skirti įvairioms kalboms ir įvairioms programoms.
  • Daugiafunkcinis mokymasis naudojant anksčiau apmokytus transformatorius, tokius kaip BERT (Transformatorių dvikryptis kodavimo įrenginių atvaizdavimas).
  • Parama iš anksto apmokytiems vektoriams ir žodžių įterpimams.
  • Didelis našumas.
  • Paruoštas naudoti mokymo sistemos modelis darbe.
  • Lingvistinė motyvacija.
  • Paruošti naudoti komponentai yra skirti susieti įvardintus objektus, žymėti kalbos dalis, klasifikuoti tekstą, analizuoti žymėmis pagrįstas priklausomybes, padalinti sakinius, žymėti kalbos dalis, morfologinę analizę, išvedimą ir kt.
  • Parama funkcijų išplėtimui naudojant pasirinktinius komponentus ir atributus.
  • Palaikymas kuriant savo modelius, pagrįstus „PyTorch“, „TensorFlow“ ir kitomis sistemomis.
  • Įmontuoti įrankiai, skirti įvardytų subjektų susiejimui ir sintaksės vizualizavimui (NER, pavadinto subjekto atpažinimas).
  • Paprastas modelių pakavimo ir diegimo bei darbo eigos valdymo procesas.
  • Didelis tikslumas.

Biblioteka parašyta „Python“ su elementais „Cython“, „Python“ plėtinys, leidžiantis tiesiogiai skambinti funkcijomis C kalba.

Projekto kodas platinamas pagal MIT licenciją. Kalbos modeliai parengti 58 kalboms.

Apie naują „spaCy 3.0“ versiją

„SpaCy 3.0“ versija išsiskiria įdiegimu pavyzdinės šeimos perkvalifikuota 18 kalbų ir Išmokyta 59 vamzdynai iš viso, įskaitant 5 naujus transformatorinius vamzdynus

Modelis siūlomas trimis variantais (16 MB, 41 MB - 20 tūkstančių vektorių ir 491 MB - 500 tūkstančių vektorių) ir yra optimizuotas dirbti su procesoriaus apkrova ir apima tok2vec, morfologizatorių, analizatorių, siuntėją, nerą, attribute_ruler ir lemmatizer komponentus.

Mes dirbome su „spaCy v3.0“ daugiau nei metus ir beveik dvejus metus, jei skaičiuosite visus „Thinc“ atliktus darbus. Pagrindinis mūsų tikslas yra palengvinti savo modelių pristatymą „SPACY“, ypač moderniausius modelius, tokius kaip transformatoriai. Galite parašyti modelius, kurie maitina „spaCy“ komponentus į tokias sistemas kaip „PyTorch“ ar „TensorFlow“, naudodamiesi mūsų nuostabia nauja konfigūravimo sistema, kad aprašytumėte visus jūsų nustatymus. Kadangi šiuolaikinės NLP darbo eigos dažnai susideda iš kelių žingsnių, yra nauja darbo eigos sistema, kuri padės jums organizuoti darbą.

Kitos svarbios naujovės kurie išsiskiria iš naujos versijos:

  • Nauja mokymo modelių darbo eiga.
  • Nauja konfigūracijos sistema.
  • Transformatorių dujotiekio modelių palaikymas, tinkamas mokytis iš daugelio užduočių.
  • Galimybė susieti savo modelius naudojant įvairias mašininio mokymosi sistemas, tokias kaip PyTorch, TensorFlow ir MXNet.
  • Projektinė pagalba valdyti visus darbo eigos etapus, pradedant išankstiniu apdorojimu ir baigiant modelio įgyvendinimu.
  • Parama integracijai su duomenų versijų valdymu (DVC), „Streamlit“, „Weights & Biases“ ir „Ray“ paketais.
  • Nauji įmontuoti komponentai: „SentenceRecognizer“, „Morphologizer“, „Lemmatizer“,
  • „AttributeRuler“ ir „Transformeris“.
  • Nauja API, skirta sukurti savo komponentus.

Galiausiai, jei norite sužinoti daugiau apie tai šios naujos versijos ar apie „SPACY“, galite patikrinti išsamią informaciją Šioje nuorodoje.


Būkite pirmas, kuris pakomentuos

Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.