spaCy, naturlingva prilaborada biblioteko

Explosion AI rivelis la lanĉon de la nova versio de la senpaga biblioteko «SpaCy»Kiu havas efektivigon de algoritmoj pri naturlingva prilaborado (NLP). En praktiko, la projekto povas esti uzata por konstrui aŭtomatajn respondilojn, robotoj, tekstoklasifikiloj kaj diversaj dialogaj sistemoj, kiuj determinas la signifon de frazoj.

Biblioteko estas desegnita por provizi konstantan API Ĝi ne estas ligita al la algoritmoj uzataj kaj preta por uzi en veraj produktoj. Biblioteko uzas la plej novajn progresojn en NLP kaj la plej efikajn algoritmojn disponebla por prilabori informojn.

Se pli efika algoritmo aperas, la biblioteko estas transdonita al ĝi, sed ĉi tiu transiro ne influas la API aŭ aplikojn.

Karakterizaĵo de spaCy ĝi ankaŭ estas arkitekturo desegnita por prilabori kompletajn dokumentojn, sen antaŭprilaborado ĉe antaŭprocesiloj, kiuj dividas la dokumenton en frazojn. Modeloj estas ofertitaj en du versioj: por maksimuma produktiveco kaj maksimuma precizeco.

La ĉefaj trajtoj de spaCy:

  • Subteno por ĉirkaŭ 60 lingvoj.
  • Jam trejnitaj modeloj disponeblaj por diversaj lingvoj kaj aplikoj.
  • Plurlitera lernado per antaŭe trejnitaj transformiloj kiel BERT (Bidirectional Encoder Renderings of Transformers).
  • Subteno por antaŭ-trejnitaj vektoroj kaj vort-enmetoj.
  • Alta rendimento.
  • Preta uzebla surlabora trejna sistemo-modelo.
  • Lingve motivita tokenigo.
  • Pretaj komponentoj haveblas por ligi nomitajn entojn, marki parolpartojn, klasifiki tekston, analizi etikedajn dependecojn, dividi frazojn, marki parolpartojn, morfologian analizon, devenon, ktp.
  • Subteno por etendi funkciojn kun kutimaj komponantoj kaj atributoj.
  • Subteno por krei viajn proprajn modelojn bazitajn sur PyTorch, TensorFlow kaj aliaj kadroj.
  • Enkonstruitaj iloj por Named Entity Binding kaj Sintaksa Vidigo (NER, Named Entity Recognition).
  • Simpla procezo de pakado kaj deplojo de modeloj kaj mastrumado de laborfluo.
  • Alta precizeco.

Biblioteko estas skribita en Python kun elementoj en Cython, Python-etendaĵo, kiu permesas rektan funkcion vokantan en la C-lingvo.

La projekta kodo estas distribuita sub la licenco MIT. Lingvaj modeloj pretas por 58 lingvoj.

Pri la nova versio de spaCy 3.0

La versio spaCy 3.0 elstaras pro la efektivigo de modelaj familioj retrejnita por 18 lingvoj kaj 59 duktoj trejnitaj entute, inkluzive de 5 novaj transformil-bazitaj duktoj

La modelo estas proponita en tri versioj (16 MB, 41 MB - 20 mil vektoroj kaj 491 MB - 500 mil vektoroj) kaj estas optimumigita por funkcii sub CPU-ŝarĝo kaj inkluzivas la komponantojn tok2vec, morphologizer, parser, senter, ner, attribute_ruler kaj lemmatizer.

Ni laboras pri spaCy v3.0 dum pli ol jaro, kaj preskaŭ du jarojn se vi kalkulas la tutan laboron faritan sur Thinc. Nia ĉefa celo kun la lanĉo estas faciligi alporti viajn proprajn modelojn en SPACY, precipe la plej modernaj modeloj kiel transformiloj. Vi povas skribi modelojn, kiuj nutras la komponentojn spaCy en kadrojn kiel PyTorch aŭ TensorFlow, uzante nian mirindan novan agordan sistemon por priskribi ĉiujn viajn agordojn. Kaj ĉar modernaj NLP-laborfluoj ofte konsistas el multoblaj paŝoj, ekzistas nova laborfluosistemo por helpi vin teni vian laboron organizita.

Aliaj gravaj novigoj kiuj elstaras de la nova versio:

  • Nova laborfluo por trejnaj modeloj.
  • Nova agorda sistemo.
  • Subteno por transformil-bazitaj duktomodeloj, taŭgaj por multitaska lernado.
  • La kapablo konekti viajn proprajn modelojn per diversaj maŝinlernaj kadroj, kiel PyTorch, TensorFlow kaj MXNet.
  • Projekta subteno por administri ĉiujn stadiojn de laborfluoj, de antaŭ-prilaborado ĝis modela efektivigo.
  • Subteno por integriĝo kun Data Version Control (DVC), Streamlit, Weights & Biases kaj Ray-pakaĵoj.
  • Novaj enkonstruitaj eroj: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler kaj Transformer.
  • Nova API por krei viajn proprajn erojn.

Fine, se vi interesiĝas scii pli pri ĝi de ĉi tiu nova versio aŭ pri spaCy, vi povas kontroli la detalojn En la sekva ligilo.


La enhavo de la artikolo aliĝas al niaj principoj de redakcia etiko. Por raporti eraron alklaku Ĉi tie.

Estu la unua por komenti

Lasu vian komenton

Via retpoŝta adreso ne estos eldonita.

*

*

  1. Respondeculo pri la datumoj: Miguel Ángel Gatón
  2. Celo de la datumoj: Kontrola SPAM, administrado de komentoj.
  3. Legitimado: Via konsento
  4. Komunikado de la datumoj: La datumoj ne estos komunikitaj al triaj krom per laŭleĝa devo.
  5. Stokado de datumoj: Datumbazo gastigita de Occentus Networks (EU)
  6. Rajtoj: Iam ajn vi povas limigi, retrovi kaj forigi viajn informojn.