spaCy, looduskeele töötlemise raamatukogu

Explosion AI avalikustas selle käivitamise tasuta raamatukogu uus versioon «SpaCy»Mille rakendamine on loomuliku keele töötlemise algoritmid (NLP). Praktikas, projekti saab kasutada automaatvastajate loomiseks, robotid, tekstiklassifikaatorid ja erinevad dialoogisüsteemid, mis määravad fraaside tähenduse.

Raamatukogu on loodud püsiva API pakkumiseks See ei ole seotud reaalsetes toodetes kasutatud ja kasutamiseks valmis algoritmidega. Raamatukogu kasutab NLP uusimaid edusamme ja kõige tõhusamaid algoritme teabe töötlemiseks saadaval.

Kui ilmub tõhusam algoritm, edastatakse teek sellele, kuid see üleminek ei mõjuta API-d ega rakendusi.

SPACY funktsioon see on ka arhitektuur, mis on loodud terviklike dokumentide töötlemiseks, eeltöötlemata eelprotsessorites, mis jagavad dokumendi fraasideks. Mudeleid pakutakse kahes versioonis: maksimaalse tootlikkuse ja maksimaalse täpsuse tagamiseks.

SpaCY peamised omadused:

  • Toetus umbes 60 keeles.
  • Juba koolitatud mudelid on saadaval erinevates keeltes ja rakendustes.
  • Mitme tööülesande õppimine varem koolitatud trafode abil, nagu BERT (trafode kahesuunalised kooderirenderdused).
  • Toetus eelnevalt koolitatud vektoritele ja sõnade manustamisele.
  • Suur jõudlus.
  • Kasutusvalmis töökohal töötamise koolitussüsteemi mudel.
  • Keeleliselt motiveeritud märgistamine.
  • Kasutusvalmis komponendid on saadaval nimetatavate üksuste linkimiseks, kõneosade märkimiseks, teksti klassifitseerimiseks, märgendipõhiste sõltuvuste analüüsimiseks, lausete jagamiseks, kõneosade märkimiseks, morfoloogiliseks analüüsiks, tuletamiseks jne
  • Toetus funktsionaalsuse laiendamiseks kohandatud komponentide ja atribuutidega.
  • Toetus PyTorchi, TensorFlowi ja muude raamistike põhjal oma mudelite loomiseks.
  • Sisseehitatud tööriistad nimega üksuste sidumiseks ja süntakside visualiseerimiseks (NER, nimega üksuse tuvastamine).
  • Mudelite pakkimise ja juurutamise ning töövoo haldamise lihtne protsess.
  • Suur täpsus.

Raamatukogu on kirjutatud Pythonis koos Cythoni elementidega, Pythoni laiendus, mis võimaldab funktsioonide otsekutsumist C-keeles.

Projekti kood levitatakse MIT-litsentsi alusel. Keelemudelid on valmis 58 keeleks.

Teave spaCy 3.0 uue versiooni kohta

SpaCy 3.0 versioon paistab silma rakenduse näidispered ümberõpe 18 keeles ja Väljaõppinud 59 torujuhet kokku, sealhulgas 5 uut trafol põhinevat torujuhet

Mudelit pakutakse kolmes versioonis (16 MB, 41 MB - 20 tuhat vektorit ja 491 MB - 500 tuhat vektorit) ja on optimeeritud töötama protsessori koormuse all ja sisaldab tok2veci, morfoloogi, parserit, saatjat, nööri, atribuudi joonlauda ja lemmatisaatori komponente.

Oleme spaCy v3.0-ga töötanud üle aasta ja peaaegu kaks aastat, kui arvestada kogu Thinciga tehtud tööd. Meie peamine eesmärk on turuletoomisega hõlbustada SPACY-s oma mudelite, eriti tipptasemel mudelite, näiteks trafode, toomist. Võite kirjutada mudeleid, mis toidavad spaCy komponente raamistikesse nagu PyTorch või TensorFlow, kasutades meie suurepärast uut seadistussüsteemi, et kirjeldada kõiki teie seadeid. Kuna nüüdisaegsed NLP töövood koosnevad sageli mitmest etapist, on uus töökorraldussüsteem, mis aitab teil oma tööd korraldada.

Muud olulised uuendused mis eristuvad uuest versioonist:

  • Uus treeningmudelite töövoog.
  • Uus konfiguratsioonisüsteem.
  • Trafo-põhiste torujuhtmete mudelite tugi, mis sobib mitme ülesande täitmiseks.
  • Võimalus ühendada oma mudeleid, kasutades erinevaid masinõppe raamistikke, näiteks PyTorch, TensorFlow ja MXNet.
  • Projekti tugi töövoogude kõigi etappide haldamiseks alates eeltöötlusest kuni mudeli juurutamiseni.
  • Integreerimise tugi andmete versioonihalduse (DVC), Streamliti, kaalu ja eelarvamuste ning Ray pakettidega.
  • Uued sisseehitatud komponendid: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ja Transformer.
  • Uus API oma komponentide loomiseks.

Lõpuks kui olete huvitatud sellest rohkem teada saama selle uue versiooni või spaa kohta saate üksikasju vaadata Järgmisel lingil.


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.