spaCy, isang likas na aklatan ng pagproseso ng wika

Ipinakita ng pagsabog ng AI ang paglulunsad ng ang bagong bersyon ng libreng aklatan «SpaCy»Alin ang may pagpapatupad ng mga natural algorithm sa pagproseso ng wika (NLP). Sa pagsasagawa, ang proyekto ay maaaring magamit upang bumuo ng mga autoresponder, bots, classifier ng teksto, at iba`t ibang mga system ng diyalogo na tumutukoy sa kahulugan ng mga parirala.

Library ay idinisenyo upang magbigay ng isang paulit-ulit na API Hindi ito naka-link sa mga ginamit na algorithm at handa nang gamitin sa totoong mga produkto. Library gumagamit ng pinakabagong pagsulong sa NLP at ang pinaka mahusay na mga algorithm magagamit upang maproseso ang impormasyon.

Kung ang isang mas mahusay na algorithm ay lilitaw, ang library ay naipasa dito, ngunit ang paglipat na ito ay hindi nakakaapekto sa API o mga application.

Isang tampok ng spaCy isa rin itong arkitektura na idinisenyo upang maproseso ang kumpletong mga dokumento, nang walang preprocessing sa mga preprocessor na hinati ang dokumento sa mga parirala. Inaalok ang mga modelo sa dalawang bersyon: para sa maximum na pagiging produktibo at maximum na katumpakan.

Ang mga pangunahing tampok ng spaCy:

  • Suporta para sa halos 60 mga wika.
  • Ang mga may kasanayang mga modelo na magagamit para sa iba't ibang mga wika at aplikasyon.
  • Pag-aaral ng multitask gamit ang dating sinanay na mga transformer tulad ng BERT (Bidirectional Encoder Renderings of Transformers).
  • Suporta para sa mga paunang sinanay na mga vector at word embeds.
  • Mataas na pagganap.
  • Modelo ng sistema ng pagsasanay na handa nang magamit sa trabaho.
  • Pag-uudyok sa wikang pang-wika.
  • Magagamit ang mga sangkap na handa na para sa pag-link ng mga pinangalanang entity, pagmamarka ng mga bahagi ng pagsasalita, pag-uuri ng teksto, pag-aralan ang mga dependency na nakabatay sa tag, paghahati ng mga pangungusap, pagmamarka ng mga bahagi ng pagsasalita, pagsusuri ng morphological, stemming, atbp.
  • Suporta para sa pagpapalawak ng pag-andar na may pasadyang mga bahagi at katangian.
  • Suporta upang lumikha ng iyong sariling mga modelo batay sa PyTorch, TensorFlow at iba pang mga balangkas.
  • Mga built-in na tool para sa Named Entity Binding at Syntax Visualization (NER, Named Entity Recognition).
  • Simpleng proseso ng pag-packaging at pag-deploy ng mga modelo at pamamahala ng daloy ng trabaho.
  • Mataas na kawastuhan.

Library ay nakasulat sa Python na may mga elemento sa Cython, isang extension ng Python na nagpapahintulot sa direktang pag-andar ng pagtawag sa wikang C.

Ang code ng proyekto ay ipinamamahagi sa ilalim ng lisensya ng MIT. Ang mga modelo ng wika ay handa na para sa 58 mga wika.

Tungkol sa bagong bersyon ng spaCy 3.0

Ang bersyon ng spaCy 3.0 ay nakatayo para sa pagpapatupad ng modelo ng mga pamilya nagtraining muli para sa 18 mga wika at 59 sanay na mga pipeline sa kabuuan, kasama ang 5 bagong mga pipeline na nakabatay sa transpormer

Ang modelo ay inaalok sa tatlong mga bersyon (16 MB, 41 MB - 20 libong mga vector at 491 MB - 500 libong mga vector) at ay na-optimize upang gumana sa ilalim ng pag-load ng CPU at may kasamang mga sangkap ng tok2vec, morphologizer, parser, senter, ner, atribut_ruler, at lemmatizer.

Nagtatrabaho kami sa spaCy v3.0 nang higit sa isang taon, at halos dalawang taon kung bilangin mo ang lahat ng trabahong nagawa sa Thinc. Ang aming pangunahing layunin sa paglulunsad ay upang gawing mas madali upang magdala ng iyong sariling mga modelo sa SPACY, lalo na ang mga state-of-the-art na modelo tulad ng mga transformer. Maaari kang magsulat ng mga modelo na nagpapakain ng mga sangkap ng spaCy sa mga balangkas tulad ng PyTorch o TensorFlow, gamit ang aming kahanga-hangang bagong sistema ng pagsasaayos upang ilarawan ang lahat ng iyong mga setting. At dahil ang mga modernong daloy ng NLP ay madalas na binubuo ng maraming mga hakbang, mayroong isang bagong system ng daloy ng trabaho upang matulungan kang mapanatili ang iyong gawain na maayos.

Iba pang mahahalagang pagbabago tumayo mula sa bagong bersyon:

  • Bagong daloy ng trabaho para sa mga modelo ng pagsasanay.
  • Bagong sistema ng pagsasaayos.
  • Suporta para sa mga modelo ng pipeline na nakabatay sa transpormer, na angkop para sa pag-aaral ng multitasking.
  • Ang kakayahang ikonekta ang iyong sariling mga modelo gamit ang iba't ibang mga framework ng pag-aaral ng machine, tulad ng PyTorch, TensorFlow, at MXNet.
  • Suporta ng proyekto upang pamahalaan ang lahat ng mga yugto ng daloy ng trabaho, mula sa paunang pagproseso hanggang sa pagpapatupad ng modelo.
  • Suporta para sa pagsasama sa Data Version Control (DVC), Streamlit, Weights & Biases at Ray packages.
  • Mga bagong built-in na bahagi: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributionRuler at Transformer.
  • Bagong API upang lumikha ng iyong sariling mga bahagi.

Sa wakas, kung interesado kang malaman ang tungkol dito ng bagong bersyon o tungkol sa spaCy, maaari mong suriin ang mga detalye Sa sumusunod na link.


Maging una sa komento

Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.