spaCy, yon bibliyotèk pwosesis lang natirèl

Eksplozyon AI revele lansman de vèsyon an nouvo nan bibliyotèk la gratis «SpaCy»Ki gen yon aplikasyon nan algoritm pwosesis lang natirèl (NLP). Nan pratik, ka pwojè a dwe itilize yo bati autoresponders, bots, klasifikasyon tèks, ak divès sistèm dyalòg ki detèmine siyifikasyon fraz yo.

Bibliyotèk fèt pou bay yon API pèsistan Li pa lye nan algoritm yo itilize ak pare yo itilize nan pwodwi reyèl. Bibliyotèk itilize dènye pwogrè yo nan NLP ak algoritm ki pi efikas yo disponib nan pwosesis enfòmasyon.

Si yon algorithm pi efikas parèt, se bibliyotèk la pase nan li, men tranzisyon sa a pa afekte API la oswa aplikasyon yo.

Yon karakteristik nan spaCy li se tou yon achitekti ki fèt nan pwosesis dokiman konplè, san preprocessing nan preprocessors ki divize dokiman an fraz. Modèl yo ofri nan de vèsyon: pou pwodiktivite maksimòm ak presizyon maksimòm.

Karakteristik prensipal yo nan spaCy:

  • Sipò pou anviwon 60 lang.
  • Modèl ki deja antrene ki disponib pou diferan lang ak aplikasyon yo.
  • Aprantisaj Multitech lè l sèvi avèk transfòmatè ki deja antrene tankou BERT (Bidirectional Encoder Renderings of Transformers).
  • Sipò pou vektè pre-antrene ak mo entegre.
  • Gwo pèfòmans.
  • Pare pou itilize modèl fòmasyon sou travay la.
  • Lengwistikman motive tokenization.
  • Konpozan pare yo disponib pou lye antite ki nonmen non yo, make pati nan diskou, klasifye tèks, analize depandans ki baze sou tag, divize fraz, make pati nan diskou, analiz mòfolojik, tij, elatriye.
  • Sipò pou pwolonje fonctionnalités ak konpozan koutim ak atribi.
  • Sipò pou kreye modèl pwòp ou a ki baze sou PyTorch, TensorFlow ak lòt kad.
  • Bati-an zouti pou nonmen antite obligatwa ak sentaks vizyalizasyon (NER, yo te rele antite rekonesans).
  • Senp pwosesis anbalaj ak deplwaman modèl ak jere workflow.
  • Segondè presizyon.

Bibliyotèk ekri nan Python ak eleman nan Cython, yon ekstansyon Python ki pèmèt fonksyon dirèk rele nan lang C.

Kòd pwojè a distribiye anba lisans MIT la. Modèl lang yo pare pou 58 lang.

Sou nouvo vèsyon spaCy 3.0

SpaCy 3.0 vèsyon an vle di soti pou aplikasyon an nan fanmi modèl reyadaptasyon pou 18 lang ak 59 tuyaux ki resevwa fòmasyon nan total, ki gen ladan 5 nouvo tuyaux transfòmatè ki baze sou

Modèl la ofri nan twa vèsyon (16 MB, 41 MB - 20 mil vektè ak 491 MB - 500 mil vektè) ak optimize pou travay anba chaj CPU e li gen ladan tok2vec, morphologizer, parser, senter, ner, attribute_ruler, ak konpozan lemmatizer.

Nou te travay sou spaCy v3.0 pou plis pase yon ane, ak prèske de ane si ou konte tout travay la fè sou Thinc. Objektif prensipal nou an ak lansman an se fè li pi fasil yo pote modèl pwòp ou a nan espas, espesyalman modèl yo eta-of-atizay la tankou transfòmatè. Ou ka ekri modèl ki manje eleman spaCy yo nan kad tankou PyTorch oswa TensorFlow, lè l sèvi avèk fantastik nouvo sistèm konfigirasyon nou an pou dekri tout anviwònman ou yo. E depi modèn workflows NLP souvan konpoze de etap miltip, gen yon nouvo sistèm workflow ede ou kenbe travay ou òganize.

Lòt innovations enpòtan ki kanpe soti nan nouvo vèsyon an:

  • Nouvo workflow pou modèl fòmasyon.
  • Nouvo sistèm konfigirasyon.
  • Sipò pou modèl tiyo transfòmatè ki baze sou, apwopriye pou aprantisaj Multitech.
  • Kapasite nan konekte modèl pwòp ou a lè l sèvi avèk divès kalite kad aprantisaj machin, tankou PyTorch, TensorFlow, ak MXNet.
  • Sipò pou pwojè pou jere tout etap nan workflows, ki soti nan pre-pwosesis nan aplikasyon modèl.
  • Sipò pou entegrasyon ak Done vèsyon Kontwòl (DVC), Streamlit, Pwa & prejije ak pakè Ray.
  • Nouvo eleman entegre: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ak transfòmatè.
  • Nouvo API yo kreye eleman pwòp ou yo.

Finalman, si ou enterese nan konnen plis bagay sou li nan nouvo vèsyon sa a oswa sou spaCy, ou ka tcheke detay yo Nan lyen sa a.


Kontni an nan atik la respekte prensip nou yo nan etik editoryal. Pou rapòte yon erè klike sou isit la.

Se pou premye a fè kòmantè

Kite kòmantè ou

Adrès imèl ou pa pral dwe pibliye. Jaden obligatwa yo make ak *

*

*

  1. Responsab pou done yo: Miguel Ángel Gatón
  2. Objektif done yo: Kontwòl SPAM, jesyon kòmantè.
  3. Lejitimasyon: konsantman ou
  4. Kominikasyon nan done yo: done yo pa pral kominike bay twazyèm pati eksepte pa obligasyon legal.
  5. Done depo: baz done anime pa rezo Occentus (Inyon Ewopeyen)
  6. Dwa: Nenpòt ki lè ou ka limite, refè ak efase enfòmasyon ou yo.