spaCy, ile-ikawe sisẹ ede abayọ

Bugbamu AI ṣafihan ifilọlẹ ti ẹya tuntun ti ile-ikawe ọfẹ «SpaCy»Ewo ni imuse ti awọn alugoridimu processing ede abinibi (NLP). Ni iṣe, a le lo iṣẹ akanṣe lati kọ awọn iyalẹnu aifọwọyi, awọn bot, awọn ifipilẹ ọrọ ọrọ, ati awọn ọna sisọ oriṣiriṣi ti o pinnu itumọ awọn gbolohun ọrọ.

Ikawe ti ṣe apẹrẹ lati pese API ti o tẹsiwaju Ko sopọ si awọn alugoridimu ti a lo ati ṣetan lati lo ninu awọn ọja gidi. Ikawe nlo awọn ilọsiwaju tuntun ni NLP ati awọn alugoridimu ti o munadoko julọ wa lati ṣe alaye alaye.

Ti o ba jẹ pe algorithm ti o munadoko diẹ han, ile-ikawe ti kọja sinu rẹ, ṣugbọn iyipada yii ko kan API tabi awọn ohun elo.

Ẹya ara ẹrọ ti spaCy o tun jẹ faaji ti a ṣe apẹrẹ lati ṣakoso awọn iwe pipe, laisi ṣiṣaaju ni awọn aṣaaju ti o pin iwe-ipamọ si awọn gbolohun ọrọ. Awọn awoṣe ni a funni ni awọn ẹya meji: fun iṣelọpọ ti o pọ julọ ati deede to pọ julọ.

Awọn ẹya akọkọ ti spaCy:

  • Atilẹyin fun awọn ede bii 60.
  • Awọn awoṣe ti o ti kọ tẹlẹ wa fun awọn ede ati awọn ohun elo oriṣiriṣi.
  • Ikẹkọ Multitask nipa lilo awọn iyipada ti o ti kọ tẹlẹ gẹgẹbi BERT (Awọn ifunni Encoder ti Bidirectional ti Awọn iyipada).
  • Atilẹyin fun awọn aṣoju ti a ti kọ tẹlẹ ati awọn ifibọ ọrọ.
  • Išẹ giga.
  • Ṣetan lati lo awoṣe eto ikẹkọ lori-iṣẹ.
  • Ami ami-iṣe ti imọ-ọrọ ti ede.
  • Awọn paati ti o ṣetan lati lo wa fun sisopọ awọn nkan ti a daruko, siṣamisi awọn ẹya ti ọrọ, sọtọ ọrọ, ṣe itupalẹ awọn igbẹkẹle ti o da lori tag, awọn gbolohun pipin, ṣiṣamisi awọn ẹya ti ọrọ, onínọmbà nipa ẹda, titan, ati bẹbẹ lọ.
  • Atilẹyin fun ilọsiwaju iṣẹ pẹlu awọn paati aṣa ati awọn abuda.
  • Atilẹyin fun ṣiṣẹda awọn awoṣe tirẹ da lori PyTorch, TensorFlow ati awọn ilana miiran.
  • Awọn irinṣẹ ti a ṣe sinu fun Isamisi Nkan Nkan ati Wiwo sintasi (NER, Idanimọ Nkan ti a darukọ).
  • Ilana ti o rọrun ti apoti ati fifa awọn awoṣe ati ṣiṣakoso iṣan-iṣẹ.
  • Išedede giga.

Ikawe ti kọ ni Python pẹlu awọn eroja ni Cython, itẹsiwaju Python ti o fun laaye iṣẹ taara ni pipe ni ede C.

Koodu ise agbese pin kakiri labẹ iwe-aṣẹ MIT. Awọn awoṣe ede ti ṣetan fun awọn ede 58.

Nipa ẹya tuntun ti spaCy 3.0

Ẹya spaCy 3.0 duro jade fun imuse ti idile awoṣe tun ṣe atunṣe fun awọn ede 18 ati Awọn opo gigun ti 59 ti oṣiṣẹ ni apapọ, pẹlu awọn opo gigun ti tuntun ti o da lori 5 tuntun

A ṣe apẹẹrẹ ni awọn ẹya mẹta (16 MB, 41 MB - 20 ẹgbẹrun fekito ati 491 MB - 500 ẹgbẹrun fekito) ati ti wa ni iṣapeye lati ṣiṣẹ labẹ fifuye Sipiyu ati pẹlu tok2vec, morphologizer, parser, senter, ner, attribute_ruler, ati awọn paati lemmatizer.

A ti n ṣiṣẹ lori spaCy v3.0 fun ọdun kan, ati pe o fẹrẹ to ọdun meji ti o ba ka gbogbo iṣẹ ti a ṣe lori Thinc. Aṣeyọri akọkọ wa pẹlu ifilọlẹ ni lati jẹ ki o rọrun lati mu awọn awoṣe tirẹ wa ni SPACY, paapaa awọn awoṣe ipo-ọna bi awọn oluyipada. O le kọ awọn awoṣe ti o jẹ ifunni awọn paati spaCy sinu awọn ilana bi PyTorch tabi TensorFlow, ni lilo eto iṣeto tuntun tuntun wa lati ṣapejuwe gbogbo awọn eto rẹ. Ati pe nitori awọn iṣan-iṣẹ NLP ode oni nigbagbogbo ni awọn igbesẹ lọpọlọpọ, eto iṣan-iṣẹ tuntun wa lati ṣe iranlọwọ fun ọ lati jẹ ki iṣẹ rẹ ṣeto.

Awọn imotuntun pataki miiran ti o wa jade lati ẹya tuntun:

  • Ṣiṣẹ ṣiṣiṣẹ tuntun fun awọn awoṣe ikẹkọ.
  • Eto iṣeto tuntun.
  • Atilẹyin fun awọn awoṣe opo gigun ti onitumọ, ti o baamu fun ẹkọ multitasking.
  • Agbara lati sopọ awọn awoṣe tirẹ nipa lilo ọpọlọpọ awọn ilana ẹkọ ẹrọ, gẹgẹ bi PyTorch, TensorFlow, ati MXNet.
  • Atilẹyin iṣẹ akanṣe lati ṣakoso gbogbo awọn ipele ti ṣiṣan ṣiṣiṣẹ, lati iṣaaju iṣaaju si imuse awoṣe.
  • Atilẹyin fun isopọmọ pẹlu Iṣakoso Ẹya Data (DVC), Streamlit, Awọn iwuwo & Awọn ojuṣaaju ati awọn idii Ray.
  • Awọn paati ti a ṣe sinu tuntun: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ati Amunawa.
  • API tuntun lati ṣẹda awọn paati tirẹ.

Níkẹyìn, ti o ba nifẹ lati mọ diẹ sii nipa rẹ ti ẹya tuntun yii tabi nipa spaCy, o le ṣayẹwo awọn alaye naa Ni ọna asopọ atẹle.


Awọn akoonu ti nkan naa faramọ awọn ilana wa ti awọn ilana olootu. Lati jabo aṣiṣe kan tẹ nibi.

Jẹ akọkọ lati sọ ọrọ

Fi ọrọ rẹ silẹ

Adirẹsi imeeli rẹ yoo ko le ṣe atejade. O beere aaye ti wa ni samisi pẹlu *

*

*

  1. Lodidi fun data naa: Miguel Ángel Gatón
  2. Idi ti data naa: SPAM Iṣakoso, iṣakoso ọrọ asọye.
  3. Ofin: Iyọọda rẹ
  4. Ibaraẹnisọrọ data: Awọn data kii yoo ni ifọrọhan si awọn ẹgbẹ kẹta ayafi nipasẹ ọranyan ofin.
  5. Ibi ipamọ data: Alaye data ti o gbalejo nipasẹ Awọn nẹtiwọọki Occentus (EU)
  6. Awọn ẹtọ: Ni eyikeyi akoko o le ni opin, gba pada ki o paarẹ alaye rẹ.