spaCy, maktabad farsameynta luuqada dabiiciga ah

Qarax AI ayaa daaha ka rogay bilowga nooca cusub ee maktabadda bilaashka ah «SpaCy»Kaas oo leh hirgelintiisa algorithms ka shaqeynta luqadda dabiiciga ah (NLP). Ficil ahaan, mashruuca waxaa loo isticmaali karaa in lagu dhiso is-weydaarsi, bots, qoondeynta qoraalka, iyo nidaamyo wada hadal oo kala duwan oo go'aaminaya macnaha weedhaha.

Maktabad waxaa loogu talagalay inay bixiso API joogto ah Kuma xirna algorithms-ka la isticmaalay oo diyaar u ah in loogu isticmaalo alaabada dhabta ah. Maktabad wuxuu adeegsadaa horumarkii ugu dambeeyay ee NLP iyo algorithms-ka ugu hufan la heli karo si looga baaraandego macluumaadka.

Haddii algorithm ka waxtar badan ay muuqato, maktabadda ayaa loo gudbiyaa iyada, laakiin kala-guurkaani ma saameyn doono API ama codsiyada.

Muuqaal ka mid ah spaCy sidoo kale waa qaab dhismeed loogu talagalay in lagu farsameeyo dukumiintiyada dhameystiran, iyada oo aan laga hor marin ka horreeyayaasha u qaybiya dukumintiga weedho. Moodooyinka waxaa lagu bixiyaa laba nooc: wax soo saarka ugu badan iyo saxsanaanta ugu badan.

Astaamaha ugu muhiimsan ee spaCy:

  • Taageerada ku dhowaad 60 luqadood.
  • Moodooyin horay loo tababaray oo loo heli karo luqado iyo barnaamijyo kala duwan.
  • Barashada Multitask iyadoo la adeegsanayo turjubaano hore loo tababaray sida BERT (Bixinta Bixinta Bedelaha Bixinta ee Transformers).
  • Taageerida vectors-ka horay loo tababaray iyo ereyada la geliyay.
  • Waxqabadka sare.
  • Diyaar u-ah in la adeegsado habka tababarka shaqada.
  • Calaamaynta dhiirigelinta luqadeed
  • Qaybaha u-diyaar-garowga ayaa loo heli karaa isku xidhka hay'adaha la magacaabay, calaamadeynta qaybaha hadalka, kala-saaridda qoraalka, falanqaynta ku-tiirsanaanta ku-tiirsanaanta, qaybsiga jumladaha, calaamadeynta qaybaha hadalka, falanqaynta qaab-dhismeedka, jiritaanka, iwm.
  • Taageerada kordhinta shaqeynta qaybaha gaarka ah iyo sifooyinka.
  • Taageero abuurista moodello kuu gaar ah oo ku saleysan PyTorch, TensorFlow iyo qaabdhismeedyo kale.
  • Qalabka lagu rakibay ee loogu talagalay Magacaabista Hay'ad Magaca ah iyo Muuqaalka Caasima (NER, Aqoonsiga Hay'ad La Magac Baxay).
  • Nidaam fudud oo wax lagu rakibo oo lagu dejiyo moodeello iyo maareynta socodka shaqada.
  • Saxsanaanta sare.

Maktabad waxaa lagu qoraa Python oo leh walxo ku jira Cython, Kordhinta Python-ka ee u oggolaanaysa waxqabadka tooska ah ee loogu yeero luqadda C.

Koodhka mashruuca waxaa loo qaybiyaa shatiga MIT. Moodooyinka luqadda ayaa diyaar u ah 58 luqadood.

Ku saabsan nooca cusub ee spaCy 3.0

Nooca spaCy 3.0 wuxuu u taagan yahay hirgelinta qoysaska tusaalaha ah dib loogu tababaray 18 luqadood iyo 59 dhuumaha la tababaray guud ahaan, oo ay ku jiraan 5 dhuumaha cusub ee ku-saleysan qalabka wax-beddelada

Habka waxaa lagu bixiyaa saddex nooc (16 MB, 41 MB - 20 kun vector iyo 491 MB - 500 kun vector) iyo waxaa lagu hagaajiyaa inuu ka hoos shaqeeyo culeyska CPU oo ay kujiraan tok2vec, morphologizer, parser, dire, ner, attribute_ruler, iyo lemmatizer.

Waxaan ka shaqeyneynay spaCy v3.0 muddo ka badan hal sano, iyo ku dhowaad laba sano haddii aad tiriso dhammaan howlaha laga qabtay shirkadda 'Thinc'. Hadafkeena ugu weyn ee daahfurka ayaa ah inaan fududeyno keenista moodooyinkaaga SPACY, gaar ahaan moodooyinka casriga ah sida kuwa wax badala. Waad qori kartaa moodello ku quudiya qaybaha spaCy qaab-dhismeedka sida PyTorch ama TensorFlow, adoo adeegsanaya nidaamkeenna qaab-dhismeedka cusub ee cajiibka ah si aan u sharraxno dhammaan goobahaaga. Iyo maadaama shaqooyinka casriga ah ee NLP ay inta badan ka kooban yihiin talaabooyin kala duwan, waxaa jira nidaam shaqo oo cusub oo kaa caawinaya inaad shaqadaada abaabusho.

Waxyaabaha cusub ee muhiimka ah oo ka dhex muuqda nooca cusub:

  • Hawsha cusub ee moodooyinka tababarka.
  • Nidaamka qaabeynta cusub.
  • Taageerida moodooyinka dhuumaha ku saleysan wax-ka-beddelka, oo ku habboon barashada hawlo badan.
  • Awoodda inaad ku xirto moodooyinkaaga adoo adeegsanaya qaabab waxbarasho oo mashiinno kala duwan ah, sida PyTorch, TensorFlow, iyo MXNet.
  • Taageerada mashruuca si loo maareeyo dhammaan heerarka socodka shaqada, laga bilaabo ka-shaqeynta kahor illaa hirgelinta moodeelka.
  • Taageerada isku-dhafka ee Nidaamka Xakamaynta Xogta (DVC), Streamlit, Miisaannada & Eexashada iyo xirmooyinka Ray.
  • Waxyaabaha cusub ee lagu dhisay: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler iyo Transformer.
  • API cusub si aad u abuurto qaybahaaga.

Ugu dambeyntii, hadaad xiisaynayso inaad waxbadan ka ogaato noocaan cusub ama ku saabsan spaCy, waad hubin kartaa faahfaahinta Xiriirka soo socda.


Noqo kuwa ugu horreeya ee faallo bixiya

Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.