spaCy, leabharlann giollachd cànain nàdarra

Spreadh AI a ’foillseachadh foillseachadh an dreach ùr den leabharlann an-asgaidh «SpaCy»A tha air buileachadh de algorithms giollachd cànain nàdarra (NLP). Ann an cleachdadh, faodar am pròiseact a chleachdadh gus autoresponders a thogail, botaichean, luchd-seòrsachaidh teacsa, agus diofar shiostaman còmhraidh a bhios a ’dearbhadh brìgh abairtean.

Leabharlann air a dhealbhadh gus API seasmhach a thoirt seachad Chan eil e ceangailte ris na h-algorithms a chaidh a chleachdadh agus deiseil airson a chleachdadh ann am fìor thoraidhean. Leabharlann a ’cleachdadh na h-adhartasan as ùire ann an NLP agus na h-algorithms as èifeachdaiche ri fhaighinn gus fiosrachadh a phròiseasadh.

Ma nochdas algorithm nas èifeachdaiche, thèid an leabharlann a thoirt dha, ach chan eil an gluasad seo a ’toirt buaidh air an API no na tagraidhean.

Feart de spaCy tha e cuideachd na ailtireachd air a dhealbhadh gus sgrìobhainnean iomlan a phròiseasadh, gun preprocessing ann an preprocessors a bhios a ’roinn an sgrìobhainn gu abairtean. Tha modalan gan tabhann ann an dà dhreach: airson an toradh as motha agus an cruinneas as motha.

Prìomh fheartan spaCy:

  • Taic airson timcheall air 60 cànan.
  • Modalan air an trèanadh mu thràth rim faighinn airson diofar chànanan agus thagraidhean.
  • Ionnsachadh Multitask a ’cleachdadh cruth-atharraichean a chaidh an trèanadh roimhe leithid BERT (Bidirectional Encoder Renderings of Transformers).
  • Taic airson vectaran ro-thrèanadh agus freumhachadh fhaclan.
  • Coileanadh àrd.
  • Modal siostam trèanaidh deiseil airson a chleachdadh.
  • Tokenization le brosnachadh cànain.
  • Tha co-phàirtean deiseil rim faighinn airson a bhith a ’ceangal eintiteas ainmichte, a’ comharrachadh pàirtean cainnt, a ’seòrsachadh teacsa, a’ sgrùdadh eisimeileachd stèidhichte air tagaichean, a ’roinn sheantansan, a’ comharrachadh pàirtean cainnt, mion-sgrùdadh morphologach, a ’stad, msaa.
  • Taic airson a bhith a ’leudachadh comas-gnìomh le co-phàirtean agus buadhan àbhaisteach.
  • Taic airson na modalan agad fhèin a chruthachadh stèidhichte air PyTorch, TensorFlow agus frèaman eile.
  • Innealan a chaidh a thogail a-steach airson Ceangal Ainmichte Ainmichte agus Ìomhaigh Syntax (NER, Aithneachadh Aonachd Ainmichte).
  • Pròiseas sìmplidh de phacadh agus cleachdadh mhodailean agus riaghladh sruth-obrach.
  • Cruinneas àrd.

Leabharlann sgrìobhte ann am Python le eileamaidean ann an Cython, leudachadh Python a leigeas le gnìomh dìreach a bhith a ’gairm sa chànan C.

Còd a ’phròiseict air a chuairteachadh fo chead MIT. Tha modalan cànain deiseil airson 58 cànan.

Mun dreach ùr de spaCy 3.0

Tha an dreach spaCy 3.0 a ’seasamh a-mach airson buileachadh teaghlaichean modail ath-thrèanadh airson 18 cànan agus 59 pìob air an trèanadh gu h-iomlan, a ’toirt a-steach 5 pìoban ùra stèidhichte air cruth-atharrachaidh

Tha am modail air a thabhann ann an trì dreachan (16 MB, 41 MB - 20 mìle vectar agus 491 MB - 500 mìle vectar) agus air a mheudachadh gus obrachadh fo luchdan CPU agus a ’toirt a-steach na pàirtean tok2vec, morphologizer, parser, senter, ner, attribute_ruler, agus lemmatizer.

Tha sinn air a bhith ag obair air spaCy v3.0 airson còrr air bliadhna, agus faisg air dà bhliadhna ma tha thu a ’cunntadh na h-obrach gu lèir a chaidh a dhèanamh air Thinc. Is e ar prìomh amas leis an fhoillseachadh a dhèanamh nas fhasa na modalan agad fhèin a ghiùlan ann an SPACY, gu sònraichte na modalan ùr-nodha mar chruth-atharraichean. Faodaidh tu modalan a sgrìobhadh a bhios a ’biathadh na pàirtean spaCy a-steach do fhrèamaichean mar PyTorch no TensorFlow, a’ cleachdadh an siostam rèiteachaidh ùr iongantach againn gus cunntas a thoirt air na roghainnean agad uile. Agus leis gu bheil iomadh ceum ann an sruthan-obrach NLP an latha an-diugh, tha siostam sruth-obrach ùr ann gus do chuideachadh le bhith a ’cumail d’ obair air dòigh.

Ùr-ghnàthachaidhean cudromach eile tha sin a ’seasamh a-mach bhon dreach ùr:

  • Sruth-obrach ùr airson modalan trèanaidh.
  • Siostam rèiteachaidh ùr.
  • Taic airson modalan loidhne-phìoban stèidhichte air cruth-atharrachaidh, a tha freagarrach airson ionnsachadh ioma-ghnìomhach.
  • An comas na modalan agad fhèin a cheangal le bhith a ’cleachdadh diofar fhrèamaichean ionnsachaidh innealan, leithid PyTorch, TensorFlow, agus MXNet.
  • Taic pròiseict gus gach ìre de shruth-obrach a riaghladh, bho ro-phròiseasadh gu buileachadh modail.
  • Taic airson amalachadh le pasganan Riaghladh Tionndadh Dàta (DVC), Streamlit, Weights & Biases agus Ray.
  • Co-phàirtean ùra togte: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler agus Transformer.
  • API ùr gus na pàirtean agad fhèin a chruthachadh.

Mu dheireadh, ma tha ùidh agad barrachd fhaighinn a-mach mu dheidhinn den dreach ùr seo no mu spaCy, faodaidh tu sgrùdadh a dhèanamh air mion-fhiosrachadh Anns a ’cheangal a leanas.


Tha susbaint an artaigil a ’cumail ri na prionnsapalan againn de moraltachd deasachaidh. Gus aithris a dhèanamh air mearachd cliog an seo.

Bi a 'chiad fhear a thog beachd

Fàg do bheachd

Seòladh-d cha tèid fhoillseachadh.

*

*

  1. Uallach airson an dàta: Miguel Ángel Gatón
  2. Adhbhar an dàta: Smachd air SPAM, riaghladh bheachdan.
  3. Dìleab: Do chead
  4. Conaltradh an dàta: Cha tèid an dàta a thoirt do threas phàrtaidhean ach a-mhàin fo dhleastanas laghail.
  5. Stòradh dàta: Stòr-dàta air a chumail le Occentus Networks (EU)
  6. Còraichean: Aig àm sam bith faodaidh tu am fiosrachadh agad a chuingealachadh, fhaighinn air ais agus a dhubhadh às.