spaCy, dabiskās valodas apstrādes bibliotēka

Sprādziena AI atklāja bezmaksas bibliotēkas jaunā versija «SpaCy»Kas ir ieviests dabiskās valodas apstrādes algoritmi (NLP). Praksē, projektu var izmantot automātisko atbildju veidošanai, roboti, teksta klasifikatori un dažādas dialoglodziņu sistēmas, kas nosaka frāžu nozīmi.

Bibliotēka ir paredzēts pastāvīgas API nodrošināšanai Tas nav saistīts ar algoritmiem, kas tiek izmantoti un ir gatavi lietošanai reālos produktos. Bibliotēka izmanto jaunākos sasniegumus NLP un visefektīvākos algoritmus pieejams informācijas apstrādei.

Ja parādās efektīvāks algoritms, tai tiek nodota bibliotēka, taču šī pāreja neietekmē API vai lietojumprogrammas.

SPACY iezīme tā ir arī arhitektūra, kas paredzēta pilnīgu dokumentu apstrādei, bez iepriekšējas apstrādes priekšapstrādātājos, kas dokumentu sadala frāzēs. Modeļi tiek piedāvāti divās versijās: maksimālai produktivitātei un maksimālai precizitātei.

SpaCY galvenās iezīmes:

  • Atbalsts aptuveni 60 valodām.
  • Pieejami jau apmācīti modeļi dažādām valodām un lietojumprogrammām.
  • Daudzuzdevumu mācīšanās, izmantojot iepriekš apmācītus transformatorus, piemēram, BERT (Transformatoru divvirzienu kodētāja atveidojumi).
  • Atbalsts iepriekš apmācītiem vektoriem un vārdu iegulšanai.
  • Augsta veiktspēja.
  • Lietošanai gatavas apmācības sistēmas darba vietā modelis.
  • Lingvistiski motivēta tokenizācija.
  • Lietošanai gatavi komponenti ir pieejami nosaukto entītiju sasaistīšanai, runas daļu atzīmēšanai, teksta klasificēšanai, uz tagiem balstītu atkarību analizēšanai, teikumu dalīšanai, runas daļu atzīmēšanai, morfoloģiskai analīzei, sakņu izveidei utt.
  • Atbalsts funkcionalitātes paplašināšanai ar pielāgotiem komponentiem un atribūtiem.
  • Atbalsts savu modeļu izveidošanai, pamatojoties uz PyTorch, TensorFlow un citiem ietvariem.
  • Iebūvētie rīki nosaukto entītiju saistīšanai un sintakses vizualizēšanai (NER, nosaukto entītiju atpazīšana).
  • Vienkāršs modeļu iepakošanas un izvietošanas process un darbplūsmas pārvaldība.
  • Augsta precizitāte.

Bibliotēka ir rakstīts Python ar elementiem Cython, Python paplašinājums, kas ļauj tieši izsaukt funkciju C valodā.

Projekta kods tiek izplatīts ar MIT licenci. Valodu modeļi ir gatavi 58 valodām.

Par jauno spaCy 3.0 versiju

SpaCy 3.0 versija izceļas ar programmas ieviešanu paraugģimenes pārkvalificēta 18 valodās un Apmācīti 59 cauruļvadi kopā 5 jauni cauruļvadi uz transformatoru bāzes

Modelis tiek piedāvāts trīs versijās (16 MB, 41 MB - 20 tūkstoši vektoru un 491 MB - 500 tūkstoši vektoru) un ir optimizēts darbam ar CPU slodzi un ietver tok2vec, morfologizer, parsētāja, sūtītāja, ner, attribute_ruler un lemmatizer komponentus.

Mēs strādājam pie spaCy v3.0 vairāk nekā gadu un gandrīz divus gadus, ja saskaita visus Thinc paveiktos darbus. Mūsu galvenais mērķis ar izlaišanu ir atvieglot savu modeļu iekļaušanu SPACY, it īpaši tādus mūsdienīgus modeļus kā transformatori. Izmantojot mūsu lielisko jauno konfigurācijas sistēmu, lai aprakstītu visus jūsu iestatījumus, varat rakstīt modeļus, kas baro spaCy komponentus, tādās sistēmās kā PyTorch vai TensorFlow. Tā kā mūsdienu NLP darbplūsmas bieži sastāv no vairākām darbībām, ir jauna darbplūsmas sistēma, kas palīdzēs jums organizēt darbu.

Citi svarīgi jauninājumi kas izceļas no jaunās versijas:

  • Jauna apmācības modeļu darbplūsma.
  • Jauna konfigurācijas sistēma.
  • Atbalsts transformatoru bāzes cauruļvadu modeļiem, kas piemēroti daudzuzdevumu apguvei.
  • Iespēja savienot savus modeļus, izmantojot dažādus mašīnmācīšanās ietvarus, piemēram, PyTorch, TensorFlow un MXNet.
  • Projekta atbalsts visu darbplūsmu posmu pārvaldīšanai, sākot no iepriekšējas apstrādes līdz modeļa ieviešanai.
  • Atbalsts integrācijai ar datu versiju kontroli (DVC), Streamlit, svariem un aizspriedumiem un Ray pakotnēm.
  • Jauni iebūvēti komponenti: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler un Transformer.
  • Jauna API, lai izveidotu savus komponentus.

Visbeidzot, ja jūs interesē uzzināt vairāk par to šīs jaunās versijas vai par spaCy, varat pārbaudīt informāciju Šajā saitē.


Raksta saturs atbilst mūsu principiem redakcijas ētika. Lai ziņotu par kļūdu, noklikšķiniet uz šeit.

Esi pirmais, kas komentārus

Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.