spaCy, një bibliotekë e përpunimit të gjuhës natyrale

Shpërthimi AI zbuloi fillimin e versioni i ri i bibliotekës falas «SpaCy»E cila ka një zbatim të algoritme të përpunimit të gjuhës natyrore (NLP). Në praktikë, projekti mund të përdoret për të ndërtuar autoresponders, bot, klasifikues teksti dhe sisteme të ndryshme dialogu që përcaktojnë kuptimin e frazave.

Librari është krijuar për të siguruar një API të vazhdueshme Nuk është i lidhur me algoritmet e përdorura dhe të gatshëm për t'u përdorur në produktet reale. Librari përdor përparimet e fundit në NLP dhe algoritmet më efikase në dispozicion për të përpunuar informacionin.

Nëse shfaqet një algoritëm më efikas, biblioteka kalon tek ajo, por ky tranzicion nuk ndikon në API ose aplikacione.

Një tipar i spaCy është gjithashtu një arkitekturë e krijuar për të përpunuar dokumente të plota, pa parapërpunim në parapërpunuesit që e ndajnë dokumentin në fraza. Modelet ofrohen në dy versione: për produktivitet maksimal dhe saktësi maksimale.

Karakteristikat kryesore të spaCy:

  • Mbështetje për rreth 60 gjuhë.
  • Modele të trajnuara tashmë të disponueshme për gjuhë dhe aplikime të ndryshme.
  • Të mësuarit me shumë detyra duke përdorur transformatorë të trajnuar më parë si BERT (Renderings Bidirectional Encoder of Transformers).
  • Mbështetje për vektorët e para-trajnuar dhe ngulitjet e fjalëve.
  • Performancë e lartë.
  • Modeli i sistemit të trajnimit të gatshëm për përdorim.
  • Tokenizimi i motivuar gjuhësisht.
  • Komponentët e gatshëm janë në dispozicion për lidhjen e entiteteve të emërtuara, shënimin e pjesëve të fjalës, klasifikimin e tekstit, analizimin e varësive të bazuara në etiketa, ndarjen e fjalive, shënimin e pjesëve të fjalës, analizën morfologjike, burimin, etj.
  • Mbështetje për zgjerimin e funksionalitetit me komponentët dhe atributet e personalizuara.
  • Mbështetje për krijimin e modeleve tuaja bazuar në PyTorch, TensorFlow dhe kornizat e tjera.
  • Mjete të integruara për Lidhjen e Njësisë së Emëruar dhe Vizualizimin e Sintaksës (NER, Njohja e Njësisë së Emëruar).
  • Proces i thjeshtë i paketimit dhe vendosjes së modeleve dhe menaxhimit të rrjedhës së punës.
  • Saktësi e lartë.

Librari është shkruar në Python me elemente në Cython, një zgjerim Python që lejon thirrjen e funksionit direkt në gjuhën C.

Kodi i projektit shpërndahet nën licencën MIT. Modelet gjuhësore janë gati për 58 gjuhë.

Rreth versionit të ri të spaCy 3.0

Versioni spaCy 3.0 dallohet për zbatimin e familjet model ritrajnuar për 18 gjuhë dhe 59 tubacione të trajnuara në total, duke përfshirë 5 tubacione të reja të bazuara në transformator

Modeli ofrohet në tre versione (16 MB, 41 MB - 20 mijë vektorë dhe 491 MB - 500 mijë vektorë) dhe është optimizuar për të punuar nën ngarkesën e CPU-së dhe përfshin përbërësit tok2vec, morfologjizues, analizues, dërgues, ner, atribut_ruler dhe lemmatizues.

Ne kemi punuar në spaCy v3.0 për më shumë se një vit, dhe gati dy vjet nëse llogaritni të gjithë punën e bërë në Thinc. Qëllimi ynë kryesor me lansimin është ta bëjmë më të lehtë sjelljen e modeleve tuaja në SPACY, veçanërisht modelet më të fundit si transformatorët. Ju mund të shkruani modele që ushqejnë përbërësit spaCy në korniza si PyTorch ose TensorFlow, duke përdorur sistemin tonë të ri të konfigurimit të mrekullueshëm për të përshkruar të gjitha cilësimet tuaja. Dhe meqenëse rrjedhat moderne të punës NLP shpesh përbëhen nga hapa të shumtë, ekziston një sistem i ri i punës për t'ju ndihmuar të mbani të organizuar punën tuaj.

Risi të tjera të rëndësishme që dallojnë nga versioni i ri:

  • Rrjedha e re e punës për modelet e trajnimit.
  • Sistemi i ri i konfigurimit.
  • Mbështetje për modelet e tubacioneve të bazuara në transformator, të përshtatshme për të mësuarin me shumë detyra.
  • Aftësia për të lidhur modelet tuaja duke përdorur korniza të ndryshme për të mësuar makinerinë, të tilla si PyTorch, TensorFlow dhe MXNet.
  • Mbështetje e projektit për të menaxhuar të gjitha fazat e rrjedhave të punës, nga para-përpunimi në zbatimin e modelit.
  • Mbështetje për integrim me paketat e Kontrollit të Versionit të të Dhënave (DVC), Streamlit, Weights & Biases dhe Ray.
  • Komponentë të rinj të integruar: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler dhe Transformer.
  • API i ri për të krijuar përbërësit tuaj.

Së fundi, nëse jeni të interesuar të dini më shumë për të të këtij versioni të ri ose rreth spaCy, ju mund të kontrolloni detajet Në lidhjen vijuese.


Përmbajtja e artikullit i përmbahet parimeve tona të etika editoriale. Për të raportuar një gabim klikoni këtu.

Bëhu i pari që komenton

Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.