spaCy, perpustakaan pamrosésan basa alam

Ledakan AI ngumumkeun peluncuran versi anyar perpustakaan gratis «SpaCy»Mana anu ngagaduhan palaksanaan algoritma ngolah basa alam (NLP). Dina prakna, proyék éta tiasa dianggo ngawangun autoresponder, bot, pengelas téks, sareng sababaraha sistem dialog anu nangtukeun hartos frasa.

Perpustakaan dirancang pikeun nyayogikeun API anu pengkuh Éta henteu dikaitkeun sareng algoritma anu dianggo sareng siap dianggo dina produk asli. Perpustakaan ngagunakeun kamajuan pangénggalna dina NLP sareng algoritma pang éfisiénna sayogi pikeun ngolah inpormasi.

Upami algoritma langkung épisién némbongan, perpustakaan diteruskeun ka éta, tapi transisi ieu henteu mangaruhan API atanapi aplikasi.

A pitur spaCy éta ogé arsitektur anu dirancang pikeun ngolah dokumén lengkep, tanpa preprocessing di preprocessors anu ngabagi dokumén kana frasa. Model ditawarkeun dina dua versi: pikeun produktivitas maksimum sareng presisi maksimum.

Fitur utama spaCy:

  • Pangrojong sakitar 60 bahasa.
  • Modél anu parantos dilatih sayogi pikeun basa sareng aplikasi anu béda.
  • Pembelajaran multitask nganggo trafo anu parantos dilatih sateuacanna sapertos BERT (Bidirectional Encoder Renderings of Transformers).
  • Pangrojong pikeun véktor pra-dilatih sareng kecap kecap.
  • Kinerja tinggi.
  • Modél sistem palatihan padamelan siap-siap dianggo.
  • Tokenisasi motivasi linguistik.
  • Komponén siap-siap sayogi pikeun ngahubungkeun éntitas anu namina, nyirian bagéan biantara, ngagolongkeun téks, nganalisis katergantungan dumasar-tag, ngabagi kalimat, nyirian bagéan biantara, analisis morfologis, batang, jst.
  • Dukungan pikeun ngalegaan fungsionalitas sareng komponén sareng atribut khusus.
  • Dukung pikeun nyiptakeun modél anjeun nyalira dumasar kana PyTorch, TensorFlow sareng kerangka anu sanés.
  • Alat internal pikeun Ngikat Éntitas Anu Disebat sareng Visualisasi Sintaksis (NER, Pangenal Entitas Anu Diaranan).
  • Prosés saderhana bungkusan sareng nyebarkeun modél sareng ngatur aliran kerja.
  • Akurasi tinggi.

Perpustakaan ditulis dina Python kalayan unsur-unsur dina Cython, penyuluhan Python anu ngamungkinkeun fungsi panggero langsung dina basa C.

Kodeu proyék disebarkeun dina lisénsi MIT. Modél basa sayogi pikeun 58 basa.

Ngeunaan versi anyar spaCy 3.0

Vérsi spaCy 3.0 menonjol pikeun palaksanaan kulawarga modél latihan deui pikeun 18 basa sareng 59 pipa dilatih dina total, kaasup 5 pipa basis trafo anyar

Modél na ditawarkeun dina tilu versi (16 MB, 41 MB - 20 rébu vektor sareng 491 MB - 500 rébu vektor) sareng dioptimalkeun pikeun dianggo dina beban CPU sareng kalebet komponén tok2vec, morphologizer, parser, senter, ner, atribut_ruler, sareng lemmatizer.

Kami parantos ngerjakeun spaCy v3.0 langkung ti sataun, sareng ampir dua taun upami anjeun ngitung sadaya padamelan anu dilakukeun dina Thinc. Tujuan utama kami kalayan peluncuran éta nyaéta supados langkung gampil nyandak modél anjeun nyalira di SPACY, khususna modél canggih sapertos trafo. Anjeun tiasa nyerat modél anu ngasuh komponén spaCy kana kerangka sapertos PyTorch atanapi TensorFlow, ngagunakeun sistem konfigurasi anyar anu hadé pikeun ngajelaskeun sadaya pangaturan anjeun. Sareng kusabab alur kerja NLP modéren sering diwangun ku sababaraha léngkah, aya sistem alur kerja énggal pikeun ngabantosan anjeun tetep tetep teratur.

Inovasi penting séjén anu menonjol tina vérsi anyar:

  • Alur kerja anyar pikeun modél latihan.
  • Sistem konfigurasi anyar.
  • Dukungan pikeun modél pipa basis trafo, cocog pikeun multitasking learning.
  • Kamampuh nyambungkeun modél anjeun nyalira nganggo rupa-rupa kerangka pembelajaran mesin, sapertos PyTorch, TensorFlow, sareng MXNet.
  • Dukungan proyék pikeun ngatur sadaya tahapan alur kerja, ti sateuacana ngolah dugi ka implementasi modél.
  • Dukungan pikeun integrasi sareng Data Version Control (DVC), Streamlit, Bobot & Bias sareng rangkep Ray.
  • Komponén internal anu énggal: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributRuler sareng Transformer.
  • API Anyar pikeun nyiptakeun komponén anjeun nyalira.

tungtungna, upami anjeun resep terang langkung seueur perkawis éta tina vérsi énggal ieu atanapi ngeunaan spaCy, anjeun tiasa parios detil na Dina tautan ieu.


Eusi tulisan taat kana prinsip urang tina étika éditorial. Pikeun ngalaporkeun kasalahan klik di dieu.

Janten kahiji komen

Ninggalkeun koméntar anjeun

email alamat anjeun moal diterbitkeun. Widang diperlukeun téh ditandaan ku *

*

*

  1. Jawab data: Miguel Ángel Gatón
  2. Tujuan tina data: Kontrol SPAM, manajemén koméntar.
  3. Legitimasi: idin anjeun
  4. Komunikasi data: Data moal dikomunikasikan ka pihak katilu kacuali ku kawajiban hukum.
  5. Panyimpenan data: Basis data anu diayakeun ku Occentus Networks (EU)
  6. Hak: Iraha waé anjeun tiasa ngawatesan, cageur sareng mupus inpormasi anjeun.