spaCy, perpustakaan pemprosesan bahasa semula jadi

Explosion AI melancarkan pelancaran versi baru perpustakaan percuma «SpaCy»Yang mempunyai pelaksanaan algoritma pemprosesan bahasa semula jadi (NLP). Dalam latihan, projek tersebut dapat digunakan untuk membina autoresponden, bot, pengkelasan teks, dan pelbagai sistem dialog yang menentukan makna frasa.

Perpustakaan dirancang untuk menyediakan API berterusan Ia tidak berkaitan dengan algoritma yang digunakan dan siap digunakan dalam produk sebenar. Perpustakaan menggunakan kemajuan terkini dalam NLP dan algoritma yang paling cekap tersedia untuk memproses maklumat.

Sekiranya algoritma yang lebih cekap muncul, perpustakaan diteruskan ke dalamnya, tetapi peralihan ini tidak mempengaruhi API atau aplikasi.

Satu ciri spaCy ia juga merupakan seni bina yang dirancang untuk memproses dokumen lengkap, tanpa praproses dalam preprocessor yang membahagikan dokumen menjadi frasa. Model ditawarkan dalam dua versi: untuk produktiviti maksimum dan ketepatan maksimum.

Ciri-ciri utama spaCy:

  • Sokongan untuk sekitar 60 bahasa.
  • Model yang sudah dilatih tersedia untuk pelbagai bahasa dan aplikasi.
  • Pembelajaran multitask menggunakan transformer terlatih seperti BERT (Bidirectional Encoder Renderings of Transformers).
  • Sokongan untuk vektor dan penyisipan perkataan yang dilatih.
  • Prestasi tinggi.
  • Model sistem latihan yang sedia digunakan semasa bekerja.
  • Tokenisasi bermotivasi bahasa.
  • Komponen siap pakai tersedia untuk menghubungkan entiti bernama, menandakan bahagian ucapan, mengklasifikasikan teks, menganalisis ketergantungan berdasarkan tag, membahagi ayat, menandakan bahagian ucapan, analisis morfologi, penangkapan, dll.
  • Sokongan untuk memperluas fungsi dengan komponen dan atribut tersuai.
  • Sokongan untuk membuat model anda sendiri berdasarkan PyTorch, TensorFlow dan kerangka lain.
  • Alat terbina dalam untuk Pengikatan Entiti Bernama dan Visualisasi Sintaks (NER, Pengakuan Entiti Dinamakan).
  • Proses pembungkusan dan penggunaan model yang mudah dan menguruskan aliran kerja.
  • Ketepatan tinggi.

Perpustakaan ditulis dalam Python dengan unsur-unsur di Cython, sambungan Python yang membolehkan panggilan fungsi langsung dalam bahasa C.

Kod projek diedarkan di bawah lesen MIT. Model bahasa siap untuk 58 bahasa.

Mengenai versi baru spaCy 3.0

Versi spaCy 3.0 menonjol untuk pelaksanaan keluarga model dilatih semula untuk 18 bahasa dan 59 saluran paip dilatih secara keseluruhan, termasuk 5 saluran paip berasaskan transformer baru

Model ini ditawarkan dalam tiga versi (16 MB, 41 MB - 20 ribu vektor dan 491 MB - 500 ribu vektor) dan dioptimumkan untuk berfungsi di bawah beban CPU dan merangkumi komponen tok2vec, morphologizer, parser, senter, ner, attribute_ruler, dan lemmatizer.

Kami telah mengusahakan spaCy v3.0 selama lebih dari satu tahun, dan hampir dua tahun jika anda mengira semua kerja yang dilakukan di Thinc. Matlamat utama kami dengan pelancaran ini adalah untuk mempermudah untuk membawa model anda sendiri di SPACY, terutama model canggih seperti transformer. Anda boleh menulis model yang memasukkan komponen spaCy ke dalam kerangka seperti PyTorch atau TensorFlow, menggunakan sistem konfigurasi baru kami yang hebat untuk menerangkan semua tetapan anda. Dan kerana aliran kerja NLP moden sering terdiri daripada beberapa langkah, ada sistem aliran kerja baru untuk membantu anda memastikan kerja anda tetap teratur.

Inovasi penting lain yang menonjol dari versi baru:

  • Aliran kerja baru untuk model latihan.
  • Sistem konfigurasi baru.
  • Sokongan untuk model saluran paip berasaskan transformer, sesuai untuk pembelajaran multitasking.
  • Keupayaan untuk menghubungkan model anda sendiri menggunakan pelbagai kerangka pembelajaran mesin, seperti PyTorch, TensorFlow, dan MXNet.
  • Sokongan projek untuk menguruskan semua peringkat aliran kerja, dari pra-proses hingga pelaksanaan model.
  • Sokongan untuk integrasi dengan pakej Data Version Control (DVC), Streamlit, Weights & Biases dan Ray.
  • Komponen terbina dalam baru: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AtributRuler dan Transformer.
  • API baru untuk membuat komponen anda sendiri.

Akhirnya, sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya versi baru ini atau mengenai spaCy, anda boleh menyemak perinciannya Dalam pautan berikut.


Kandungan artikel mematuhi prinsip kami etika editorial. Untuk melaporkan ralat, klik di sini.

Menjadi yang pertama untuk komen

Tinggalkan komen anda

Alamat email anda tidak akan disiarkan.

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.