spaCy, perpustakaan pemrosesan bahasa alami

Explosion AI meluncurkan peluncuran versi baru dari perpustakaan gratis «SpaCy»Yang memiliki implementasi algoritma pemrosesan bahasa alami (NLP). Dalam praktek, proyek ini dapat digunakan untuk membangun penjawab otomatis, bot, pengklasifikasi teks, dan berbagai sistem dialog yang menentukan arti frasa.

Perpustakaan dirancang untuk menyediakan API yang persisten Itu tidak terkait dengan algoritma yang digunakan dan siap digunakan dalam produk nyata. Perpustakaan menggunakan kemajuan terbaru dalam NLP dan algoritme paling efisien tersedia untuk memproses informasi.

Jika algoritme yang lebih efisien muncul, pustaka diteruskan ke sana, tetapi transisi ini tidak memengaruhi API atau aplikasi.

Fitur spaCy itu juga merupakan arsitektur yang dirancang untuk memproses dokumen lengkap, tanpa preprocessing di preprocessor yang membagi dokumen menjadi beberapa frase. Model ditawarkan dalam dua versi: untuk produktivitas maksimum dan presisi maksimum.

Fitur utama spaCy:

  • Dukungan untuk sekitar 60 bahasa.
  • Model yang sudah terlatih tersedia untuk berbagai bahasa dan aplikasi.
  • Pembelajaran multitask menggunakan transformer terlatih sebelumnya seperti BERT (Bidirectional Encoder Renderings of Transformers).
  • Dukungan untuk vektor terlatih dan penyematan kata.
  • Performa tinggi.
  • Model sistem pelatihan siap pakai di tempat kerja.
  • Tokenisasi dengan motivasi linguistik.
  • Komponen siap pakai tersedia untuk menghubungkan entitas bernama, menandai bagian dari ucapan, mengklasifikasikan teks, menganalisis dependensi berbasis tag, membagi kalimat, menandai bagian dari ucapan, analisis morfologi, stemming, dll.
  • Dukungan untuk memperluas fungsionalitas dengan komponen dan atribut khusus.
  • Dukungan untuk membuat model Anda sendiri berdasarkan PyTorch, TensorFlow, dan framework lainnya.
  • Alat bawaan untuk Pengikatan Entitas Bernama dan Visualisasi Sintaksis (NER, Pengenalan Entitas Bernama).
  • Proses sederhana untuk mengemas dan menerapkan model dan mengelola alur kerja.
  • Akurasi tinggi.

Perpustakaan ditulis dengan Python dengan elemen di Cython, ekstensi Python yang memungkinkan pemanggilan fungsi langsung dalam bahasa C.

Kode proyek didistribusikan di bawah lisensi MIT. Model bahasa siap untuk 58 bahasa.

Tentang versi baru spaCy 3.0

Versi spaCy 3.0 menonjol untuk implementasi model keluarga dilatih ulang untuk 18 bahasa dan 59 saluran pipa terlatih secara total, termasuk 5 jaringan pipa baru berbasis transformator

Model ini ditawarkan dalam tiga versi (16 MB, 41 MB - 20 ribu vektor dan 491 MB - 500 ribu vektor) dan dioptimalkan untuk bekerja di bawah beban CPU dan menyertakan komponen tok2vec, morphologizer, parser, senter, ner, attribute_ruler, dan lemmatizer.

Kami telah mengerjakan spaCy v3.0 selama lebih dari setahun, dan hampir dua tahun jika Anda menghitung semua pekerjaan yang dilakukan di Thinc. Tujuan utama kami dengan peluncuran ini adalah untuk memudahkan membawa model Anda sendiri di SPACY, terutama model mutakhir seperti transformer. Anda dapat menulis model yang memasukkan komponen spaCy ke dalam kerangka kerja seperti PyTorch atau TensorFlow, menggunakan sistem konfigurasi baru kami yang mengagumkan untuk mendeskripsikan semua setelan Anda. Dan karena alur kerja NLP modern sering kali terdiri dari beberapa langkah, ada sistem alur kerja baru untuk membantu Anda mengatur pekerjaan Anda.

Inovasi penting lainnya yang menonjol dari versi baru:

  • Alur kerja baru untuk model pelatihan.
  • Sistem konfigurasi baru.
  • Dukungan untuk model pipeline berbasis transformator, cocok untuk pembelajaran multitasking.
  • Kemampuan untuk menghubungkan model Anda sendiri menggunakan berbagai framework pembelajaran mesin, seperti PyTorch, TensorFlow, dan MXNet.
  • Dukungan proyek untuk mengelola semua tahapan alur kerja, dari pra-pemrosesan hingga implementasi model.
  • Dukungan untuk integrasi dengan Data Version Control (DVC), Streamlit, Weights & Biases dan paket Ray.
  • Komponen bawaan baru: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler dan Transformer.
  • API baru untuk membuat komponen Anda sendiri.

Akhirnya, jika Anda tertarik untuk mengetahui lebih banyak tentang itu versi baru ini atau tentang spaCy, Anda dapat memeriksa detailnya Di tautan berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.