spaCy, doğal bir dil işleme kütüphanesi

Explosion AI, ücretsiz kütüphanenin yeni versiyonu «SpaCy»Bir uygulaması olan doğal dil işleme algoritmaları (NLP). Uygulamada, proje otomatik cevaplayıcılar oluşturmak için kullanılabilirifadelerin anlamını belirleyen botlar, metin sınıflandırıcılar ve çeşitli diyalog sistemleri.

Kütüphane kalıcı bir API sağlamak için tasarlanmıştır Gerçek ürünlerde kullanılan ve kullanıma hazır algoritmalara bağlı değildir. Kütüphane NLP'deki en son gelişmeleri ve en verimli algoritmaları kullanır bilgileri işlemek için kullanılabilir.

Daha verimli bir algoritma ortaya çıkarsa, kitaplık ona aktarılır, ancak bu geçiş API veya uygulamaları etkilemez.

SpaCy'nin bir özelliği aynı zamanda eksiksiz belgeleri işlemek için tasarlanmış bir mimaridir, belgeyi kelime öbeklerine bölen önişlemcilerde ön işleme olmadan. Modeller iki versiyonda sunulmaktadır: maksimum verimlilik ve maksimum hassasiyet için.

SpaCy'nin temel özellikleri:

  • Yaklaşık 60 dil desteği.
  • Farklı diller ve uygulamalar için halihazırda eğitilmiş modeller mevcuttur.
  • BERT (Bidirectional Encoder Renderings of Transformers) gibi önceden eğitilmiş transformatörleri kullanarak çoklu görev öğrenimi.
  • Önceden eğitilmiş vektörler ve kelime yerleştirmeleri için destek.
  • Yüksek performans.
  • Kullanıma hazır iş başında eğitim sistemi modeli.
  • Dilbilimsel olarak motive edilmiş belirteçleştirme.
  • Kullanıma hazır bileşenler, adlandırılmış varlıkları bağlamak, konuşma bölümlerini işaretlemek, metni sınıflandırmak, etikete dayalı bağımlılıkları analiz etmek, cümleleri bölmek, konuşma bölümlerini işaretlemek, morfolojik analiz, kök ayırma vb. İçin kullanılabilir.
  • Özel bileşenler ve özniteliklerle işlevselliği genişletme desteği.
  • PyTorch, TensorFlow ve diğer çerçevelere dayalı kendi modellerinizi oluşturma desteği.
  • Adlandırılmış Varlık Bağlama ve Sözdizimi Görselleştirme (NER, Adlandırılmış Varlık Tanıma) için yerleşik araçlar.
  • Modelleri paketleme ve devreye alma ve iş akışını yönetmenin basit süreci.
  • Yüksek doğruluk.

Kütüphane Python'da Cython'daki öğelerle yazılmıştır, C dilinde doğrudan işlev çağrısına izin veren bir Python uzantısı.

Proje kodu MIT lisansı altında dağıtılmaktadır. Dil modelleri 58 dil için hazır.

SpaCy 3.0'ın yeni sürümü hakkında

SpaCy 3.0 sürümü, model aileleri 18 dil için yeniden eğitildi ve 59 boru hattı eğitildi 5 yeni trafo tabanlı boru hattı dahil olmak üzere toplamda

Model üç versiyonda sunulmaktadır (16 MB, 41 MB - 20 bin vektör ve 491 MB - 500 bin vektör) ve CPU yükü altında çalışmak üzere optimize edilmiştir ve tok2vec, morphologizer, ayrıştırıcı, senter, ner, attribute_ruler ve lemmatizer bileşenlerini içerir.

SpaCy v3.0 üzerinde bir yıldan fazla bir süredir çalışıyoruz ve Thinc üzerinde yapılan tüm çalışmaları sayarsanız neredeyse iki yıldır. Lansmanla ana hedefimiz, kendi modellerinizi, özellikle transformatör gibi son teknoloji ürünü modelleri SPACY'ye getirmeyi kolaylaştırmaktır. Tüm ayarlarınızı açıklamak için harika yeni yapılandırma sistemimizi kullanarak spaCy bileşenlerini PyTorch veya TensorFlow gibi çerçevelere besleyen modeller yazabilirsiniz. Modern NLP iş akışları genellikle birden çok adımdan oluştuğundan, işinizi düzenli tutmanıza yardımcı olacak yeni bir iş akışı sistemi vardır.

Diğer önemli yenilikler yeni sürümden sıyrılanlar:

  • Eğitim modelleri için yeni iş akışı.
  • Yeni konfigürasyon sistemi.
  • Çoklu görev öğrenimi için uygun, transformatör tabanlı boru hattı modelleri desteği.
  • PyTorch, TensorFlow ve MXNet gibi çeşitli makine öğrenimi çerçevelerini kullanarak kendi modellerinizi bağlama yeteneği.
  • Ön işlemeden model uygulamaya kadar iş akışlarının tüm aşamalarını yönetmek için proje desteği.
  • Veri Sürümü Kontrolü (DVC), Streamlit, Ağırlıklar ve Önyargılar ve Ray paketleri ile entegrasyon desteği.
  • Yeni yerleşik bileşenler: Cümle Tanıyıcı, Morphologizer, Lemmatizer,
  • AttributeRuler ve Transformer.
  • Kendi bileşenlerinizi oluşturmak için yeni API.

Son olarak, onun hakkında daha fazla bilgi edinmekle ilgileniyorsan bu yeni sürümün ayrıntılarını kontrol edebilirsiniz veya spaCy hakkında Aşağıdaki bağlantıda.


Makalenin içeriği şu ilkelerimize uygundur editoryal etik. Bir hata bildirmek için tıklayın burada.

İlk yorumu siz

Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.