spaCy, biblioteka przetwarzająca język naturalny

Explosion AI ujawniło uruchomienie nowa wersja bezpłatnej biblioteki «SpaCy»Który ma implementację algorytmy przetwarzania języka naturalnego (NLP). W praktyce, projekt można wykorzystać do budowy autoresponderów, boty, klasyfikatory tekstu i różne systemy dialogowe, które określają znaczenie fraz.

Biblioteka ma na celu zapewnienie trwałego interfejsu API Nie jest powiązany z algorytmami używanymi i gotowymi do użycia w rzeczywistych produktach. Biblioteka wykorzystuje najnowsze osiągnięcia NLP i najbardziej wydajne algorytmy dostępne do przetwarzania informacji.

Jeśli pojawi się wydajniejszy algorytm, biblioteka jest do niego przekazywana, ale to przejście nie ma wpływu na interfejs API ani aplikacje.

Cecha spaCy to także architektura przeznaczona do przetwarzania kompletnych dokumentów, bez wstępnego przetwarzania w preprocesorach, które dzielą dokument na frazy. Modele oferowane są w dwóch wersjach: dla maksymalnej produktywności i maksymalnej precyzji.

Główne cechy spaCy:

  • Wsparcie dla około 60 języków.
  • Już wyszkolone modele dostępne dla różnych języków i aplikacji.
  • Wielozadaniowa nauka przy użyciu wcześniej przeszkolonych transformatorów, takich jak BERT (dwukierunkowe renderowanie transformatorów przez enkodery).
  • Obsługa wstępnie wytrenowanych wektorów i osadzania słów.
  • Wysoka wydajność.
  • Gotowy do użycia model systemu szkolenia w miejscu pracy.
  • Tokenizacja motywowana językowo.
  • Dostępne są gotowe komponenty do łączenia nazwanych obiektów, oznaczania części mowy, klasyfikowania tekstu, analizowania zależności na podstawie tagów, dzielenia zdań, oznaczania fragmentów mowy, analizy morfologicznej, wyprowadzania itp.
  • Obsługa rozszerzania funkcjonalności o niestandardowe komponenty i atrybuty.
  • Wsparcie dla tworzenia własnych modeli w oparciu o PyTorch, TensorFlow i inne frameworki.
  • Wbudowane narzędzia do powiązania nazwanych jednostek i wizualizacji składni (NER, rozpoznawanie nazwanych jednostek).
  • Prosty proces pakowania i wdrażania modeli oraz zarządzania przepływem pracy.
  • Wysoka celność.

Biblioteka jest napisany w Pythonie z elementami w Cythonie, rozszerzenie Pythona, które umożliwia bezpośrednie wywoływanie funkcji w języku C.

Kod projektu jest rozpowszechniany na licencji MIT. Modele językowe są gotowe dla 58 języków.

O nowej wersji spaCy 3.0

Wersja spaCy 3.0 wyróżnia się implementacją rodziny modeli przekwalifikowany na 18 języków i Przeszkolonych 59 rurociągów łącznie, w tym 5 nowych rurociągów transformatorowych

Model oferowany jest w trzech wersjach (16 MB, 41 MB - 20 tys. Wektorów i 491 MB - 500 tys. Wektorów) oraz jest zoptymalizowany do pracy pod obciążeniem procesora i zawiera komponenty tok2vec, morfologizator, parser, senter, ner, attribute_ruler i lemmatizer.

Pracowaliśmy nad spaCy v3.0 od ponad roku i prawie dwa lata, jeśli liczyć całą pracę wykonaną na Thinc. Naszym głównym celem przy wprowadzeniu na rynek jest ułatwienie noszenia własnych modeli w SPACY, zwłaszcza najnowocześniejszych modeli, takich jak transformatory. Możesz pisać modele, które dostarczają komponenty spaCy do frameworków, takich jak PyTorch lub TensorFlow, używając naszego niesamowitego nowego systemu konfiguracji do opisania wszystkich ustawień. A ponieważ nowoczesne przepływy pracy NLP często składają się z wielu kroków, dostępny jest nowy system przepływu pracy, który pomaga w organizacji pracy.

Inne ważne innowacje które wyróżniają się na tle nowej wersji:

  • Nowy przepływ pracy dla modeli szkoleniowych.
  • Nowy system konfiguracji.
  • Obsługa modeli rurociągów opartych na transformatorach, odpowiednich do uczenia się wielozadaniowego.
  • Możliwość łączenia własnych modeli przy użyciu różnych platform uczenia maszynowego, takich jak PyTorch, TensorFlow i MXNet.
  • Wsparcie projektowe w zakresie zarządzania wszystkimi etapami przepływu pracy, od wstępnego przetwarzania po wdrożenie modelu.
  • Wsparcie dla integracji z Data Version Control (DVC), Streamlit, Weights & Biases i pakietami Ray.
  • Nowe wbudowane komponenty: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler i Transformer.
  • Nowe API do tworzenia własnych komponentów.

Wreszcie, jeśli chcesz dowiedzieć się więcej na ten temat tej nowej wersji lub o spaCy, możesz sprawdzić szczegóły W poniższym linku.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.