Explosion AI deu a coñecer o lanzamento de a nova versión da biblioteca gratuíta «SpaCy»Que ten unha implementación de algoritmos de procesamento de linguaxe natural (PNL). Na práctica, o proxecto pode usarse para construír autorespondedores, bots, clasificadores de texto e varios sistemas de diálogo que determinan o significado das frases.
Biblioteca está deseñado para proporcionar unha API persistente Non está ligado aos algoritmos empregados e listo para usar en produtos reais. Biblioteca usa os últimos avances en PNL e os algoritmos máis eficientes dispoñible para procesar información.
Se aparece un algoritmo máis eficiente, a biblioteca pásase a ela, pero esta transición non afecta á API nin ás aplicacións.
Unha característica de spaCy tamén é unha arquitectura deseñada para procesar documentos completos, sen preprocesamento en preprocesadores que dividen o documento en frases. Os modelos ofrécense en dúas versións: para a máxima produtividade e máxima precisión.
As principais características de spaCy:
- Soporte para arredor de 60 idiomas.
- Modelos xa adestrados dispoñibles para diferentes idiomas e aplicacións.
- Aprendizaxe multitarea usando transformadores adestrados previamente como BERT (renderizadores de codificadores bidireccionais de transformadores).
- Soporte para vectores pre-adestrados e incrustacións de palabras.
- Alto rendemento.
- Modelo de sistema de formación no traballo listo para o seu uso.
- Tokenización motivada lingüisticamente.
- Os compoñentes listos para usar están dispoñibles para vincular entidades nomeadas, marcar partes do discurso, clasificar texto, analizar dependencias baseadas en etiquetas, dividir frases, marcar partes do discurso, análise morfolóxica, derivación, etc.
- Soporte para ampliar a funcionalidade con compoñentes e atributos personalizados.
- Soporte para a creación de modelos propios baseados en PyTorch, TensorFlow e outros frameworks.
- Ferramentas incorporadas para a vinculación de entidades nomeadas e a visualización de sintaxe (NER, recoñecemento de entidades nomeadas).
- Proceso sinxelo de empaquetado e implantación de modelos e xestión do fluxo de traballo.
- Alta precisión.
Biblioteca está escrito en Python con elementos en Cython, unha extensión de Python que permite chamar a función directa na linguaxe C.
O código do proxecto distribúese baixo a licenza MIT. Os modelos de idiomas están preparados para 58 idiomas.
Acerca da nova versión de spaCy 3.0
A versión de spaCy 3.0 destaca pola implementación de familias modelo reciclado para 18 idiomas e 59 gasodutos adestrados en total, incluíndo 5 novas canalizacións baseadas en transformadores
O modelo ofrécese en tres versións (16 MB, 41 MB - 20 mil vectores e 491 MB - 500 mil vectores) e está optimizado para traballar baixo carga de CPU e inclúe os compoñentes tok2vec, morphologizer, parser, senter, ner, attribute_ruler e lemmatizer.
Levamos máis dun ano traballando en spaCy v3.0 e case dous anos se contas todo o traballo realizado en Thinc. O noso principal obxectivo co lanzamento é facilitar a incorporación dos seus propios modelos en SPACY, especialmente os modelos de última xeración como os transformadores. Podes escribir modelos que alimenten os compoñentes de spaCy en marcos como PyTorch ou TensorFlow, usando o noso incrible novo sistema de configuración para describir todas as túas configuracións. E dado que os fluxos de traballo modernos de PNL adoitan consistir en varios pasos, hai un novo sistema de fluxo de traballo para axudarche a manter o teu traballo organizado.
Outras innovacións importantes que destacan da nova versión:
- Novo fluxo de traballo para modelos de adestramento.
- Novo sistema de configuración.
- Soporte para modelos de canalizacións baseados en transformadores, adecuados para a aprendizaxe multitarea.
- A capacidade de conectar os seus propios modelos empregando varios frameworks de aprendizaxe automática, como PyTorch, TensorFlow e MXNet.
- Soporte de proxectos para xestionar todas as fases dos fluxos de traballo, desde o procesamento previo ata a implementación do modelo.
- Soporte para a integración con Data Version Control (DVC), Streamlit, Weights & Biases e Ray.
- Novos compoñentes incorporados: SentenceRecognizer, Morphologizer, Lemmatizer,
- AttributeRuler e Transformer.
- Nova API para crear os teus propios compoñentes.
Finalmente, se estás interesado en saber máis sobre el desta nova versión ou sobre spaCy, podes consultar os detalles Na seguinte ligazón.
Sexa o primeiro en opinar sobre