spaCy, uma biblioteca de processamento de linguagem natural

Explosion AI revelou o lançamento de a nova versão da biblioteca gratuita «SpaCy»Que tem uma implementação de algoritmos de processamento de linguagem natural (PNL). Na prática, o projeto pode ser usado para construir autoresponders, bots, classificadores de texto e vários sistemas de diálogo que determinam o significado das frases.

A biblioteca é projetado para fornecer uma API persistente Não está vinculado aos algoritmos usados ​​e pronto para uso em produtos reais. A biblioteca usa os avanços mais recentes em PNL e os algoritmos mais eficientes disponível para processar informações.

Se um algoritmo mais eficiente aparecer, a biblioteca é passada para ele, mas essa transição não afeta a API ou os aplicativos.

Uma característica do spaCy é também uma arquitetura projetada para processar documentos completos, sem pré-processamento em pré-processadores que dividem o documento em frases. Os modelos são oferecidos em duas versões: para máxima produtividade e máxima precisão.

As principais características do spaCy:

  • Suporte para cerca de 60 idiomas.
  • Modelos já treinados disponíveis para diferentes idiomas e aplicações.
  • Aprendizagem multitarefa utilizando transformadores previamente treinados como BERT (Bidirectional Encoder Renderings of Transformers).
  • Suporte para vetores pré-treinados e incorporação de palavras.
  • Alto rendimento.
  • Modelo de sistema de treinamento on-the-job pronto para usar.
  • Tokenização com motivação lingüística.
  • Componentes prontos para uso estão disponíveis para vincular entidades nomeadas, marcar partes do discurso, classificar texto, analisar dependências baseadas em tags, dividir frases, marcar partes do discurso, análise morfológica, lematização, etc.
  • Suporte para estender a funcionalidade com componentes e atributos personalizados.
  • Suporte para criar seus próprios modelos com base em PyTorch, TensorFlow e outras estruturas.
  • Ferramentas integradas para vinculação de entidade nomeada e visualização de sintaxe (NER, reconhecimento de entidade nomeada).
  • Processo simples de empacotamento e implantação de modelos e gerenciamento de fluxo de trabalho.
  • Alta precisão.

A biblioteca é escrito em Python com elementos em Cython, uma extensão Python que permite a chamada direta de função na linguagem C.

O código do projeto é distribuído sob a licença MIT. Os modelos de idioma estão prontos para 58 idiomas.

Sobre a nova versão do spaCy 3.0

A versão spaCy 3.0 destaca-se pela implementação de famílias modelo retreinado para 18 idiomas e 59 pipelines treinados no total, incluindo 5 novos dutos baseados em transformador

O modelo é oferecido em três versões (16 MB, 41 MB - 20 mil vetores e 491 MB - 500 mil vetores) e é otimizado para funcionar sob carga da CPU e inclui os componentes tok2vec, morphologizer, parser, senter, ner, attribute_ruler e lemmatizer.

Trabalhamos no spaCy v3.0 há mais de um ano e quase dois anos se você contar todo o trabalho realizado no Thinc. Nosso principal objetivo com o lançamento é tornar mais fácil trazer seus próprios modelos no SPACY, principalmente os modelos de última geração como transformadores. Você pode escrever modelos que alimentam os componentes spaCy em estruturas como PyTorch ou TensorFlow, usando nosso novo sistema de configuração incrível para descrever todas as suas configurações. E como os fluxos de trabalho modernos da PNL geralmente consistem em várias etapas, há um novo sistema de fluxo de trabalho para ajudá-lo a manter seu trabalho organizado.

Outras inovações importantes que se destacam da nova versão:

  • Novo fluxo de trabalho para modelos de treinamento.
  • Novo sistema de configuração.
  • Suporte para modelos de pipeline baseados em transformador, adequados para aprendizado multitarefa.
  • A capacidade de conectar seus próprios modelos usando várias estruturas de aprendizado de máquina, como PyTorch, TensorFlow e MXNet.
  • Suporte a projetos para gerenciar todas as etapas dos workflows, desde o pré-processamento até a implementação do modelo.
  • Suporte para integração com pacotes de controle de versão de dados (DVC), Streamlit, Weights & Biases e Ray.
  • Novos componentes integrados: SentençaRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler e Transformer.
  • Nova API para criar seus próprios componentes.

Finalmente, se você estiver interessado em saber mais sobre isso desta nova versão ou sobre spaCy, você pode verificar os detalhes no link a seguir.


O conteúdo do artigo segue nossos princípios de Ética editorial. Para relatar um erro, clique Clique aqui.

Seja o primeiro a comentar

Deixe um comentário

Seu endereço de email não será publicado.

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.

bool (verdadeiro)