Mozilla apresenta o DeepSpeech 0.9 Speech Recognition Engine

Fala Profunda1

O lançamento foi publicado motor de reconhecimento de voz DeepSpeech 0.9 desenvolvido pela Mozilla, que implementa a arquitetura de reconhecimento de voz com o mesmo nome proposto por pesquisadores do Baidu.

A implementação é escrito em Python usando a plataforma de aprendizado de máquina TensorFlow e é distribuído sob a licença MPL 2.0 gratuita.

Sobre o DeepSpeech

DeepSpeech consiste em dois subsistemas: um modelo acústico e um decodificador. O modelo acústico usa técnicas profundas de aprendizado de máquina para calcular a probabilidade de que certos caracteres estejam presentes no som de entrada.

O decodificador usa um algoritmo de busca de raios para transformar os dados de probabilidade do caractere em uma representação textual. O DeepSpeech é muito mais simples do que os sistemas tradicionais e, ao mesmo tempo, oferece uma qualidade de reconhecimento superior na presença de ruídos externos.

O desenvolvimento não usa modelos acústicos tradicionais e o conceito de fonemas; em vez disso, um sistema de aprendizado de máquina baseado em rede neural bem otimizado é usado, o que elimina a necessidade de desenvolver componentes separados para modelar várias anomalias, como ruído, eco e características de fala.

El kit oferece modelos treinados, arquivos de som de amostra e ferramentas de reconhecimento de linha de comando.

O modelo acabado é fornecido apenas em inglês e chinês. Para outros idiomas, você mesmo pode aprender o sistema de acordo com as instruções em anexo, usando os dados de voz coletados pelo projeto Common Voice.

Quando o modelo pronto para uso do idioma inglês oferecido para download é usado, o nível de erros de reconhecimento no DeepSpeech é de 7.06% quando avaliado usando o conjunto de testes LibriSpeech.

Para efeito de comparação, a taxa de erro de reconhecimento humano é estimada em 5,83%.

No modelo proposto, o melhor resultado de reconhecimento é obtido com uma gravação limpa de uma voz masculina com sotaque americano em um ambiente sem ruídos estranhos.

Segundo o autor da Vosk Continuous Speech Recognition Library, as desvantagens do conjunto Common Voice são a unilateralidade do material de fala (a predominância de homens na faixa dos 20 e 30 anos e a falta de material com a voz de mulheres, crianças e idosos), a falta de variabilidade vocabular (repetição das mesmas frases) e a distribuição de gravações de MP3 com tendência a distorções.

As desvantagens do DeepSpeech incluem baixo desempenho e o alto consumo de memória no decodificador, além de importantes recursos para treinar o modelo (a Mozilla usa um sistema com 8 GPUs Quadro RTX 6000 com 24GB VRAM em cada uma).

A desvantagem dessa abordagem é que para reconhecimento e treinamento de alta qualidade de uma rede neural, o motor DeepSpeech requer uma grande quantidade de dados heterogêneo ditado em condições reais por vozes diferentes e na presença de ruídos naturais.

Esses dados são compilados pelo projeto Common Voice criado no Mozilla, que fornece um conjunto de dados verificado com 1469 horas em inglês, 692 em alemão, 554 em francês, 105 horas em russo e 22 horas em ucraniano.

Ao treinar o modelo final em inglês para DeepSpeech, além do Common Voice, os dados dos projetos LibriSpeech, Fisher e Switchboard são usados ​​adicionalmente, bem como aproximadamente 1700 horas de gravações de programas de rádio transcritos.

Entre as mudanças no novo ramo, a possibilidade de forçar o peso das palavras é destacada selecionados durante o processo de decodificação.

Ele também destaca o suporte para a plataforma Electron 9.2 e uma implementação opcional do mecanismo de normalização de camada (Layer Norm) ao treinar a rede neural.

Baixe e obtenha

O desempenho é suficiente para usar o motor nas placas LePotato, Raspberry Pi 3 e Raspberry Pi 4, bem como nos smartphones Google Pixel 2, Sony Xperia Z Premium e Nokia 1.3.

Módulos prontos são oferecidos para usar com Python, NodeJS, C ++ e .NET para integrar funções de reconhecimento de voz em seus programas (desenvolvedores de terceiros prepararam módulos separadamente para Rust, Go e V).


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.