DeepSpeech: motor de reconhecimento de voz da Mozilla

DeepSpeech1

A Mozilla atualmente não só funciona em seu popular navegador, mas também tem uma variedade de projetos sob sua responsabilidade, dos quais Hoje vamos falar sobre DeepSpeech. Este é um motor de reconhecimento de voz que implementa a arquitetura de reconhecimento de fala homônima proposta pelos pesquisadores do Baidu.

DeepSpeech se destaca por oferecer diferentes modelos treinados, arquivos de áudio de amostra e ferramentas de reconhecimento de linha de comando, para integrar a função de reconhecimento de voz em seus programas. Para isso módulos prontos para uso são fornecidos para Python, NodeJS, C ++ e .NET, embora os desenvolvedores externos também tenham preparado módulos separados para Rust and Go.

O modelo acabado é entregue apenas para o idioma inglês, mas para outros idiomas de acordo com as instruções em anexo, o sistema pode ser treinado usando os dados de voz coletados pelo projeto Common Voice.

Sobre o DeepSpeech

DeepSpeech é muito mais simples do que os sistemas tradicionais e, ao mesmo tempo, fornece uma maior qualidade de reconhecimento na presença de ruído estranho.

O desenvolvimento não usa modelos acústicos tradicionais e o conceito de fonemas; em vez de, usar um sistema de aprendizado de máquina Com base em rede neural bem otimizada, eliminando a necessidade de desenvolver componentes separados para modelar vários desvios, como ruído, eco e características de fala.

O outro lado dessa abordagem é que, para obter reconhecimento e treinamento de alta qualidade de uma rede neural, o motor DeepSpeech requer uma grande quantidade de dados heterogêneo ditado em condições reais por vozes diferentes e na presença de ruído natural.

O projeto Common Voice criado no Mozilla é responsável pela coleta desses dados, fornecendo um conjunto de dados comprovado com 780 horas em inglês, 325 em alemão, 173 em francês e 27 horas em russo.

O objetivo final do projeto Common Voice é o acúmulo de 10 mil horas com gravações de várias pronúncias frases típicas da fala humana, que atingirão um nível aceitável de erros de reconhecimento. No formulário atual, os participantes do projeto já ministraram um total de 4.3 mil horas, das quais 3.5 mil passaram na prova.

No ensino do modelo final de inglês para DeepSpeech, foram utilizadas 3816 horas de fala, exceto para Common Voice, que engloba dados de projeto do LibriSpeech, Fisher e Switchboard, além de incluir cerca de 1700 horas de gravações de programas de rádio transcritos.

Ao usar o modelo pronto para download em inglês, o nível de erro de reconhecimento no DeepSpeech é de 7,5% quando avaliado com o conjunto de testes LibriSpeech. A título de comparação, o nível de erros no reconhecimento humano é estimado em 5.83%.

DeepSpeech consiste em dois subsistemas: um modelo acústico e um decodificador. O modelo acústico usa métodos de aprendizado de máquina profundo para calcular a probabilidade da presença de certos caracteres no som de entrada. O decodificador usa um algoritmo de busca de raios para converter os dados de probabilidade de caracteres em uma representação de texto.

Sobre a nova versão do DeepSpeech

DeepSpeech está atualmente em sua versão 0.6 em que as seguintes alterações são destacadas:

  • É proposto um novo decodificador de transmissão que fornece maior capacidade de resposta e não depende do tamanho dos dados de áudio processados.
  • Mudanças foram feitas na API e trabalho foi feito para unificar nomes de funções. Funções foram adicionadas para obter metadados adicionais sobre o tempo, permitindo não apenas receber uma representação de texto na saída, mas também rastrear a ligação de caracteres e frases individuais a uma posição no fluxo de áudio.
  • O suporte para usar a biblioteca CuDNN para otimizar o trabalho com redes neurais recorrentes (RNN) foi adicionado ao kit de ferramentas para módulos de treinamento.
  • Os requisitos mínimos para a versão do TensorFlow foram aumentados de 1.13.1 para 1.14.0.
  • Adicionado suporte para TensorFlow Lite Light Edition, que reduz o tamanho do pacote DeepSpeech de 98 MB para 3.7 MB.
  • O modelo de linguagem foi transferido para outro formato de estrutura de dados, permitindo que os arquivos sejam alocados na memória no momento da inicialização.
  • O suporte para o formato antigo foi descontinuado.

A implementação foi escrita em Python usando a plataforma de aprendizado de máquina TensorFlow e é distribuída sob a licença MPL 2.0 gratuita. O trabalho É compatível com Linux, Android, macOS e Windows. Há desempenho suficiente para usar o motor nas placas LePotato, Raspberry Pi 3 e Raspberry Pi 4.


O conteúdo do artigo segue nossos princípios de Ética editorial. Para relatar um erro, clique Clique aqui.

Seja o primeiro a comentar

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.