Lanzaron o código fonte de Whisper, un sistema automático de recoñecemento de voz

Susurro

Whisper é un sistema automático de recoñecemento de voz

O proxecto recentemente OpenAI, que desenvolve proxectos públicos no ámbito da intelixencia artificial, publicou noticias relacionados co sistema de recoñecemento de voz murmurar, que é a sistema automático de recoñecemento de voz (ASR) adestrados en 680.000 horas de datos supervisados ​​multilingües e multitarefa recollidos da web.

Afirma que para a fala inglesa, o sistema ofrece niveis de fiabilidade e precisión de recoñecemento automático próximos ao recoñecemento humano.

Demostramos que o uso dun conxunto de datos tan grande e diverso leva a unha maior robustez dos acentos, do ruído de fondo e da linguaxe técnica. Ademais, permite a transcrición en varios idiomas, así como a tradución desas linguas ao inglés. Somos modelos de código aberto e código de inferencia que serven de base para construír aplicacións útiles e para futuras investigacións sobre procesamento robusto da voz.

Sobre o modelo (como xa se mencionou) adestrado con 680 horas de datos de voz recollidos de varias coleccións que abarcan diferentes idiomas e áreas temáticas. Cerca de 1/3 dos datos de voz implicados na formación están en idiomas distintos do inglés.

O sistema proposto manexa correctamente situacións como a pronuncia acentuada, a presenza de ruído de fondo e o uso da xerga técnica. Ademais de transcribir o discurso a texto, o sistema tamén pode traducir o discurso dun idioma arbitrario ao inglés e detectar a aparición da fala no fluxo de audio.

Os modelos adestran en dúas representacións: un modelo para o idioma inglés e un modelo multilingüe que admite español, ruso, italiano, alemán, xaponés, ucraíno, bielorruso, chinés e outros idiomas. Á súa vez, cada vista divídese en 5 opcións, que difieren en tamaño e número de parámetros cubertos no modelo.

A arquitectura Whisper é un enfoque sinxelo de extremo a extremo, implementado como un transformador codificador-decodificador. O audio de entrada divídese en anacos de 30 segundos, convértese nun espectrograma log-Mel e despois pásase a un codificador. Un descodificador está adestrado para predecir o subtítulo do texto correspondente, intercalado con tokens especiais que dirixen ao modelo único para realizar tarefas como a identificación da lingua, marcas de tempo a nivel de frase, transcrición multilingüe e tradución de voz ao inglés.

Canto maior sexa o tamaño, maior será a precisión e a calidade do recoñecemento, pero tamén máis altos serán os requisitos para o tamaño da memoria de vídeo da GPU e menor será o rendemento. Por exemplo, a opción mínima inclúe 39 millóns de parámetros e require 1 GB de memoria de vídeo, mentres que a opción máxima inclúe 1550 millóns de parámetros e require 10 GB de memoria de vídeo. A variante mínima é 32 veces máis rápida que a máxima.

O sistema usa a arquitectura de rede neuronal "Transformer". que inclúe un codificador e un decodificador que interactúan entre si. O audio divídese en anacos de 30 segundos, que se converten nun espectrograma log-Mel e se envían ao codificador.

O resultado do traballo do codificador envíase ao descodificador, que predice unha representación de texto mesturada con tokens especiais que permiten resolver tarefas como a detección de idiomas, a contabilidade cronolóxica da pronuncia de frases, a transcrición de voz en diferentes idiomas e a tradución ao inglés nun modelo xeral.

Cabe mencionar que o rendemento de Whisper varía moito segundo o idioma, polo que o que presenta unha mellor comprensión é o inglés, que conta con catro versións só en inglés, que, como os demais modelos doutras linguas, ofrecen vantaxes e inconvenientes de velocidade e precisión.

Finalmente Se estás interesado en saber máis sobre el, podes consultar a publicación orixinal en este enlace, mentres que se che interesa o código fonte e os modelos adestrados podes consultalos en este link.

O código de implementación de referencia baseado no marco PyTorch e un conxunto de modelos xa adestrados están abertos, listos para usar. O código é de código aberto baixo a licenza MIT e cómpre mencionar que é necesario o uso da biblioteca ffmpeg.


O contido do artigo adhírese aos nosos principios de ética editorial. Para informar dun erro faga clic en aquí.

Sexa o primeiro en opinar sobre

Deixa o teu comentario

Enderezo de correo electrónico non será publicado.

*

*

  1. Responsable dos datos: Miguel Ángel Gatón
  2. Finalidade dos datos: controlar SPAM, xestión de comentarios.
  3. Lexitimación: o seu consentimento
  4. Comunicación dos datos: os datos non serán comunicados a terceiros salvo obrigación legal.
  5. Almacenamento de datos: base de datos aloxada por Occentus Networks (UE)
  6. Dereitos: en calquera momento pode limitar, recuperar e eliminar a súa información.