Alliberaren el codi font de Whisper, un sistema de reconeixement automàtic de veu

Xiuxiueig

Whisper és un sistema de reconeixement automàtic de veu

Fa poc el projecte OpenAI, que desenvolupa projectes públics en el camp de la intel·ligència artificial, ha publicat novetats relacionades amb el sistema de reconeixement de veu Whisper, el qual és un sistema de reconeixement automàtic de veu (ASR) entrenat en 680.000 hores de dades supervisades multilingües i multitasca recopilats de la web.

S'afirma que per a la parla en anglès, el sistema proporciona nivells de confiança i precisió de reconeixement automàtic propers al reconeixement humà.

Mostrem que l'ús d'un conjunt de dades tan gran i divers condueix a una solidesa més gran als accents, el soroll de fons i el llenguatge tècnic. A més, permet la transcripció en diversos idiomes, així com la traducció d'aquests idiomes a l'anglès. Som models de codi obert i codi d'inferència que serveixen com a base per crear aplicacions útils i per a investigacions futures sobre processament de veu sòlid.

Sobre el model (com ja es va esmentar) es va entrenar utilitzant 680 hores de dades de veu recopilades de diverses col·leccions que cobreixen diferents idiomes i àrees temàtiques. Al voltant de 1/3 de les dades de veu involucrades a l'entrenament estan en idiomes diferents de l'anglès.

El sistema proposat maneja correctament situacions com la pronunciació amb accent, la presència de soroll de fons i lús de argot tècnic. A més de transcriure la parla en text, el sistema també pot traduir la parla d'un idioma arbitrari a l'anglès i detectar l'aparença de la parla a la transmissió d'àudio.

Els models es formen en dues representacions: un model per a l'idioma anglès i un model multilingüe que admet espanyol, rus, italià, alemany, japonès, ucraïnès, bielorús, xinès i altres idiomes. Alhora, cada vista es divideix en 5 opcions, que difereixen en mida i nombre de paràmetres coberts en el model.

L'arquitectura Whisper és un enfocament simple d'extrem a extrem, implementat com un transformador codificador-decodificador. L'àudio d'entrada es divideix en fragments de 30 segons, es converteix en un espectrograma log-Mel i després es passa a un codificador. S'entrena un descodificador per predir el subtítol de text corresponent, barrejat amb tokens especials que dirigeixen al model únic per realitzar tasques com ara identificació d'idioma, marques de temps a nivell de frase, transcripció de veu multilingüe i traducció de veu a l'anglès.

Com més gran sigui la mida, més gran serà la precisió i la qualitat del reconeixement, però també més grans seran els requisits per a la mida de la memòria de vídeo de la GPU i menor serà el rendiment. Per exemple, l'opció mínima inclou 39 milions de paràmetres i requereix 1 GB de memòria de vídeo, mentre que l'opció màxima inclou 1550 milions de paràmetres i requereix 10 GB de memòria de vídeo. La variant mínima és 32 vegades més ràpida que la màxima.

El sistema utilitza l'arquitectura de xarxa neuronal «Transformador», que inclou un codificador i un descodificador que interactuen entre si. L'àudio es divideix en fragments de 30 segons, que es converteixen en un espectrograma log-Mel i s'envien al codificador.

El resultat del treball del codificador s'envia al descodificador, que prediu una representació de text barrejada amb tokens especials que permeten resoldre tasques com la detecció d'idioma, la comptabilitat de la cronologia de la pronunciació de frases, la transcripció de la parla en diferents idiomes i la traducció a l'anglès en un model general.

Cal esmentar que el rendiment de Whisper varia molt segons l'idioma, per la qual cosa el que presenta una millor entesa és l'anglès el qual compta quatre amb versions només en anglès, que igual que els altres models d'altres idiomes ofereixen avantatges i desavantatges de velocitat i precisió.

Finalment si estàs interessat en poder conèixer més a l'respecte, pots consultar la publicació original en aquest enllaç, mentre que si estàs interessat en el codi font i els models entrenats els pots consultar a aquest enllaç.

El codi d'implementació de referència basat en el marc PyTorch i un conjunt de models ja entrenats estan oberts, llestos per utilitzar. El codi és de codi obert sota la llicència MIT i cal esmentar que es requereixi de lús de la biblioteca de ffmpeg.


El contingut d'l'article s'adhereix als nostres principis de ètica editorial. Per notificar un error punxa aquí.

Sigues el primer a comentar

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà.

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.