De udgav kildekoden til Whisper, et automatisk stemmegenkendelsessystem

Whisper er et automatisk talegenkendelsessystem

Projektet for nylig OpenAI, der udvikler offentlige projekter inden for kunstig intelligens, har offentliggjort nyheder relateret til stemmegenkendelsessystemet Hviske, som er en automatisk talegenkendelsessystem (ASR) trænet på 680.000 timers flersprogede, multitasking-overvågede data indsamlet fra nettet.

Det hævdes, at for engelsk tale giver systemet niveauer af automatisk genkendelsespålidelighed og nøjagtighed tæt på menneskelig genkendelse.

Vi viser, at brug af et så stort og forskelligartet datasæt fører til større robusthed over for accenter, baggrundsstøj og teknisk sprog. Derudover tillader det transskription på forskellige sprog samt oversættelse af disse sprog til engelsk. Vi er open source-modeller og inferenskode, der tjener som grundlaget for at bygge nyttige applikationer og for fremtidig forskning i robust talebehandling.

Om modellen (som allerede nævnt) trænet med 680 timer af stemmedata indsamlet fra forskellige samlinger, der dækker forskellige sprog og fagområder. Omkring 1/3 af stemmedataene involveret i træningen er på andre sprog end engelsk.

Det foreslåede system håndterer situationer korrekt, såsom accentudtale, tilstedeværelsen af baggrundsstøj og brugen af teknisk jargon. Udover at transskribere tale til tekst, kan systemet også oversætte tale fra et vilkårligt sprog til engelsk og registrere taleforekomsten i lydstrømmen.

Modeller trænes i to repræsentationer: en model for det engelske sprog og en flersproget model, der understøtter spansk, russisk, italiensk, tysk, japansk, ukrainsk, hviderussisk, kinesisk og andre sprog. Til gengæld er hver visning opdelt i 5 muligheder, som adskiller sig i størrelse og antal parametre, der er dækket af modellen.

Whisper-arkitekturen er en enkel ende-til-ende tilgang, implementeret som en encoder-dekoder transformer. Indgangslyden opdeles i 30-sekunders bidder, konverteres til et log-Mel-spektrogram og sendes derefter til en encoder. En dekoder er trænet til at forudsige den tilsvarende tekst undertekst, blandet med specielle tokens, der leder den unikke model til at udføre opgaver såsom sprogidentifikation, tidsstempler på sætningsniveau, flersproget taletransskription og taleoversættelse til engelsk.

Jo større størrelse, jo højere genkendelsesnøjagtighed og kvalitet, men også jo højere krav til GPU-videohukommelsesstørrelsen og jo lavere ydeevne. For eksempel inkluderer minimumsindstillingen 39 millioner parametre og kræver 1 GB videohukommelse, mens den maksimale mulighed inkluderer 1550 milliarder parametre og kræver 10 GB videohukommelse. Minimumsvarianten er 32 gange hurtigere end maksimumsvarianten.

Systemet bruger "Transformer" neurale netværksarkitektur, som omfatter en koder og en dekoder, der interagerer med hinanden. Lyden opdeles i 30-sekunders bidder, som konverteres til et log-Mel-spektrogram og sendes til encoderen.

Resultatet af koderens arbejde sendes til dekoderen, som forudsiger en tekstrepræsentation blandet med specielle tokens, der gør det muligt at løse opgaver såsom sprogdetektion, sætningsudtale kronologiregnskab, taletransskription på forskellige sprog og engelsk oversættelse i en generel model.

Det er værd at nævne, at ydelsen af Whisper varierer meget afhængigt af sproget, så den, der giver en bedre forståelse, er engelsk, som kun har fire versioner på engelsk, der ligesom de andre modeller af andre sprog byder på fordele og ulemper ved hastighed og nøjagtighed.

Endelig Hvis du er interesseret i at vide mere om det, du kan tjekke den originale publikation i dette link, mens du, hvis du er interesseret i kildekoden og de trænede modeller, kan konsultere dem på dette link.

Referenceimplementeringskode baseret på PyTorch-rammeværket og et sæt allerede trænede modeller er åbne, klar til brug. Koden er open source under MIT-licensen, og det er værd at nævne, at brugen af ffmpeg-biblioteket er påkrævet.

DesdeLinux

De udgav kildekoden til Whisper, et automatisk talegenkendelsessystem

Efterlad din kommentar Annuller svar