De släppte källkoden till Whisper, ett automatiskt taligenkänningssystem

Viska

Whisper är ett automatiskt taligenkänningssystem

Projektet nyligen OpenAI, som utvecklar offentliga projekt inom området artificiell intelligens, har publicerat nyheter relaterade till röstigenkänningssystemet Viska, Vilket är en automatiskt taligenkänningssystem (ASR) utbildad på 680.000 XNUMX timmars flerspråkig, multitasking övervakad data som samlats in från webben.

Det hävdas att för engelskt tal ger systemet nivåer av automatisk igenkänning tillförlitlighet och noggrannhet nära mänsklig igenkänning.

Vi visar att användning av en så stor och mångsidig datauppsättning leder till större robusthet mot accenter, bakgrundsljud och tekniskt språk. Dessutom tillåter det transkription på olika språk, såväl som översättning av dessa språk till engelska. Vi är modeller med öppen källkod och slutledningskod som fungerar som grunden för att bygga användbara applikationer och för framtida forskning om robust talbehandling.

Om modellen (som redan nämnts) tränade med 680 000 timmar röstdata som samlats in från olika samlingar som täcker olika språk och ämnesområden. Cirka 1/3 av röstdata som ingår i utbildningen är på andra språk än engelska.

Det föreslagna systemet hanterar situationer som accentuerat uttal korrekt, förekomsten av bakgrundsljud och användningen av teknisk jargong. Förutom att transkribera tal till text kan systemet även översätta tal från ett godtyckligt språk till engelska och upptäcka förekomsten av tal i ljudströmmen.

Modeller tränas i två representationer: en modell för det engelska språket och en flerspråkig modell som stöder spanska, ryska, italienska, tyska, japanska, ukrainska, vitryska, kinesiska och andra språk. I sin tur är varje vy uppdelad i 5 alternativ, som skiljer sig i storlek och antal parametrar som omfattas av modellen.

Whisper-arkitekturen är en enkel end-to-end-metod, implementerad som en encoder-decoder-transformator. Ingångsljudet delas upp i 30-sekundersbitar, konverteras till ett log-Mel-spektrogram och skickas sedan till en kodare. En avkodare är tränad att förutsäga motsvarande textundertext, varvat med speciella tokens som styr den unika modellen att utföra uppgifter som språkidentifiering, tidsstämplar på meningsnivå, flerspråkig taltranskription och talöversättning till engelska.

Ju större storlek, desto högre erkänningsnoggrannhet och kvalitet, men också desto högre krav på GPU-videominnets storlek och desto lägre prestanda. Till exempel inkluderar minimialternativet 39 miljoner parametrar och kräver 1 GB videominne, medan det maximala alternativet inkluderar 1550 miljarder parametrar och kräver 10 GB videominne. Minsta varianten är 32 gånger snabbare än maxvarianten.

Systemet använder "Transformer" neurala nätverksarkitektur, som inkluderar en kodare och en avkodare som interagerar med varandra. Ljudet delas upp i 30-sekundersbitar, som konverteras till ett log-Mel-spektrogram och skickas till kodaren.

Resultatet av kodarens arbete skickas till avkodaren, som förutsäger en textrepresentation blandad med speciella tokens som gör det möjligt att lösa uppgifter som språkdetektering, meningsuttal kronologiredovisning, taltranskription på olika språk och engelsk översättning i en allmän modell.

Det är värt att nämna att prestandan för Whisper varierar mycket beroende på språk, så den som ger en bättre förståelse är engelska, som har fyra versioner endast på engelska, som, liksom de andra modellerna av andra språk, erbjuder fördelar och nackdelar med hastighet och noggrannhet.

Slutligen Om du är intresserad av att veta mer om det, du kan kontrollera originalpublikationen i denna länk, medan om du är intresserad av källkoden och de utbildade modellerna kan du konsultera dem på den här länken

Referensimplementeringskod baserad på PyTorch-ramverket och en uppsättning redan utbildade modeller är öppna, redo att användas. Koden är öppen källkod under MIT-licensen och det är värt att nämna att användningen av ffmpeg-biblioteket krävs.


Bli först att kommentera

Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.