Zverejnili zdrojový kód Whisper, systému automatického rozpoznávania reči

šepot

Whisper je systém automatického rozpoznávania reči

Projekt nedávno OpenAI, ktorá vyvíja verejné projekty v oblasti umelej inteligencie, zverejnila novinky súvisiace so systémom rozpoznávania hlasu šepkať, čo je a systém automatického rozpoznávania reči (ASR) vyškolených na 680.000 XNUMX hodinách viacjazyčných a multitaskingových údajov pod dohľadom zhromaždených z webu.

Tvrdí sa, že pre anglickú reč systém poskytuje úroveň spoľahlivosti a presnosti automatického rozpoznávania blízku ľudskému rozpoznávaniu.

Ukazujeme, že používanie takého veľkého a rôznorodého súboru údajov vedie k väčšej odolnosti voči akcentom, hluku v pozadí a technickému jazyku. Okrem toho umožňuje prepis do rôznych jazykov, ako aj preklad týchto jazykov do angličtiny. Sme modely s otvoreným zdrojovým kódom a odvodený kód, ktoré slúžia ako základ pre vytváranie užitočných aplikácií a pre budúci výskum robustného spracovania reči.

O modeli (ako už bolo spomenuté) odcvičených za 680 000 hodín hlasových údajov zozbieraných z rôznych kolekcií pokrývajúcich rôzne jazyky a tematické oblasti. Približne 1/3 hlasových údajov zahrnutých do školenia je v iných jazykoch ako angličtina.

Navrhovaný systém správne zvláda situácie, ako je výslovnosť s diakritikou, prítomnosť hluku v pozadí a používanie technického žargónu. Okrem prepisu reči do textu dokáže systém tiež preložiť reč z ľubovoľného jazyka do angličtiny a zistiť výskyt reči v audio streame.

Modely sa trénujú v dvoch zastúpeniach: model pre anglický jazyk a viacjazyčný model, ktorý podporuje španielsky, ruský, taliansky, nemecký, japonský, ukrajinský, bieloruský, čínsky a ďalšie jazyky. Každý pohľad je zase rozdelený do 5 možností, ktoré sa líšia veľkosťou a počtom parametrov pokrytých modelom.

Architektúra Whisper je jednoduchý prístup typu end-to-end implementovaný ako transformátor kódovač-dekodér. Vstupný zvuk je rozdelený na 30-sekundové časti, konvertovaný na log-Mel spektrogram a potom odovzdaný do kódovača. Dekodér je trénovaný na predpovedanie zodpovedajúcich textových titulkov, ktoré sa prelínajú so špeciálnymi tokenmi, ktoré riadia jedinečný model na vykonávanie úloh, ako je identifikácia jazyka, časové pečiatky na úrovni viet, viacjazyčný prepis reči a preklad reči do angličtiny.

Čím väčšia veľkosť, tým vyššia presnosť a kvalita rozpoznávania, ale aj vyššie požiadavky na veľkosť video pamäte GPU a nižší výkon. Napríklad minimálna možnosť obsahuje 39 miliónov parametrov a vyžaduje 1 GB video pamäte, zatiaľ čo maximálna možnosť zahŕňa 1550 miliardy parametrov a vyžaduje 10 GB video pamäte. Minimálny variant je 32-krát rýchlejší ako maximálny.

Systém využíva architektúru neurónovej siete „Transformer“, ktorý zahŕňa kodér a dekodér, ktoré sa navzájom ovplyvňujú. Zvuk sa rozdelí na 30-sekundové časti, ktoré sa prevedú na log-Mel spektrogram a odošlú do kódovača.

Výsledok práce kodéra sa odošle do dekodéra, ktorá predpovedá textovú reprezentáciu zmiešanú so špeciálnymi tokenmi, ktoré umožňujú riešiť úlohy, ako je detekcia jazyka, účtovanie chronológie výslovnosti viet, prepis reči do rôznych jazykov a anglický preklad vo všeobecnom modeli.

Stojí za zmienku, že výkon Whisper sa značne líši v závislosti od jazyka, takže lepšie porozumenie predstavuje angličtina, ktorá má štyri verzie iba v angličtine, ktorá, podobne ako ostatné modely iných jazykov, ponúka výhody a nevýhody rýchlosť a presnosť.

Konečne Ak máte záujem dozvedieť sa viac, pôvodnú publikáciu si môžete skontrolovať v ce lien, pričom ak máte záujem o zdrojový kód a natrénované modely, môžete ich konzultovať na tento odkaz

Referenčný implementačný kód založený na frameworku PyTorch a súbor už vyškolených modelov sú otvorené, pripravené na použitie. Kód je open source pod licenciou MIT a stojí za zmienku, že je potrebné použiť knižnicu ffmpeg.


Obsah článku je v súlade s našimi zásadami redakčná etika. Ak chcete nahlásiť chybu, kliknite na ikonu tu.

Buďte prvý komentár

Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená.

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.