Uvolnili zdrojový kód Whisper, systému automatického rozpoznávání hlasu

Whisper je systém automatického rozpoznávání řeči

Projekt nedávno OpenAI, která vyvíjí veřejné projekty v oblasti umělé inteligence, zveřejnila novinky související se systémem rozpoznávání hlasu šepot, což je automatický systém rozpoznávání řeči (ASR) vyškoleni na 680.000 XNUMX hodinách vícejazyčných a multitaskingových dat pod dohledem shromážděných z webu.

Tvrdí se, že pro anglickou řeč systém poskytuje úrovně spolehlivosti automatického rozpoznávání a přesnosti blízké lidskému rozpoznání.

Ukazujeme, že použití tak velkého a rozmanitého souboru dat vede k větší odolnosti vůči akcentům, hluku na pozadí a technickému jazyku. Kromě toho umožňuje přepis do různých jazyků a také překlad těchto jazyků do angličtiny. Jsme modely s otevřeným zdrojovým kódem a odvozený kód, které slouží jako základ pro vytváření užitečných aplikací a pro budoucí výzkum robustního zpracování řeči.

O modelu (jak již bylo zmíněno) proškoleno za 680 000 hodin hlasových dat shromážděných z různých sbírek pokrývajících různé jazyky a obory. Přibližně 1/3 hlasových dat zahrnutých do školení je v jiných jazycích než v angličtině.

Navrhovaný systém správně zvládá situace, jako je výslovnost s diakritikou, přítomnost hluku na pozadí a používání technického žargonu. Kromě přepisu řeči do textu může systém také překládat řeč z libovolného jazyka do angličtiny a detekovat výskyt řeči ve zvukovém proudu.

Modely jsou trénovány ve dvou reprezentacích: model pro anglický jazyk a vícejazyčný model, který podporuje španělštinu, ruštinu, italštinu, němčinu, japonštinu, ukrajinštinu, běloruštinu, čínštinu a další jazyky. Každý pohled je zase rozdělen do 5 možností, které se liší velikostí a počtem parametrů zahrnutých v modelu.

Architektura Whisper je jednoduchý end-to-end přístup implementovaný jako kodér-dekodérový transformátor. Vstupní zvuk je rozdělen na 30sekundové části, převeden na log-Mel spektrogram a poté předán do kodéru. Dekodér je trénován tak, aby předvídal odpovídající textové titulky, proložené speciálními tokeny, které řídí jedinečný model k provádění úkolů, jako je identifikace jazyka, časová razítka na úrovni vět, vícejazyčný přepis řeči a překlad řeči do angličtiny.

Čím větší velikost, tím vyšší přesnost a kvalita rozpoznávání, ale také vyšší požadavky na velikost video paměti GPU a nižší výkon. Například minimální možnost zahrnuje 39 milionů parametrů a vyžaduje 1 GB video paměti, zatímco maximální možnost zahrnuje 1550 miliardy parametrů a vyžaduje 10 GB video paměti. Minimální varianta je 32krát rychlejší než maximální.

Systém využívá architekturu neuronové sítě „Transformer“, který zahrnuje kodér a dekodér, které se vzájemně ovlivňují. Zvuk je rozdělen na 30sekundové části, které jsou převedeny na log-Mel spektrogram a odeslány do kodéru.

Výsledek práce kodéru je odeslán do dekodéru, který předpovídá textovou reprezentaci smíchanou se speciálními tokeny, které umožňují řešit úkoly, jako je detekce jazyka, chronologické účtování výslovnosti vět, přepis řeči v různých jazycích a anglický překlad v obecném modelu.

Za zmínku stojí, že výkon Whisper se velmi liší v závislosti na jazyce, takže lepší porozumění představuje angličtina, která má čtyři verze pouze v angličtině, což stejně jako ostatní modely jiných jazyků nabízí výhody a nevýhody rychlost a přesnost.

Konečně Máte-li zájem o tom vědět více, původní publikaci můžete zkontrolovat v tento odkaz, zatímco pokud máte zájem o zdrojový kód a natrénované modely, můžete je konzultovat na tento odkaz

Referenční implementační kód založený na frameworku PyTorch a sada již vyškolených modelů jsou otevřené, připravené k použití. Kód je open source pod licencí MIT a stojí za zmínku, že je vyžadováno použití knihovny ffmpeg.

DesdeLinux

Uvolnili zdrojový kód Whisper, systému automatického rozpoznávání řeči

Zanechte svůj komentář Zrušit odpověď