Kiadták a Whisper, egy automatikus hangfelismerő rendszer forráskódját

A Whisper egy automatikus beszédfelismerő rendszer

A projekt nemrég OpenAI, amely nyilvános projekteket fejleszt a mesterséges intelligencia területén, hírt tett közzé hangfelismerő rendszerrel kapcsolatos Suttogás, ami a automatikus beszédfelismerő rendszer (ASR) 680.000 XNUMX órányi többnyelvű, többfeladatos, felügyelt, internetről gyűjtött adatról tanult.

Állítólag az angol beszéd esetében a rendszer az emberi felismeréshez közeli szintű automatikus felismerési megbízhatóságot és pontosságot biztosít.

Megmutatjuk, hogy egy ilyen nagy és változatos adatkészlet használata nagyobb robusztusságot eredményez az ékezetek, a háttérzaj és a technikai nyelv tekintetében. Ezenkívül lehetővé teszi az átírást különböző nyelveken, valamint ezeknek a nyelveknek a fordítását angolra. Nyílt forráskódú modellek és következtetési kódok vagyunk, amelyek a hasznos alkalmazások építésének és a robusztus beszédfeldolgozás jövőbeli kutatásának alapjául szolgálnak.

A modellről (mint már említettük) 680 000 óra felhasználásával képezték ki különböző nyelveket és témaköröket lefedő különféle gyűjteményekből gyűjtött hangadatokból. A képzésben részt vevő hangadatok körülbelül 1/3-a nem angol nyelvű.

A javasolt rendszer helyesen kezeli az olyan helyzeteket, mint az ékezetes kiejtés, a háttérzaj jelenléte és a szakzsargon használata. A beszéd szöveggé történő átírása mellett a rendszer egy tetszőleges nyelvről angolra is tudja fordítani a beszédet, és érzékeli a beszéd megjelenését a hangfolyamban.

A modelleket kétféle formában képezik: egy angol nyelvű modellt és egy többnyelvű modellt, amely támogatja a spanyol, orosz, olasz, német, japán, ukrán, fehérorosz, kínai és más nyelveket. Minden nézet 5 lehetőségre van felosztva, amelyek mérete és a modellben szereplő paraméterek száma különbözik.

A Whisper architektúra egy egyszerű end-to-end megközelítés, amelyet kódoló-dekódoló transzformátorként valósítanak meg. A bemeneti hangot 30 másodperces darabokra osztják, log-Mel spektrogrammá alakítják, majd átadják egy kódolónak. A dekóder képes megjósolni a megfelelő szöveges feliratot, speciális tokenekkel tarkítva, amelyek az egyedi modellt olyan feladatok végrehajtására irányítják, mint a nyelvi azonosítás, a mondatszintű időbélyegek, a többnyelvű beszédátírás és az angol beszédfordítás.

Minél nagyobb a méret, annál nagyobb a felismerés pontossága és minősége, ugyanakkor annál magasabbak a GPU videomemória méretére vonatkozó követelmények és annál alacsonyabb a teljesítmény. Például a minimális opció 39 millió paramétert tartalmaz, és 1 GB videomemóriát igényel, míg a maximális opció 1550 milliárd paramétert tartalmaz, és 10 GB videomemóriát igényel. A minimális változat 32-szer gyorsabb, mint a maximum.

A rendszer a „Transformer” neurális hálózati architektúrát használja, amely tartalmaz egy kódolót és egy dekódert, amelyek kölcsönhatásba lépnek egymással. A hangot 30 másodperces darabokra osztják, amelyeket log-Mel spektrogrammá alakítanak, és elküldik a kódolónak.

A kódoló munkájának eredménye elküldésre kerül a dekódernek, amely speciális tokenekkel kevert szövegábrázolást jósol, amely lehetővé teszi olyan feladatok megoldását, mint a nyelvészlelés, a mondatok kiejtésének kronológiája, a beszéd átírása különböző nyelveken és az angol fordítás egy általános modellben.

Érdemes megemlíteni, hogy a Whisper teljesítménye nyelvtől függően nagyon változó, így a jobb megértést az angol jelenti, aminek négy változata van csak angolul, ami más nyelvű modellekhez hasonlóan előnyöket és hátrányokat is kínál. sebesség és pontosság.

Végül Ha érdekel, hogy többet tudjon meg róla, ben megtekintheti az eredeti kiadványt meg ezt a linket, míg ha érdekli a forráskód és a betanított modellek, tájékozódhat a címen ezt a linket

A PyTorch keretrendszeren alapuló referencia-implementációs kód és egy sor már betanított modell megnyílt, használatra kész. A kód nyílt forráskódú MIT licenc alatt, és érdemes megemlíteni, hogy az ffmpeg könyvtár használata kötelező.

DesdeLinux

Kiadták a Whisper, egy automatikus beszédfelismerő rendszer forráskódját

Hagyja megjegyzését Mégsem válaszát