A közzététel megjelent hangfelismerő motor DeepSpeech 0.9 fejlesztette ki a Mozilla, amely megvalósítja a beszédfelismerés a Baidu kutatói által javasolt azonos nevű.
Az implementáció Python használatával van megírva a gépi tanulási platform TensorFlow és az ingyenes MPL 2.0 licenc alatt terjesztik.
A DeepSpeechről
A DeepSpeech két alrendszerből áll: egy akusztikus modell és egy dekóder. Az akusztikus modell mély gépi tanulási technikákkal számítja ki annak valószínűségét, hogy bizonyos karakterek jelen vannak a bemeneti hangban.
A dekóder sugárkeresési algoritmus segítségével alakítja át a karakter valószínűségi adatait szöveges ábrázolássá. A DeepSpeech sokkal egyszerűbb, mint a hagyományos rendszerek, és ugyanakkor magasabb minőségű felismerést biztosít idegen zaj jelenlétében.
A fejlesztés nem használja a hagyományos akusztikai modelleket és a fonémák fogalmát; ehelyett egy jól optimalizált neurális hálózaton alapuló gépi tanulási rendszert használnak, ami kiküszöböli a különféle komponensek fejlesztésének szükségességét a különféle anomáliák, például zaj, visszhang és beszédjellemzők modellezésére.
A készlet képzett modelleket kínál, minta hangfájlokat és parancssori felismerő eszközök.
A kész modellt csak angolul és kínaiul szállítjuk. Más nyelveknél a rendszert a csatolt utasítások szerint saját maga tanulhatja meg, a Common Voice projekt által összegyűjtött hangadatok felhasználásával.
Mikor a letölthető angol nyelv használatra kész modelljét használják, a DeepSpeech felismerési hibáinak szintje 7.06%, ha a LibriSpeech tesztcsomaggal értékelik.
Összehasonlításképpen: az emberi felismerési hibaarányt 5,83% -ra becsülik.
A javasolt modellben a legjobb felismerési eredmény a férfi hang tiszta, amerikai akcentussal történő rögzítésével érhető el idegen zajok nélkül.
A Vosk folyamatos beszédfelismerő könyvtár szerzője szerint a Common Voice készlet hátrányai a beszédanyag egyoldalúsága (a 20-30 év körüli férfiak túlsúlya, valamint a nők, gyermekek hangjával való anyaghiány) idősek), a szókincs változékonyságának hiánya (ugyanazok a kifejezések ismétlése) és a torzulásra hajlamos MP3 felvételek terjesztése.
A DeepSpeech hátrányai közé tartozik a gyenge teljesítmény és a dekóder magas memóriaigénye, valamint a modell kiképzéséhez szükséges fontos erőforrások (a Mozilla egy olyan rendszert használ, amelyben 8 Quadro RTX 6000 GPU van, mindegyikben 24 GB VRAM).
Ennek a megközelítésnek a hátránya az az ideghálózat magas színvonalú felismeréséhez és képzéséhez, a DeepSpeech motor nagy mennyiségű adatot igényel heterogén diktálta valós körülmények között, különböző hangok és természetes zajok jelenlétében.
Ezeket az adatokat a Mozilla-ban létrehozott Common Voice projekt állítja össze, amely ellenőrzött adatsort tartalmaz 1469 órával angolul, 692 németül, 554 franciával, 105 órával oroszul és 22 órával ukránul.
A DeepSpeech végleges angol modelljének oktatásakor a Common Voice mellett a LibriSpeech, a Fisher és a Switchboard projekt adatait, valamint az átírt rádióműsorok körülbelül 1700 órányi felvételét is felhasználják.
Az új ág változásai között ki van emelve a szavak súlyának kényszerítésének lehetősége a dekódolási folyamat során kiválasztva.
Kiemeli továbbá az Electron 9.2 platform támogatását és a réteg normalizációs mechanizmus (Layer Norm) opcionális megvalósítását az ideghálózat edzése során.
Töltse le és szerezze be
A teljesítmény elegendő a motor használatához a LePotato, a Raspberry Pi 3 és a Raspberry Pi 4 táblákban, valamint a Google Pixel 2, a Sony Xperia Z Premium és a Nokia 1.3 okostelefonokban.
Kész modulok állnak rendelkezésre a Python, a NodeJS, a C ++ és a .NET számára a beszédfelismerési funkciók integrálásához a programjaiba (harmadik féltől származó fejlesztők külön előkészítették a Rust, Go és V modulokat).