DeepSpeech: el motor de reconocimiento de voz de Mozilla

Tällä hetkellä Mozilla ei vain toimi suositussa verkkoselaimessaan, vaan sateenvarjon alla on myös useita projekteja Tänään puhumme DeepSpeechistä. Tämä on puheentunnistuskone joka toteuttaa Baidu-tutkijoiden ehdottaman homonyymisen puheentunnistusarkkitehtuurin.

DeepSpeech erottuu tarjoamalla erilaisia koulutettuja malleja, näyte äänitiedostoista ja komentorivin tunnistustyökaluista puheentunnistustoiminnon integroimiseksi ohjelmiin. Sitä varten käyttövalmiit moduulit toimitetaan Pythonille, NodeJS: lle, C ++: lle ja .NET: lleVaikka ulkoiset kehittäjät valmistelivat myös erillisiä moduuleja Rust and Go -sovellukselle.

Valmis malli toimitetaan vain englanniksi, mutta muille kielille oheisten ohjeiden mukaan järjestelmää voidaan kouluttaa Common Voice -projektin keräämien puhetietojen avulla.

Tietoja DeepSpeechistä

DeepSpeech on paljon yksinkertaisempi kuin perinteiset järjestelmät ja tarjoaa samalla paremman tunnistuksen laadun vieraiden melujen läsnä ollessa.

Kehitys ei käytä perinteisiä akustisia malleja ja foneemien käsitettä; sen sijaan, käytä koneoppimisjärjestelmää Hyvin optimoitu hermoverkkopohjainen, mikä eliminoi tarpeen kehittää erillisiä komponentteja mallinnamaan erilaisia poikkeamia, kuten kohinaa, kaikua ja puheen ominaisuuksia.

Tämän lähestymistavan kääntöpuoli on, että hermoverkon, moottorin, korkealaatuinen tunnustus ja koulutus DeepSpeech vaatii paljon tietoa heterogeeninen sanelema todellisissa olosuhteissa eri äänten ja luonnollisen melun läsnä ollessa.

Mozillassa luotu Common Voice -projekti on vastuussa tällaisten tietojen keräämisestä, ja se tarjoaa todistetun tietojoukon, joka sisältää 780 tuntia englanniksi, 325 saksaksi, 173 ranskaksi ja 27 tuntia venäjäksi.

Lopullinen tavoite Common Voice -hankkeesta on 10 tuhannen tunnin kertyminen eri ääntämisten äänitteillä ihmisen puheelle tyypillisiä lauseita, joilla saavutetaan hyväksyttävä taso tunnistusvirheitä. Projektin osallistujat ovat nykyisessä muodossaan opettaneet yhteensä 4.3 tuhatta tuntia, joista 3.5 tuhatta on läpäissyt kokeen.

Opetettaessa DeepSpeechin lopullista englantilaista mallia käytettiin 3816 tuntia puhetta lukuun ottamatta Common Voice -ohjelmaa, joka kattaa tiedot LibriSpeech-, Fisher- ja Switchboard-hankkeista sekä sisältäen noin 1700 tuntia transkriptoituja radio-ohjelmien tallenteita.

Kun käytät englanninkielistä valmiina ladattavaa mallia, tunnistusvirheen taso DeepSpeechissä on 7,5% arvioituna LibriSpeech-testipaketilla. Vertailun vuoksi voidaan todeta, että ihmisten tunnistamisen virheiden tasoksi arvioidaan 5.83%.

DeepSpeech koostuu kahdesta osajärjestelmästä: akustisesta mallista ja dekooderista. Akustinen malli käyttää syviä koneoppimismenetelmiä laskeaksesi todennäköisyyden tiettyjen merkkien esiintymisestä tuloäänessä. Dekooderi muuntaa säteenhakualgoritmin avulla merkkien todennäköisyystiedot tekstiesitykseen.

Tietoja DeepSpeechin uudesta versiosta

DeepSpeech on tällä hetkellä versiossaan 0.6 jossa seuraavat muutokset on korostettu:

Ehdotetaan uutta lähetysdekooderia, joka tarjoaa paremman reagointikyvyn ja ei riipu käsitellyn audiodatan koosta.
API: han on tehty muutoksia ja funktioiden nimien yhtenäistämiseksi on tehty töitä. Ominaisuuksia on lisätty, jotta saat lisää metatietoja ajoituksesta, mikä sallii paitsi tekstin esityksen vastaanottamisen myös tulosteen jäljittämisen yksittäisten merkkien ja lauseiden sitomisesta äänivirran sijaintiin.
Tuki moduulien työkalupakettiin on lisätty CuDNN-kirjaston käyttämiseen optimoimaan työ toistuvien hermoverkkojen (RNN) kanssa.
TensorFlow-version vähimmäisvaatimukset on nostettu arvosta 1.13.1 arvoon 1.14.0.
Lisätty tuki TensorFlow Lite Light Editionille, joka pienentää DeepSpeech-paketin kokoa 98 Mt: sta 3.7 Mt: iin.
Kielimalli on siirretty toiseen tietorakenteen muotoon, jolloin tiedostot voidaan allokoida muistiin käynnistyshetkellä.
Vanhemman muodon tuki on lopetettu.

Toteutus on kirjoitettu Pythonissa TensorFlow-koneoppimisalustalla ja jaettu ilmaisella MPL 2.0 -lisenssillä. Työ Sitä tukevat Linux, Android, macOS ja Windows. Moottorin käyttämiseen on riittävästi suorituskykyä LePotato-, Raspberry Pi 3- ja Raspberry Pi 4 -levyillä.

DesdeLinux

DeepSpeech: Mozillan puheentunnistuskone

Tietoja DeepSpeechistä

Tietoja DeepSpeechin uudesta versiosta

Jätä kommentti Peruuta vastaus