Mozilla esittelee DeepSpeech 0.9 -puheentunnistusmoottorin

Syvä puhe 1

Julkaisu on julkaistu äänentunnistuskone DeepSpeech 0.9, jonka on kehittänyt Mozilla, joka toteuttaa äänentunnistus Baidu-tutkijoiden ehdottama sama nimi.

Toimeenpano on kirjoitettu Pythonissa koneoppimisalusta TensorFlow ja jaetaan ilmaisella MPL 2.0 -lisenssillä.

Tietoja DeepSpeechistä

DeepSpeech koostuu kahdesta osajärjestelmästä: akustinen malli ja dekooderi. Akustinen malli käyttää syvää koneoppimistekniikkaa sen todennäköisyyden laskemiseksi, että tiettyjä merkkejä esiintyy tuloäänessä.

Dekooderi muuntaa säteenhakualgoritmin avulla merkkien todennäköisyystiedot teksteiksi. DeepSpeech on paljon yksinkertaisempi kuin perinteiset järjestelmät ja tarjoaa samalla paremman tunnistuksen laadun vieraiden melujen läsnä ollessa.

Kehityksessä ei käytetä perinteisiä akustisia malleja ja foneemien käsitettä; sen sijaan käytetään hyvin optimoitua hermoverkkopohjaista koneoppimisjärjestelmää, joka eliminoi tarpeen kehittää erillisiä komponentteja mallinnamaan erilaisia ​​poikkeavuuksia, kuten kohinaa, kaikua ja puheen ominaisuuksia.

Pakkaus tarjoaa koulutettuja malleja, näyte äänitiedostoja ja komentorivin tunnistustyökalut.

Valmis malli toimitetaan vain englanniksi ja kiinaksi. Muille kielille voit oppia järjestelmän itse liitteenä olevien ohjeiden mukaisesti käyttämällä Common Voice -projektin keräämiä puhetietoja.

Kun käytetään ladattavan englannin kielen käyttövalmiita malleja, DeepSpeechin tunnistamisvirheiden taso on 7.06%, kun arvioidaan LibriSpeech-testipaketilla.

Vertailun vuoksi ihmisen tunnistamisvirheiden arvioidaan olevan 5,83%.

Ehdotetussa mallissa paras tunnistustulos saavutetaan puheäänittämällä miesääni amerikkalaisella aksentilla ympäristössä, jossa ei ole vieraita ääniä.

Vosk-jatkuvan puheentunnistuskirjaston kirjoittajan mukaan Common Voice -joukon haittapuolina on puhemateriaalin yksipuolisuus (20-30-vuotiaiden miesten valta-asema ja materiaalin puute naisten, lasten ja naisten äänellä). vanhukset), sanaston vaihtelun puute (samojen lauseiden toistaminen) ja vääristymille alttiiden MP3-tallenteiden jakelu.

DeepSpeechin haittoja ovat heikko suorituskyky ja dekooderin suuri muistinkulutus sekä tärkeät resurssit mallin kouluttamiseen (Mozilla käyttää järjestelmää, jossa on 8 Quadro RTX 6000 -näytönohjainta ja kussakin 24 Gt: n VRAM-muistia).

Tämän lähestymistavan haittapuoli on hermoverkon korkealaatuiseen tunnistamiseen ja kouluttamiseen, DeepSpeech-moottori vaatii suuren määrän tietoa heterogeeninen sanelee todellisissa olosuhteissa eri ääniä ja luonnollisten äänien läsnä ollessa.

Nämä tiedot on koonnut Mozilla-sovelluksessa luotu Common Voice -projekti, joka tarjoaa tarkistetun tietojoukon, jossa on 1469 tuntia englanniksi, 692 saksaksi, 554 ranskaksi, 105 tuntia venäjäksi ja 22 tuntia ukrainaksi.

Koulutettaessa lopullista englantilaista DeepSpeech-mallia Common Voice -palvelun lisäksi käytetään lisäksi LibriSpeech-, Fisher- ja Switchboard-projektien tietoja sekä noin 1700 tuntia lähetettyjä radio-ohjelmien tallenteita.

Uuden haaran muutosten välillä mahdollisuus pakottaa sanojen paino korostetaan valittu dekoodausprosessin aikana.

Se korostaa myös Electron 9.2 -alustan tukea ja kerroksen normalisointimekanismin (Layer Norm) valinnaista toteutusta hermoverkon koulutuksessa.

Lataa ja hanki

Suorituskyky riittää moottorin käyttämiseen LePotato-, Raspberry Pi 3- ja Raspberry Pi 4 -levyissä sekä Google Pixel 2-, Sony Xperia Z Premium- ja Nokia 1.3 -älypuhelimissa.

Valmiita moduuleja tarjotaan käyttää Pythonissa, NodeJS: ssä, C ++: ssa ja .NETissä puheentunnistustoimintojen integroimiseksi ohjelmiin (kolmannen osapuolen kehittäjät ovat valmistelleet erikseen moduulit Rust, Go ja V: lle).


Artikkelin sisältö noudattaa periaatteita toimituksellinen etiikka. Ilmoita virheestä napsauttamalla täällä.

Ole ensimmäinen kommentti

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.