Mozilla predstavlja DeepSpeech 0.9 mehanizam za prepoznavanje govora

DeepSpeech1

Pokretanje je objavljeno mehanizam za prepoznavanje glasa DeepSpeech 0.9 razvila je Mozilla, koji implementira arhitekturu prepoznavanje glasa istog imena koji su predložili istraživači Baidu-a.

Implementacija je napisan na Pythonu koristeći platforma za mašinsko učenje TensorFlow i distribuira se pod besplatnom licencom MPL 2.0.

O DeepSpeechu

DeepSpeech se sastoji od dva podsustava: akustični model i dekoder. Akustički model koristi tehnike dubokog mašinskog učenja za izračunavanje vjerovatnoće da su određeni znakovi prisutni u ulaznom zvuku.

Dekoder koristi algoritam pretraživanja zraka za transformiranje podataka o vjerovatnoći znakova u tekstualni prikaz. DeepSpeech je mnogo jednostavniji od tradicionalnih sistema i istovremeno pruža veći kvalitet prepoznavanja u prisustvu stranih šuma.

Razvoj ne koristi tradicionalne akustičke modele i koncept fonema; umjesto toga koristi se dobro optimizovan sistem strojnog učenja zasnovan na neuralnoj mreži, koji eliminira potrebu za razvojem odvojenih komponenata za modeliranje različitih anomalija kao što su šum, eho i govorne karakteristike.

Kit nudi obučene modele, uzorkuje zvučne datoteke i alati za prepoznavanje naredbenog retka.

Gotov model isporučuje se samo na engleskom i kineskom jeziku. Za ostale jezike možete sami naučiti sistem prema priloženim uputama, koristeći glasovne podatke prikupljene projektom Common Voice.

Kada koristi se model engleskog jezika koji je spreman za upotrebu ponuđen za preuzimanje, nivo grešaka prepoznavanja u DeepSpeechu iznosi 7.06% kada se procjenjuje pomoću LibriSpeech test paketa.

Za usporedbu, stopa pogreške ljudskog prepoznavanja procjenjuje se na 5,83%.

U predloženom modelu najbolji rezultat prepoznavanja postiže se čistim snimanjem muškog glasa s američkim naglaskom u okruženju bez tuđih zvukova.

Prema autoru Biblioteke za neprekidno prepoznavanje govora Vosk, nedostaci skupa Common Voice su jednostranost govornog materijala (prevladavanje muškaraca u 20-ima i 30-ima i nedostatak materijala sa glasom žena, djece i starije osobe), nedostatak varijabilnosti rječnika (ponavljanje istih fraza) i distribucija MP3 snimaka sklona izobličenju.

Mane DeepSpeech-a uključuju loše performanse i velika potrošnja memorije u dekoderu, kao i važni resursi za obuku modela (Mozilla koristi sistem sa 8 Quadro RTX 6000 grafičkih procesora sa po 24 GB VRAM-a).

Loša strana ovog pristupa je ta za visokokvalitetno prepoznavanje i trening neuronske mreže, DeepSpeech motor zahtijeva veliku količinu podataka heterogeno diktirano u stvarnim uslovima različitim glasovima i u prisustvu prirodnih buka.

Ovi podaci prikupljeni su projektom Common Voice kreiranim u Mozilli, koji pruža provjereni skup podataka sa 1469 sati na engleskom, 692 na njemačkom, 554 na francuskom, 105 sati na ruskom i 22 sata na ukrajinskom.

Prilikom obuke konačnog engleskog modela za DeepSpeech, pored Common Voice-a, dodatno se koriste podaci iz projekata LibriSpeech, Fisher i Switchboard, kao i približno 1700 sati snimanja prepisanih radio programa.

Između promjena u novoj grani, istaknuta je mogućnost forsiranja težine riječi odabrano tokom postupka dekodiranja.

Takođe naglašava podršku za platformu Electron 9.2 i opcionalnu implementaciju mehanizma za normalizaciju sloja (Layer Norm) tokom treninga neuronske mreže.

Preuzmite i preuzmite

Performanse su dovoljne za upotrebu motora na pločama LePotato, Raspberry Pi 3 i Raspberry Pi 4, kao i na Google Pixel 2, Sony Xperia Z Premium i Nokia 1.3 pametnim telefonima.

U ponudi su gotovi moduli za upotrebu za Python, NodeJS, C ++ i .NET za integriranje funkcija prepoznavanja govora u vaše programe (nezavisni programeri posebno su pripremili module za Rust, Go i V).


Budite prvi koji komentarišete

Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.