DeepSpeech: Mozilla runas atpazīšanas dzinējs

DeepSech1

Pašlaik Mozilla darbojas ne tikai savā populārajā tīmekļa pārlūkprogrammā, bet arī zem tās ir dažādi projekti, no kuriem Šodien mēs runāsim par DeepSpeech. Tas ir runas atpazīšanas dzinējs kas īsteno Baidu pētnieku ierosināto vienlīdzīgo runas atpazīšanas arhitektūru.

DeepSpeech izceļas ar dažādu apmācītu modeļu piedāvājumu, audio failu un komandrindas atpazīšanas rīku paraugus, lai integrētu runas atpazīšanas funkciju savās programmās. Par to lietošanai gatavi moduļi ir paredzēti Python, NodeJS, C ++ un .NET, lai gan ārējie izstrādātāji arī sagatavoja atsevišķus moduļus Rust and Go.

Gatavo modeli piegādā tikai angļu valodai, bet citās valodās saskaņā ar pievienotajām instrukcijām sistēmu var apmācīt, izmantojot balss datus, ko apkopojis Common Voice projekts.

Par DeepSpeech

DeepSpeech ir daudz vienkāršāks nekā tradicionālās sistēmas un tajā pašā laikā tas nodrošina augstāku atpazīšanas kvalitāti sveša trokšņa klātbūtnē.

Attīstība neizmanto tradicionālos akustiskos modeļus un fonēmu jēdzienu; tā vietā izmantot mašīnmācīšanās sistēmu Labi optimizēts neironu tīkls, kas novērš nepieciešamību izstrādāt atsevišķus komponentus, lai modelētu dažādas novirzes, piemēram, troksni, atbalss un runas īpašības.

Šīs pieejas otrā puse ir tā, ka, lai iegūtu augstas kvalitātes neironu tīkla, motora atpazīšanu un apmācību DeepSpeech nepieciešams liels datu apjoms neviendabīgs, ko reālos apstākļos diktē dažādas balsis un dabiska trokšņa klātbūtnē.

Mozilla izveidotais Common Voice projekts ir atbildīgs par šādu datu vākšanu, nodrošinot pārbaudītu datu kopu ar 780 stundām angļu valodā, 325 vācu valodā, 173 franču valodā un 27 stundām krievu valodā.

Gala mērķis no projekta Common Voice ir 10 tūkstošu stundu uzkrāšanās ar dažādu izrunu ierakstiem cilvēku runai raksturīgo frāžu, kas ļaus sasniegt pieņemamu atzīšanas kļūdu līmeni. Pašreizējā formā projekta dalībnieki jau ir mācījuši kopumā 4.3 tūkstošus stundu, no kurām 3.5 tūkstoši izturējuši testu.

Mācot DeepSpeech galīgo angļu valodas modeli, tika izmantotas 3816 stundas runas, izņemot Common Voice, kas aptver projekta datus no LibriSpeech, Fisher un Switchboard, kā arī aptuveni 1700 stundas pārrakstītu radio programmu ierakstus.

Izmantojot angļu valodas gatavu lejupielādei modeli, DeepSpeech atpazīšanas kļūdu līmenis ir 7,5% novērtējot ar LibriSpeech testu komplektu. Salīdzinājumam - cilvēku atpazīšanas kļūdu līmenis tiek lēsts 5.83%.

DeepSpeech sastāv no divām apakšsistēmām: akustiskā modeļa un dekodera. Akustiskais modelis izmanto dziļas mašīnmācīšanās metodes, lai aprēķinātu noteiktu rakstzīmju klātbūtnes varbūtību ievades skaņā. Dekoders izmanto staru meklēšanas algoritmu, lai rakstzīmju varbūtības datus pārveidotu par teksta attēlojumu.

Par jauno DeepSpeech versiju

Pašlaik DeepSpeech versija ir 0.6 kurā uzsvērtas šādas izmaiņas:

  • Tiek piedāvāts jauns pārraides dekoderis, kas nodrošina lielāku atsaucību un nav atkarīgs no apstrādāto audio datu lieluma.
  • API ir veiktas izmaiņas un ir veikts darbs, lai vienotu funkciju nosaukumus. Ir pievienotas funkcijas, lai iegūtu papildu metadatus par laiku, ļaujot ne tikai saņemt teksta attēlojumu izvadē, bet arī izsekot atsevišķu rakstzīmju un teikumu saistīšanai ar vietu audio straumē.
  • Apmācības moduļu rīkkomplektam ir pievienots atbalsts CuDNN bibliotēkas izmantošanai, lai optimizētu darbu ar atkārtotiem neironu tīkliem (RNN).
  • Minimālās prasības TensorFlow versijai ir paaugstinātas no 1.13.1 līdz 1.14.0.
  • Pievienots atbalsts TensorFlow Lite Light Edition, kas samazina DeepSpeech paketes lielumu no 98 MB līdz 3.7 MB.
  • Valodas modelis ir pārnests uz citu datu struktūras formātu, ļaujot failus palaist atmiņā sāknēšanas laikā.
  • Atbalsts vecākam formātam ir pārtraukts.

Īstenošana ir rakstīta Python, izmantojot mašīnmācīšanās platformu TensorFlow, un tā tiek izplatīta ar bezmaksas MPL 2.0 licenci. Darbs To atbalsta operētājsistēmas Linux, Android, macOS un Windows. Ir pietiekami daudz veiktspējas, lai motoru izmantotu LePotato, Raspberry Pi 3 un Raspberry Pi 4 dēļos.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.