Mozilla iepazīstina ar DeepSpeech 0.9 runas atpazīšanas motoru

DeepSech1

Uzsākšana ir publicēta balss atpazīšanas dzinējs DeepSpeech 0.9, ko izstrādājusi Mozilla, kas īsteno runas atpazīšana ar tādu pašu nosaukumu, ko ierosināja Baidu pētnieki.

Īstenošana ir uzrakstīts Python, izmantojot mašīnmācīšanās platformu TensorFlow un tiek izplatīts ar bezmaksas MPL 2.0 licenci.

Par DeepSpeech

DeepSpeech sastāv no divām apakšsistēmām: akustiskais modelis un dekoders. Akustiskais modelis izmanto dziļas mašīnmācīšanās metodes, lai aprēķinātu varbūtību, ka ievades skaņā ir noteiktas rakstzīmes.

Dekoders izmanto staru meklēšanas algoritmu, lai rakstzīmju varbūtības datus pārveidotu par tekstuālu attēlojumu. DeepSpeech ir daudz vienkāršāks nekā tradicionālās sistēmas un tajā pašā laikā nodrošina augstāku atpazīšanas kvalitāti sveša trokšņa klātbūtnē.

Izstrādē netiek izmantoti tradicionālie akustiskie modeļi un fonēmu jēdziens; tā vietā tiek izmantota labi optimizēta neironu tīkla mašīnmācīšanās sistēma, kas novērš nepieciešamību izstrādāt atsevišķus komponentus, lai modelētu dažādas anomālijas, piemēram, troksni, atbalss un runas īpašības.

Komplekts piedāvā apmācītus modeļus, skaņas failu paraugus un komandrindas atpazīšanas rīkus.

Gatavais modelis tiek piegādāts tikai angļu un ķīniešu valodām. Citās valodās jūs varat pats iemācīties sistēmu saskaņā ar pievienotajām instrukcijām, izmantojot balss datus, ko apkopojis projekts Common Voice.

Kad tiek izmantots lejupielādēšanai piedāvātā angļu valodas gatavs modelis, DeepSpeech atpazīšanas kļūdu līmenis ir 7.06%, ja to novērtē, izmantojot LibriSpeech testa komplektu.

Salīdzinājumam, cilvēka atpazīšanas kļūdu līmenis tiek lēsts 5,83%.

Piedāvātajā modelī vislabākais atpazīšanas rezultāts tiek sasniegts, tīri ierakstot vīriešu balsi ar amerikāņu akcentu vidē bez svešiem trokšņiem.

Pēc Vosk nepārtrauktas runas atpazīšanas bibliotēkas autora domām, kopējās balss kopas trūkumi ir runas materiāla vienpusīgums (vīriešu pārsvars vecumā no 20 līdz 30 gadiem un materiāla trūkums ar sieviešu, bērnu un bērnu balsi). vecāka gadagājuma cilvēki), vārdu krājuma mainīguma trūkums (to pašu frāžu atkārtošana) un MP3 ierakstu izplatīšana, kuriem ir tendence uz traucējumiem.

DeepSpeech trūkumi ietver sliktu sniegumu un liels atmiņas patēriņš dekoderī, kā arī svarīgi resursi modeļa apmācībai (Mozilla izmanto sistēmu ar 8 Quadro RTX 6000 GPU ar 24 GB VRAM katrā).

Šīs pieejas negatīvie aspekti ir tādi augstas kvalitātes neironu tīkla atpazīšanai un apmācībai, DeepSpeech dzinējs nepieciešams liels datu apjoms neviendabīgs, ko reālos apstākļos diktē dažādas balsis un dabisku trokšņu klātbūtnē.

Šos datus apkopo Mozilla izveidotais Common Voice projekts, kas nodrošina pārbaudītu datu kopu ar 1469 stundām angļu valodā, 692 vācu valodā, 554 franču valodā, 105 stundām krievu valodā un 22 stundām ukraiņu valodā.

Apmācot pēdējo DeepSpeech angļu modeli, papildus Common Voice papildus tiek izmantoti arī LibriSpeech, Fisher un Switchboard projektu dati, kā arī aptuveni 1700 stundu transkribētu radio programmu ieraksti.

Starp izmaiņām jaunajā filiālē tiek izcelta iespēja uzspiest vārdu svaru dekodēšanas procesa laikā.

Tas arī uzsver atbalstu Electron 9.2 platformai un izvēles slāņa normalizācijas mehānisma (Layer Norm) ieviešanu, apmācot neironu tīklu.

Lejupielādējiet un saņemiet

Veiktspēja ir pietiekama, lai motoru izmantotu LePotato, Raspberry Pi 3 un Raspberry Pi 4 dēļos, kā arī Google Pixel 2, Sony Xperia Z Premium un Nokia 1.3 viedtālruņos.

Tiek piedāvāti gatavi moduļi izmantot Python, NodeJS, C ++ un .NET runas atpazīšanas funkciju integrēšanai jūsu programmās (trešo pušu izstrādātāji ir atsevišķi sagatavojuši moduļus Rust, Go un V).


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.