Mozilla tutvustab kõnetuvastusmootorit DeepSpeech 0.9

Sügav kõne1

Käivitamine on avaldatud hääletuvastuse mootor DeepSpeech 0.9, mille on välja töötanud Mozilla, mis rakendab kõnetuvastus sama nimega pakkusid välja Baidu teadlased.

Rakendamine on kirjutatud Pythonis kasutades masinõppe platvorm TensorFlow ja seda levitatakse tasuta MPL 2.0 litsentsi alusel.

Teave DeepSpeechi kohta

DeepSpeech koosneb kahest alamsüsteemist: akustiline mudel ja dekooder. Akustiline mudel kasutab sügavaid masinõppevõtteid, et arvutada tõenäosus, et teatud tähemärgid esinevad sisendhelis.

Dekooder kasutab kiirotsingu algoritmi tähemärgi tõenäosuse andmete teisendamiseks tekstiliseks esituseks. DeepSpeech on palju lihtsam kui traditsioonilised süsteemid ja pakub samal ajal võõra müra korral kõrgemat äratundmise kvaliteeti.

Arenduses ei kasutata traditsioonilisi akustilisi mudeleid ja foneemide mõistet; selle asemel kasutatakse hästi optimeeritud närvivõrgul põhinevat masinõppesüsteemi, mis välistab vajaduse välja töötada eraldi komponendid mitmesuguste anomaaliate, näiteks müra, kaja ja kõne omaduste modelleerimiseks.

Komplekt pakub koolitatud mudeleid, helifailide näidiseid ja käsurea tuvastamise tööriistad.

Valmis mudel on saadaval ainult inglise ja hiina keeles. Muude keelte puhul saate süsteemi ise õppida vastavalt lisatud juhistele, kasutades projekti Voice Voice kogutud häälandmeid.

Millal kasutatakse allalaadimiseks pakutava inglise keele kasutusvalmis mudelit, DeepSpeechi tuvastusvigade tase on 7.06%, kui seda hinnatakse LibriSpeechi testipaketi abil.

Võrdluseks võib öelda, et inimese tuvastamise veamäär on hinnanguliselt 5,83%.

Kavandatava mudeli puhul saavutatakse parim äratundmistulemus Ameerika aktsendiga meeshääle puhta salvestamise abil kõrvaliste helideta keskkonnas.

Voski pideva kõnetuvastuse raamatukogu autori sõnul on Ühise Hääle komplekti puudusteks kõnematerjali ühekülgsus (20–30-aastaste meeste ülekaal ning naiste, laste ja laste häälega materjali puudumine) eakad), sõnavara varieeruvuse puudumine (samade fraaside kordamine) ja moonutustele kalduvate MP3-salvestiste levitamine.

DeepSpeechi puudused hõlmavad kehva jõudlust ja dekooderi suur mälukulu ning olulised ressursid mudeli koolitamiseks (Mozilla kasutab süsteemi, milles on 8 Quadro RTX 6000 GPU-d ja igas 24 GB VRAM).

Selle lähenemise negatiivne külg on see närvivõrgu kvaliteetseks tunnustamiseks ja koolitamiseks, DeepSpeechi mootor nõuab suurt hulka andmeid heterogeenne, mida dikteerib reaalsetes tingimustes erinevad hääled ja looduslike helide olemasolu.

Need andmed on kokku pannud Mozillas loodud Common Voice'i projekt, mis annab kontrollitud andmekogumi 1469 tundi inglise keeles, 692 saksa keeles, 554 prantsuse keeles, 105 tundi vene keeles ja 22 tundi ukrainas.

DeepSpeechi lõpliku ingliskeelse mudeli koolitamisel kasutatakse lisaks Common Voice'ile lisaks ka LibriSpeechi, Fisheri ja Switchboardi projektide andmeid ning umbes 1700 tundi salvestatud raadiosaadete salvestusi.

Uue haru muutuste vahel esile tõstetakse sõnade kaalu sundimise võimalust dekodeerimise käigus valitud.

Samuti tõstetakse esile närvivõrgu treenimisel tuge platvormile Electron 9.2 ja kihtide normaliseerimise mehhanismi (Layer Norm) valikulist rakendamist.

Laadige alla ja hankige

Jõudlus on piisav mootori kasutamiseks nii LePotato, Raspberry Pi 3 ja Raspberry Pi 4 tahvlites kui ka Google Pixel 2, Sony Xperia Z Premium ja Nokia 1.3 nutitelefonides.

Pakutakse valmis mooduleid kasutada Pythoni, NodeJS, C ++ ja .NET jaoks kõnetuvastusfunktsioonide integreerimiseks teie programmidesse (kolmanda osapoole arendajad on Rust, Go ja V jaoks eraldi ette valmistanud moodulid).


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.