Mozilla predstavlja DeepSpeech 0.9 mehanizam za prepoznavanje glasa

Pokretanje je objavljeno mehanizam za prepoznavanje glasa DeepSpeech 0.9 razvio Mozilla, koji provodi arhitekturu prepoznavanje glasa istog imena koje su predložili istraživači Baidu.

Implementacija je napisan na Pythonu koristeći platforma za strojno učenje TensorFlow i distribuira se pod besplatnom licencom MPL 2.0.

O DeepSpeechu

DeepSpeech sastoji se od dva podsustava: akustični model i dekoder. Akustični model koristi tehnike dubokog strojnog učenja za izračunavanje vjerojatnosti prisutnosti određenih znakova u ulaznom zvuku.

Dekoder koristi algoritam pretraživanja zraka za pretvaranje podataka o vjerojatnosti znakova u tekstualni prikaz. DeepSpeech je mnogo jednostavniji od tradicionalnih sustava i istovremeno pruža veću kvalitetu prepoznavanja u prisutnosti stranih buka.

Razvoj ne koristi tradicionalne akustičke modele i koncept fonema; umjesto toga koristi se dobro optimizirani sustav strojnog učenja zasnovan na neuronskoj mreži, koji eliminira potrebu za razvojem zasebnih komponenata za modeliranje različitih anomalija poput buke, odjeka i govornih karakteristika.

Kit nudi obučene modele, uzorkuje zvučne datoteke i alati za prepoznavanje naredbenog retka.

Gotov model isporučuje se samo na engleskom i kineskom jeziku. Za ostale jezike možete sami naučiti sustav prema priloženim uputama, koristeći glasovne podatke prikupljene projektom Common Voice.

Kada koristi se model engleskog jezika koji je spreman za upotrebu ponuđen za preuzimanje, razina pogrešaka prepoznavanja u DeepSpeechu iznosi 7.06% kada se procjenjuje pomoću LibriSpeech test paketa.

Za usporedbu, stopa pogreške ljudskog prepoznavanja procjenjuje se na 5,83%.

U predloženom modelu najbolji rezultat prepoznavanja postiže se čistim snimanjem muškog glasa s američkim naglaskom u okruženju bez tuđih zvukova.

Prema autoru biblioteke kontinuiranog prepoznavanja govora Vosk, nedostaci skupa Common Voice su jednostranost govornog materijala (prevladavanje muškaraca u 20-ima i 30-ima i nedostatak materijala s glasom žena, djece i starije osobe), nedostatak varijabilnosti rječnika (ponavljanje istih fraza) i distribucija MP3 snimaka sklona izobličenju.

Mane DeepSpeech-a uključuju lošu izvedbu i velika potrošnja memorije u dekoderu, kao i važni resursi za osposobljavanje modela (Mozilla koristi sustav s 8 Quadro RTX 6000 grafičkih procesora s po 24 GB VRAM-a).

Loša strana ovog pristupa je ta za visokokvalitetno prepoznavanje i trening neuronske mreže, DeepSpeech motor zahtijeva veliku količinu podataka heterogeno diktirano u stvarnim uvjetima različitim glasovima i u prisutnosti prirodnih buka.

Ove podatke prikuplja projekt Common Voice stvoren u Mozilli, koji pruža provjereni skup podataka s 1469 sati na engleskom, 692 na njemačkom, 554 na francuskom, 105 sati na ruskom i 22 sata na ukrajinskom.

Prilikom osposobljavanja završnog engleskog modela za DeepSpeech, uz Common Voice, dodatno se koriste podaci iz projekata LibriSpeech, Fisher i Switchboard, kao i približno 1700 sati snimanja prepisanih radio programa.

Između promjena u novoj grani, istaknuta je mogućnost forsiranja težine riječi odabran tijekom postupka dekodiranja.

Također se ističe podrška za platformu Electron 9.2 i neobavezna provedba mehanizma za normalizaciju sloja (Layer Norm) tijekom treninga neuronske mreže.

Preuzmite i nabavite

Performanse su dovoljne za upotrebu motora na pločama LePotato, Raspberry Pi 3 i Raspberry Pi 4, kao i na Google Pixel 2, Sony Xperia Z Premium i Nokia 1.3 pametnim telefonima.

U ponudi su spremni moduli za upotrebu za Python, NodeJS, C ++ i .NET za integriranje funkcija prepoznavanja govora u vaše programe (nezavisni programeri posebno su pripremili module za Rust, Go i V).

DesdeLinux

Mozilla predstavlja DeepSpeech 0.9 mehanizam za prepoznavanje govora

O DeepSpeechu

Preuzmite i nabavite

Ostavite svoj komentar Otkaži odgovor