DeepSpeech: Einnsean aithne cainnt Mozilla

Còmhradh domhainn 1

An-dràsta chan e a-mhàin gu bheil Mozilla ag obair anns a ’bhrobhsair lìn mòr-chòrdte aige, ach tha grunn phròiseactan fo sgàil aige, agus tha sin An-diugh bruidhnidh sinn mu DeepSpeech. Is e seo einnsean aithneachadh cainnt a bhios a ’buileachadh an ailtireachd aithne cainnt gun urra a mhol luchd-rannsachaidh Baidu.

Tha DeepSpeech a ’seasamh a-mach airson a bhith a’ tabhann diofar mhodalan le trèanadh, sampall faidhlichean claisneachd agus innealan aithne loidhne-àithne, gus an gnìomh aithne cainnt fhilleadh a-steach do na prògraman agad. Air a shon tha modalan deiseil airson an cleachdadh airson Python, NodeJS, C ++ agus .NET, ged a dh ’ullaich luchd-leasachaidh taobh a-muigh modalan air leth airson Rust and Go.

Tha am modail crìochnaichte air a lìbhrigeadh a-mhàin airson Beurla, ach airson cànanan eile a rèir an stiùireadh ceangailte, faodar an siostam a thrèanadh a ’cleachdadh an dàta guth a chruinnich am pròiseact Common Voice.

Mu dheidhinn DeepSpeech

Tha DeepSpeech gu math nas sìmplidh na siostaman traidiseanta agus aig an aon àm a ’toirt seachad càileachd aithne nas àirde an làthair fuaim a bharrachd.

An leasachadh chan eil e a ’cleachdadh modalan fuaimneach traidiseanta agus bun-bheachd fònaichean;; an àite sin, cleachd siostam ionnsachaidh inneal Lìonra neural làn-leasaichte stèidhichte, a tha a ’cur às don fheum air pàirtean fa-leth a leasachadh gus modalan a dhèanamh de dhiofar ghluasadan leithid fuaim, mac-talla agus feartan cainnt.

Is e an taobh flip den dòigh-obrach seo gum faigh thu aithne agus trèanadh àrd-inbhe de lìonra neural, an motair Feumaidh DeepSpeech tòrr dàta heterogeneous air a dhearbhadh ann an suidheachaidhean fìor le guthan eadar-dhealaichte agus an làthair fuaim nàdarra.

Tha uallach air a ’phròiseact Common Voice a chaidh a chruthachadh ann am Mozilla airson a leithid de dhàta a chruinneachadh, a’ toirt seachad seata dàta dearbhaidh le 780 uairean ann am Beurla, 325 ann an Gearmailtis, 173 ann am Fraingis, agus 27 uairean ann an Ruisis.

An amas deireannach bhon phròiseact Common Voice an cruinneachadh de 10 mìle uair a thìde le clàraidhean de dhiofar fhuaimneachadh de dh ’abairtean a tha àbhaisteach ann an cainnt daonna, a ruigeas ìre iomchaidh de mhearachdan aithneachaidh. Anns an fhoirm a th ’ann an-dràsta, tha com-pàirtichean a’ phròiseict air 4.3 mìle uair a thìde a theagasg gu h-iomlan, agus tha 3.5 mìle dhiubh sin air a dhol seachad air an deuchainn.

Ann a bhith a ’teagasg a’ mhodail mu dheireadh de Bheurla airson DeepSpeech, chaidh 3816 uairean de chainnt a chleachdadh, ach a-mhàin Common Voice a tha a ’còmhdach dàta bho phròiseactan LibriSpeech, Fisher agus Switchboard, a bharrachd air a bhith a’ toirt a-steach timcheall air 1700 uairean de chlàran prògram rèidio ath-sgrìobhte.

Nuair a bhios tu a ’cleachdadh modail deiseil Beurla a tha ri luchdachadh sìos, is e an ìre mearachd aithneachaidh ann an DeepSpeech 7,5% nuair a thèid a mheasadh leis an t-sreath deuchainn LibriSpeech. Mar choimeas, thathas a ’meas gu bheil an ìre de mhearachdan ann an aithneachadh daonna aig 5.83%.

Tha dà fho-shiostam ann an DeepSpeech: modail fuaimneach agus decoder. Bidh am modail fuaimneach a ’cleachdadh modhan ionnsachaidh inneal domhainn gus obrachadh a-mach coltachd làthaireachd charactaran sònraichte anns an fhuaim cuir a-steach. Bidh an decoder a ’cleachdadh algorithm sgrùdadh ray gus an dàta coltachd caractar a thionndadh gu riochdachadh teacsa.

Mun dreach ùr de DeepSpeech

Tha DeepSpeech an-dràsta san dreach 0.6 aige anns a bheil na h-atharrachaidhean a leanas air an sònrachadh:

  • Thathas a ’moladh decoder sgaoilidh ùr a bheir seachad barrachd freagairt agus nach eil an urra ri meud an dàta claisneachd giullachd.
  • Chaidh atharrachaidhean a dhèanamh ris an API agus chaidh obair a dhèanamh gus ainmean gnìomh aonachadh. Chaidh gnìomhan a chuir ris gus meata-dàta a bharrachd fhaighinn mun àm, a ’leigeil chan ann a-mhàin riochdachadh teacsa fhaighinn anns na toraidhean, ach cuideachd lorg a dhèanamh air ceangal charactaran agus seantansan fa leth gu suidheachadh anns an t-sruth claisneachd.
  • Chaidh taic airson a bhith a ’cleachdadh leabharlann CuDNN gus an obair as fheàrr a dhèanamh le lìonraidhean neural ath-chuairteach (RNN) a chur ris a’ ghoireas airson modalan trèanaidh.
  • Chaidh na riatanasan as ìsle airson dreach TensorFlow a thogail bho 1.13.1 gu 1.14.0.
  • Taic a bharrachd airson TensorFlow Lite Light Edition, a lùghdaicheas meud pacaid DeepSpeech bho 98MB gu 3.7MB.
  • Chaidh am modal cànain a ghluasad gu cruth structar dàta eile, a ’leigeil le faidhlichean a bhith air an riarachadh gu cuimhne aig àm tòiseachaidh.
  • Chaidh stad a chuir air taic don t-seann chruth.

Tha am buileachadh air a sgrìobhadh ann am Python a ’cleachdadh an àrd-ùrlar ionnsachaidh inneal TensorFlow agus air a chuairteachadh fon chead MPL 2.0 an-asgaidh. An obair Tha e a ’faighinn taic air Linux, Android, macOS agus Windows. Tha coileanadh gu leòr ann airson an motair a chleachdadh air bùird LePotato, Raspberry Pi 3 agus Raspberry Pi 4.


Tha susbaint an artaigil a ’cumail ri na prionnsapalan againn de moraltachd deasachaidh. Gus aithris a dhèanamh air mearachd cliog an seo.

Bi a 'chiad fhear a thog beachd

Fàg do bheachd

Seòladh-d cha tèid fhoillseachadh.

*

*

  1. Uallach airson an dàta: Miguel Ángel Gatón
  2. Adhbhar an dàta: Smachd air SPAM, riaghladh bheachdan.
  3. Dìleab: Do chead
  4. Conaltradh an dàta: Cha tèid an dàta a thoirt do threas phàrtaidhean ach a-mhàin fo dhleastanas laghail.
  5. Stòradh dàta: Stòr-dàta air a chumail le Occentus Networks (EU)
  6. Còraichean: Aig àm sam bith faodaidh tu am fiosrachadh agad a chuingealachadh, fhaighinn air ais agus a dhubhadh às.