Mozilla a ’toirt a-steach einnsean aithne cainnt DeepSpeech 0.9

DeepSpeech1

Chaidh foillseachadh fhoillseachadh einnsean aithneachadh guth DeepSpeech 0.9 air a leasachadh le Mozilla, a tha a ’buileachadh ailtireachd na aithneachadh cainnte den aon ainm a mhol luchd-rannsachaidh Baidu.

Am buileachadh sgrìobhte ann am Python a ’cleachdadh an àrd-ùrlar ionnsachaidh inneal TensorFlow agus tha e air a chuairteachadh fon chead MPL 2.0 an-asgaidh.

Mu dheidhinn DeepSpeech

Tha dà fho-shiostam ann an DeepSpeech: modail fuaimneach agus decoder. Bidh am modail fuaimneach a ’cleachdadh modhan ionnsachaidh inneal domhainn gus obrachadh a-mach coltachd gu bheil caractaran sònraichte an làthair anns an fhuaim cuir a-steach.

Bidh an decoder a ’cleachdadh algorithm sgrùdadh ray gus an dàta coltachd caractar a thionndadh gu riochdachadh teacsa. Tha DeepSpeech gu math nas sìmplidh na siostaman traidiseanta agus aig an aon àm a ’toirt seachad càileachd aithne nas àirde an làthair fuaim cèin.

Chan eil an leasachadh a ’cleachdadh modalan fuaimneach traidiseanta agus bun-bheachd fònaichean; an àite sin, thathas a ’cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural a tha air a dheagh leasachadh, a tha a’ cur às don fheum air pàirtean fa-leth a leasachadh gus diofar neo-riaghailteachdan leithid fuaim, mac-talla, agus feartan cainnt a mhodaladh.

An cromag a ’tabhann mhodalan ionnsaichte, sampaill de fhaidhlichean fuaim agus innealan aithne loidhne-àithne.

Tha am modail crìochnaichte air a thoirt seachad airson Beurla agus Sìneach a-mhàin. Airson cànanan eile, faodaidh tu an siostam ionnsachadh thu fhèin a rèir an stiùireadh ceangailte, a ’cleachdadh an dàta guth a chruinnich pròiseact Common Voice.

Cuin thathar a ’cleachdadh a’ mhodail deiseil airson a chleachdadh den Bheurla a tha air a thabhann airson luchdachadh sìos, tha an ìre de mhearachdan aithneachaidh ann an DeepSpeech aig 7.06% nuair a thèid a mheasadh a ’cleachdadh an t-sreath deuchainn LibriSpeech.

Airson coimeas a dhèanamh, thathas a ’meas gu bheil ìre mearachd aithneachaidh daonna aig 5,83%.

Anns a ’mhodail a thathar a’ moladh, tha an toradh aithneachaidh as fheàrr air a choileanadh le clàradh glan de ghuth fireann le stràc Ameireaganach ann an àrainneachd gun fhuaimean a-muigh.

A rèir ùghdar Leabharlann Aithneachadh Òraid Leantainneach Vosk, is e na h-eas-bhuannachdan a tha ann an seata Guth Coitcheann aon-taobhach an stuth cainnt (mar as trice fir eadar 20 agus 30 agus dìth stuthan le guth boireannaich, clann agus seann daoine), dìth caochlaideachd briathrachais (ath-aithris de na h-aon abairtean) agus sgaoileadh chlàran MP3 a tha buailteach a bhith air an saobhadh.

Tha eas-bhuannachdan DeepSpeech a ’toirt a-steach droch choileanadh agus an caitheamh cuimhne àrd anns an decoder, a bharrachd air goireasan cudromach gus am modail a thrèanadh (bidh Mozilla a ’cleachdadh siostam le 8 Quadro RTX 6000 GPU le 24GB VRAM anns gach fear).

Is e an aon rud as ìsle ris an dòigh-obrach seo airson aithne agus trèanadh àrd-inbhe de lìonra neural, an einnsean DeepSpeech feumach air tòrr dàta heterogeneous air a dhearbhadh ann an suidheachaidhean fìor le guthan eadar-dhealaichte agus an làthair fuaimean nàdurrach.

Tha an dàta seo air a chur ri chèile leis a ’phròiseact Common Voice a chaidh a chruthachadh ann am Mozilla, a bheir seachad seata dàta dearbhaichte le 1469 uairean ann am Beurla, 692 ann an Gearmailtis, 554 ann am Fraingis, 105 uairean ann an Ruisis agus 22 uair ann an Ucràinis.

Nuair a bhios tu a ’trèanadh a’ mhodal Beurla mu dheireadh airson DeepSpeech, a bharrachd air Common Voice, thathas a ’cleachdadh dàta bho na pròiseactan LibriSpeech, Fisher agus Switchboard a bharrachd, a bharrachd air timcheall air 1700 uairean de chlàraidhean de phrògraman rèidio ath-sgrìobhte.

Eadar na h-atharrachaidhean anns a ’mheur ùr, tha comas ann cuideam nam faclan a sparradh air an taghadh tron ​​phròiseas dì-còdaidh.

Bidh e cuideachd a ’soilleireachadh an taic airson an àrd-ùrlar Electron 9.2 agus buileachadh roghainneil air an uidheam gnàthachaidh còmhdach (Layer Norm) nuair a bhios tu a’ trèanadh an lìonra neural.

Luchdaich sìos agus faigh

Tha an coileanadh gu leòr gus an motair a chleachdadh ann am bùird LePotato, Raspberry Pi 3 agus Raspberry Pi 4, a bharrachd air ann an Google Pixel 2, Sony Xperia Z Premium agus Nokia 1.3 fònaichean sgairteil.

Tha modalan deiseil air an tabhann airson a chleachdadh airson Python, NodeJS, C ++, agus .NET gus gnìomhan aithne cainnt fhilleadh a-steach do na prògraman agad (tha luchd-leasachaidh treas-phàrtaidh air modalan ullachadh fa leth airson Rust, Go, agus V).


Tha susbaint an artaigil a ’cumail ri na prionnsapalan againn de moraltachd deasachaidh. Gus aithris a dhèanamh air mearachd cliog an seo.

Bi a 'chiad fhear a thog beachd

Fàg do bheachd

Seòladh-d cha tèid fhoillseachadh. Feum air achaidhean air an comharrachadh le *

*

*

  1. Uallach airson an dàta: Miguel Ángel Gatón
  2. Adhbhar an dàta: Smachd air SPAM, riaghladh bheachdan.
  3. Dìleab: Do chead
  4. Conaltradh an dàta: Cha tèid an dàta a thoirt do threas phàrtaidhean ach a-mhàin fo dhleastanas laghail.
  5. Stòradh dàta: Stòr-dàta air a chumail le Occentus Networks (EU)
  6. Còraichean: Aig àm sam bith faodaidh tu am fiosrachadh agad a chuingealachadh, fhaighinn air ais agus a dhubhadh às.