డీప్‌స్పీచ్: మొజిల్లా స్పీచ్ రికగ్నిషన్ ఇంజిన్

డీప్‌స్పీచ్ 1

ప్రస్తుతం మొజిల్లా తన ప్రసిద్ధ వెబ్ బ్రౌజర్‌లో పనిచేయడమే కాకుండా, దాని గొడుగు కింద పలు రకాల ప్రాజెక్టులను కలిగి ఉంది, వీటిలో ఈ రోజు మనం డీప్‌స్పీచ్ గురించి మాట్లాడుతాము. ఇది ప్రసంగ గుర్తింపు ఇంజిన్ ఇది బైడు పరిశోధకులు ప్రతిపాదించిన పేరులేని ప్రసంగ గుర్తింపు నిర్మాణాన్ని అమలు చేస్తుంది.

విభిన్న శిక్షణ పొందిన మోడళ్లను అందించడానికి డీప్‌స్పీచ్ నిలుస్తుంది, మీ ప్రోగ్రామ్‌లలో స్పీచ్ రికగ్నిషన్ ఫంక్షన్‌ను ఏకీకృతం చేయడానికి నమూనా ఆడియో ఫైల్‌లు మరియు కమాండ్ లైన్ గుర్తింపు సాధనాలు. దానికోసం పైథాన్, నోడ్జెఎస్, సి ++ మరియు .నెట్ కోసం రెడీ-టు-యూజ్ మాడ్యూల్స్ అందించబడ్డాయి, బాహ్య డెవలపర్లు రస్ట్ మరియు గో కోసం ప్రత్యేక మాడ్యూళ్ళను కూడా సిద్ధం చేశారు.

పూర్తయిన మోడల్ ఆంగ్ల భాషకు మాత్రమే పంపిణీ చేయబడుతుంది, కాని ఇతర భాషలకు జతచేయబడిన సూచనల ప్రకారం, కామన్ వాయిస్ ప్రాజెక్ట్ ద్వారా సేకరించిన వాయిస్ డేటాను ఉపయోగించి వ్యవస్థకు శిక్షణ ఇవ్వవచ్చు.

డీప్‌స్పీచ్ గురించి

సాంప్రదాయ వ్యవస్థల కంటే డీప్‌స్పీచ్ చాలా సులభం మరియు అదే సమయంలో ఇది అదనపు శబ్దం సమక్షంలో అధిక నాణ్యత గుర్తింపును అందిస్తుంది.

అభివృద్ధి సాంప్రదాయ శబ్ద నమూనాలు మరియు ఫోన్‌మేస్ భావనను ఉపయోగించదు; బదులుగా, యంత్ర అభ్యాస వ్యవస్థను ఉపయోగించండి బాగా ఆప్టిమైజ్ చేసిన న్యూరల్ నెట్‌వర్క్ ఆధారితమైనది, ఇది శబ్దం, ప్రతిధ్వని మరియు ప్రసంగ లక్షణాలు వంటి వివిధ విచలనాలను మోడల్ చేయడానికి ప్రత్యేక భాగాలను అభివృద్ధి చేయవలసిన అవసరాన్ని తొలగిస్తుంది.

ఈ విధానం యొక్క ఫ్లిప్ సైడ్ ఏమిటంటే, న్యూరల్ నెట్‌వర్క్, మోటారు యొక్క అధిక-నాణ్యత గుర్తింపు మరియు శిక్షణ పొందడం డీప్‌స్పీచ్‌కు పెద్ద మొత్తంలో డేటా అవసరం విభిన్న స్వరాల ద్వారా మరియు సహజ శబ్దం సమక్షంలో వాస్తవ పరిస్థితులలో నిర్దేశించబడిన భిన్నత్వం.

మొజిల్లాలో సృష్టించబడిన కామన్ వాయిస్ ప్రాజెక్ట్ అటువంటి డేటాను సేకరించే బాధ్యత, ఆంగ్లంలో 780 గంటలు, జర్మన్లో 325, ఫ్రెంచ్లో 173 మరియు రష్యన్ భాషలో 27 గంటలు నిరూపితమైన డేటా సెట్‌ను అందిస్తుంది.

అంతిమ లక్ష్యం కామన్ వాయిస్ ప్రాజెక్ట్ నుండి వివిధ ఉచ్చారణల రికార్డింగ్‌లతో 10 వేల గంటలు చేరడం మానవ ప్రసంగం యొక్క విలక్షణమైన పదబంధాలు, ఇది ఆమోదయోగ్యమైన గుర్తింపు లోపాలను సాధిస్తుంది. ప్రస్తుత రూపంలో, ప్రాజెక్ట్ పాల్గొనేవారు ఇప్పటికే మొత్తం 4.3 వేల గంటలు బోధించారు, అందులో 3.5 వేల మంది పరీక్షలో ఉత్తీర్ణులయ్యారు.

డీప్‌స్పీచ్ కోసం చివరి ఆంగ్ల నమూనాను బోధించడంలో, కామన్ వాయిస్ మినహా 3816 గంటల ప్రసంగం ఉపయోగించబడింది, ఇది లిబ్రిస్‌పీచ్, ఫిషర్ మరియు స్విచ్‌బోర్డ్ నుండి ప్రాజెక్ట్ డేటాను కలిగి ఉంది, అలాగే 1700 గంటల ట్రాన్స్క్రిప్టెడ్ రేడియో ప్రోగ్రామ్ రికార్డింగ్‌లతో సహా.

ఇంగ్లీష్ రెడీ-టు-డౌన్‌లోడ్ మోడల్‌ను ఉపయోగిస్తున్నప్పుడు, డీప్‌స్పీచ్‌లో గుర్తింపు లోపం స్థాయి 7,5% లిబ్రిస్పీచ్ పరీక్షా సూట్‌తో అంచనా వేసినప్పుడు. పోలిక ద్వారా, మానవ గుర్తింపులో లోపాల స్థాయి 5.83% గా అంచనా వేయబడింది.

డీప్‌స్పీచ్ రెండు ఉపవ్యవస్థలను కలిగి ఉంటుంది: శబ్ద నమూనా మరియు డీకోడర్. ఇన్పుట్ ధ్వనిలో కొన్ని అక్షరాల ఉనికి యొక్క సంభావ్యతను లెక్కించడానికి శబ్ద నమూనా లోతైన యంత్ర అభ్యాస పద్ధతులను ఉపయోగిస్తుంది. అక్షర సంభావ్యత డేటాను వచన ప్రాతినిధ్యంగా మార్చడానికి డీకోడర్ రే శోధన అల్గారిథమ్‌ను ఉపయోగిస్తుంది.

డీప్‌స్పీచ్ యొక్క క్రొత్త సంస్కరణ గురించి

డీప్‌స్పీచ్ ప్రస్తుతం దాని వెర్షన్ 0.6 లో ఉంది దీనిలో కింది మార్పులు హైలైట్ చేయబడ్డాయి:

  • క్రొత్త ట్రాన్స్మిషన్ డీకోడర్ ప్రతిపాదించబడింది, ఇది ఎక్కువ ప్రతిస్పందనను అందిస్తుంది మరియు ప్రాసెస్ చేయబడిన ఆడియో డేటా పరిమాణంపై ఆధారపడి ఉండదు.
  • API లో మార్పులు చేయబడ్డాయి మరియు ఫంక్షన్ పేర్లను ఏకీకృతం చేసే పని జరిగింది. టైమింగ్ గురించి అదనపు మెటాడేటాను పొందటానికి విధులు జోడించబడ్డాయి, అవుట్‌పుట్‌లో వచన ప్రాతినిధ్యాన్ని స్వీకరించడానికి మాత్రమే కాకుండా, వ్యక్తిగత అక్షరాలు మరియు వాక్యాలను ఆడియో స్ట్రీమ్‌లోని స్థానానికి బంధించడాన్ని కూడా కనుగొనవచ్చు.
  • పునరావృత న్యూరల్ నెట్‌వర్క్‌లతో (RNN) పనిని ఆప్టిమైజ్ చేయడానికి CuDNN లైబ్రరీని ఉపయోగించటానికి మద్దతు శిక్షణా మాడ్యూళ్ల కోసం టూల్‌కిట్‌లో జోడించబడింది.
  • టెన్సార్ ఫ్లో వెర్షన్ కోసం కనీస అవసరాలు 1.13.1 నుండి 1.14.0 కు పెంచబడ్డాయి.
  • టెన్సార్‌ఫ్లో లైట్ లైట్ ఎడిషన్‌కు మద్దతు జోడించబడింది, ఇది డీప్‌స్పీచ్ ప్యాకేజీ పరిమాణాన్ని 98MB నుండి 3.7MB కి తగ్గిస్తుంది.
  • భాషా నమూనా మరొక డేటా స్ట్రక్చర్ ఫార్మాట్‌కు బదిలీ చేయబడింది, ఇది బూట్లను బూట్ సమయంలో మెమరీకి కేటాయించటానికి అనుమతిస్తుంది.
  • పాత ఆకృతికి మద్దతు నిలిపివేయబడింది.

టెన్సార్‌ఫ్లో మెషిన్ లెర్నింగ్ ప్లాట్‌ఫామ్‌ను ఉపయోగించి పైథాన్‌లో అమలు వ్రాయబడింది మరియు ఉచిత ఎంపిఎల్ 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడుతుంది. ఆ పని దీనికి Linux, Android, macOS మరియు Windows లలో మద్దతు ఉంది. లెపోటాటో, రాస్ప్బెర్రీ పై 3 మరియు రాస్ప్బెర్రీ పై 4 బోర్డులలో మోటారును ఉపయోగించడానికి తగినంత పనితీరు ఉంది.


వ్యాసం యొక్క కంటెంట్ మా సూత్రాలకు కట్టుబడి ఉంటుంది సంపాదకీయ నీతి. లోపం నివేదించడానికి క్లిక్ చేయండి ఇక్కడ.

వ్యాఖ్యానించిన మొదటి వ్యక్తి అవ్వండి

మీ వ్యాఖ్యను ఇవ్వండి

మీ ఇమెయిల్ చిరునామా ప్రచురితమైన కాదు.

*

*

  1. డేటాకు బాధ్యత: మిగ్యుల్ ఏంజెల్ గాటన్
  2. డేటా యొక్క ఉద్దేశ్యం: కంట్రోల్ స్పామ్, వ్యాఖ్య నిర్వహణ.
  3. చట్టబద్ధత: మీ సమ్మతి
  4. డేటా యొక్క కమ్యూనికేషన్: డేటా చట్టపరమైన బాధ్యత ద్వారా తప్ప మూడవ పార్టీలకు తెలియజేయబడదు.
  5. డేటా నిల్వ: ఆక్సెంటస్ నెట్‌వర్క్స్ (EU) హోస్ట్ చేసిన డేటాబేస్
  6. హక్కులు: ఎప్పుడైనా మీరు మీ సమాచారాన్ని పరిమితం చేయవచ్చు, తిరిగి పొందవచ్చు మరియు తొలగించవచ్చు.