ప్రస్తుతం మొజిల్లా తన ప్రసిద్ధ వెబ్ బ్రౌజర్లో పనిచేయడమే కాకుండా, దాని గొడుగు కింద పలు రకాల ప్రాజెక్టులను కలిగి ఉంది, వీటిలో ఈ రోజు మనం డీప్స్పీచ్ గురించి మాట్లాడుతాము. ఇది ప్రసంగ గుర్తింపు ఇంజిన్ ఇది బైడు పరిశోధకులు ప్రతిపాదించిన పేరులేని ప్రసంగ గుర్తింపు నిర్మాణాన్ని అమలు చేస్తుంది.
విభిన్న శిక్షణ పొందిన మోడళ్లను అందించడానికి డీప్స్పీచ్ నిలుస్తుంది, మీ ప్రోగ్రామ్లలో స్పీచ్ రికగ్నిషన్ ఫంక్షన్ను ఏకీకృతం చేయడానికి నమూనా ఆడియో ఫైల్లు మరియు కమాండ్ లైన్ గుర్తింపు సాధనాలు. దానికోసం పైథాన్, నోడ్జెఎస్, సి ++ మరియు .నెట్ కోసం రెడీ-టు-యూజ్ మాడ్యూల్స్ అందించబడ్డాయి, బాహ్య డెవలపర్లు రస్ట్ మరియు గో కోసం ప్రత్యేక మాడ్యూళ్ళను కూడా సిద్ధం చేశారు.
పూర్తయిన మోడల్ ఆంగ్ల భాషకు మాత్రమే పంపిణీ చేయబడుతుంది, కాని ఇతర భాషలకు జతచేయబడిన సూచనల ప్రకారం, కామన్ వాయిస్ ప్రాజెక్ట్ ద్వారా సేకరించిన వాయిస్ డేటాను ఉపయోగించి వ్యవస్థకు శిక్షణ ఇవ్వవచ్చు.
డీప్స్పీచ్ గురించి
సాంప్రదాయ వ్యవస్థల కంటే డీప్స్పీచ్ చాలా సులభం మరియు అదే సమయంలో ఇది అదనపు శబ్దం సమక్షంలో అధిక నాణ్యత గుర్తింపును అందిస్తుంది.
అభివృద్ధి సాంప్రదాయ శబ్ద నమూనాలు మరియు ఫోన్మేస్ భావనను ఉపయోగించదు; బదులుగా, యంత్ర అభ్యాస వ్యవస్థను ఉపయోగించండి బాగా ఆప్టిమైజ్ చేసిన న్యూరల్ నెట్వర్క్ ఆధారితమైనది, ఇది శబ్దం, ప్రతిధ్వని మరియు ప్రసంగ లక్షణాలు వంటి వివిధ విచలనాలను మోడల్ చేయడానికి ప్రత్యేక భాగాలను అభివృద్ధి చేయవలసిన అవసరాన్ని తొలగిస్తుంది.
ఈ విధానం యొక్క ఫ్లిప్ సైడ్ ఏమిటంటే, న్యూరల్ నెట్వర్క్, మోటారు యొక్క అధిక-నాణ్యత గుర్తింపు మరియు శిక్షణ పొందడం డీప్స్పీచ్కు పెద్ద మొత్తంలో డేటా అవసరం విభిన్న స్వరాల ద్వారా మరియు సహజ శబ్దం సమక్షంలో వాస్తవ పరిస్థితులలో నిర్దేశించబడిన భిన్నత్వం.
మొజిల్లాలో సృష్టించబడిన కామన్ వాయిస్ ప్రాజెక్ట్ అటువంటి డేటాను సేకరించే బాధ్యత, ఆంగ్లంలో 780 గంటలు, జర్మన్లో 325, ఫ్రెంచ్లో 173 మరియు రష్యన్ భాషలో 27 గంటలు నిరూపితమైన డేటా సెట్ను అందిస్తుంది.
అంతిమ లక్ష్యం కామన్ వాయిస్ ప్రాజెక్ట్ నుండి వివిధ ఉచ్చారణల రికార్డింగ్లతో 10 వేల గంటలు చేరడం మానవ ప్రసంగం యొక్క విలక్షణమైన పదబంధాలు, ఇది ఆమోదయోగ్యమైన గుర్తింపు లోపాలను సాధిస్తుంది. ప్రస్తుత రూపంలో, ప్రాజెక్ట్ పాల్గొనేవారు ఇప్పటికే మొత్తం 4.3 వేల గంటలు బోధించారు, అందులో 3.5 వేల మంది పరీక్షలో ఉత్తీర్ణులయ్యారు.
డీప్స్పీచ్ కోసం చివరి ఆంగ్ల నమూనాను బోధించడంలో, కామన్ వాయిస్ మినహా 3816 గంటల ప్రసంగం ఉపయోగించబడింది, ఇది లిబ్రిస్పీచ్, ఫిషర్ మరియు స్విచ్బోర్డ్ నుండి ప్రాజెక్ట్ డేటాను కలిగి ఉంది, అలాగే 1700 గంటల ట్రాన్స్క్రిప్టెడ్ రేడియో ప్రోగ్రామ్ రికార్డింగ్లతో సహా.
ఇంగ్లీష్ రెడీ-టు-డౌన్లోడ్ మోడల్ను ఉపయోగిస్తున్నప్పుడు, డీప్స్పీచ్లో గుర్తింపు లోపం స్థాయి 7,5% లిబ్రిస్పీచ్ పరీక్షా సూట్తో అంచనా వేసినప్పుడు. పోలిక ద్వారా, మానవ గుర్తింపులో లోపాల స్థాయి 5.83% గా అంచనా వేయబడింది.
డీప్స్పీచ్ రెండు ఉపవ్యవస్థలను కలిగి ఉంటుంది: శబ్ద నమూనా మరియు డీకోడర్. ఇన్పుట్ ధ్వనిలో కొన్ని అక్షరాల ఉనికి యొక్క సంభావ్యతను లెక్కించడానికి శబ్ద నమూనా లోతైన యంత్ర అభ్యాస పద్ధతులను ఉపయోగిస్తుంది. అక్షర సంభావ్యత డేటాను వచన ప్రాతినిధ్యంగా మార్చడానికి డీకోడర్ రే శోధన అల్గారిథమ్ను ఉపయోగిస్తుంది.
డీప్స్పీచ్ యొక్క క్రొత్త సంస్కరణ గురించి
డీప్స్పీచ్ ప్రస్తుతం దాని వెర్షన్ 0.6 లో ఉంది దీనిలో కింది మార్పులు హైలైట్ చేయబడ్డాయి:
- క్రొత్త ట్రాన్స్మిషన్ డీకోడర్ ప్రతిపాదించబడింది, ఇది ఎక్కువ ప్రతిస్పందనను అందిస్తుంది మరియు ప్రాసెస్ చేయబడిన ఆడియో డేటా పరిమాణంపై ఆధారపడి ఉండదు.
- API లో మార్పులు చేయబడ్డాయి మరియు ఫంక్షన్ పేర్లను ఏకీకృతం చేసే పని జరిగింది. టైమింగ్ గురించి అదనపు మెటాడేటాను పొందటానికి విధులు జోడించబడ్డాయి, అవుట్పుట్లో వచన ప్రాతినిధ్యాన్ని స్వీకరించడానికి మాత్రమే కాకుండా, వ్యక్తిగత అక్షరాలు మరియు వాక్యాలను ఆడియో స్ట్రీమ్లోని స్థానానికి బంధించడాన్ని కూడా కనుగొనవచ్చు.
- పునరావృత న్యూరల్ నెట్వర్క్లతో (RNN) పనిని ఆప్టిమైజ్ చేయడానికి CuDNN లైబ్రరీని ఉపయోగించటానికి మద్దతు శిక్షణా మాడ్యూళ్ల కోసం టూల్కిట్లో జోడించబడింది.
- టెన్సార్ ఫ్లో వెర్షన్ కోసం కనీస అవసరాలు 1.13.1 నుండి 1.14.0 కు పెంచబడ్డాయి.
- టెన్సార్ఫ్లో లైట్ లైట్ ఎడిషన్కు మద్దతు జోడించబడింది, ఇది డీప్స్పీచ్ ప్యాకేజీ పరిమాణాన్ని 98MB నుండి 3.7MB కి తగ్గిస్తుంది.
- భాషా నమూనా మరొక డేటా స్ట్రక్చర్ ఫార్మాట్కు బదిలీ చేయబడింది, ఇది బూట్లను బూట్ సమయంలో మెమరీకి కేటాయించటానికి అనుమతిస్తుంది.
- పాత ఆకృతికి మద్దతు నిలిపివేయబడింది.
టెన్సార్ఫ్లో మెషిన్ లెర్నింగ్ ప్లాట్ఫామ్ను ఉపయోగించి పైథాన్లో అమలు వ్రాయబడింది మరియు ఉచిత ఎంపిఎల్ 2.0 లైసెన్స్ క్రింద పంపిణీ చేయబడుతుంది. ఆ పని దీనికి Linux, Android, macOS మరియు Windows లలో మద్దతు ఉంది. లెపోటాటో, రాస్ప్బెర్రీ పై 3 మరియు రాస్ప్బెర్రీ పై 4 బోర్డులలో మోటారును ఉపయోగించడానికి తగినంత పనితీరు ఉంది.
వ్యాఖ్యానించిన మొదటి వ్యక్తి అవ్వండి