వారు స్వయంచాలక స్పీచ్ రికగ్నిషన్ సిస్టమ్ అయిన విస్పర్ యొక్క సోర్స్ కోడ్‌ను విడుదల చేశారు

విష్పర్

విస్పర్ అనేది ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్

ప్రాజెక్ట్ ఇటీవల OpenAI, ఇది కృత్రిమ మేధస్సు రంగంలో పబ్లిక్ ప్రాజెక్ట్‌లను అభివృద్ధి చేస్తుంది, వార్తలను ప్రచురించింది వాయిస్ రికగ్నిషన్ సిస్టమ్‌కు సంబంధించినది గుసగుస, ఇది a ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్ (ASR) వెబ్ నుండి సేకరించిన 680.000 గంటల బహుభాషా, బహువిధి పర్యవేక్షణ డేటాపై శిక్షణ పొందారు.

ఆంగ్ల ప్రసంగం కోసం, సిస్టమ్ ఆటోమేటిక్ రికగ్నిషన్ విశ్వసనీయత మరియు మానవ గుర్తింపుకు దగ్గరగా ఉండే ఖచ్చితత్వాన్ని అందిస్తుంది.

ఇంత పెద్ద మరియు వైవిధ్యమైన డేటాసెట్‌ని ఉపయోగించడం వల్ల యాక్సెంట్‌లు, బ్యాక్‌గ్రౌండ్ నాయిస్ మరియు టెక్నికల్ లాంగ్వేజ్‌కి మరింత పటిష్టత లభిస్తుందని మేము చూపిస్తాము. అదనంగా, ఇది వివిధ భాషలలో లిప్యంతరీకరణను అనుమతిస్తుంది, అలాగే ఆ భాషలను ఆంగ్లంలోకి అనువదించవచ్చు. మేము ఉపయోగకరమైన అప్లికేషన్‌లను రూపొందించడానికి మరియు బలమైన స్పీచ్ ప్రాసెసింగ్‌పై భవిష్యత్ పరిశోధనలకు పునాదిగా పనిచేసే ఓపెన్ సోర్స్ మోడల్‌లు మరియు అనుమితి కోడ్.

మోడల్ గురించి (ఇప్పటికే చెప్పినట్లు) 680 గంటలు ఉపయోగించి శిక్షణ పొందారు వివిధ భాషలు మరియు సబ్జెక్ట్ ప్రాంతాలను కవర్ చేసే వివిధ సేకరణల నుండి సేకరించిన వాయిస్ డేటా. శిక్షణలో పాల్గొన్న వాయిస్ డేటాలో 1/3 వంతు ఇంగ్లీష్ కాకుండా ఇతర భాషలలో ఉంది.

ప్రతిపాదిత వ్యవస్థ ఉచ్ఛారణ ఉచ్చారణ వంటి పరిస్థితులను సరిగ్గా నిర్వహిస్తుంది, నేపథ్య శబ్దం మరియు సాంకేతిక పరిభాష యొక్క ఉనికి. ప్రసంగాన్ని టెక్స్ట్‌లోకి లిప్యంతరీకరించడంతో పాటు, సిస్టమ్ ఏకపక్ష భాష నుండి ఆంగ్లంలోకి ప్రసంగాన్ని అనువదించగలదు మరియు ఆడియో స్ట్రీమ్‌లో ప్రసంగం యొక్క రూపాన్ని గుర్తించగలదు.

మోడల్‌లు రెండు ప్రాతినిధ్యాలలో శిక్షణ పొందారు: ఆంగ్ల భాష కోసం ఒక నమూనా మరియు స్పానిష్, రష్యన్, ఇటాలియన్, జర్మన్, జపనీస్, ఉక్రేనియన్, బెలారసియన్, చైనీస్ మరియు ఇతర భాషలకు మద్దతు ఇచ్చే బహుభాషా మోడల్. ప్రతిగా, ప్రతి వీక్షణ 5 ఎంపికలుగా విభజించబడింది, ఇది మోడల్‌లో కవర్ చేయబడిన పారామితుల పరిమాణం మరియు సంఖ్యలో విభిన్నంగా ఉంటుంది.

విస్పర్ ఆర్కిటెక్చర్ అనేది ఒక సాధారణ ఎండ్-టు-ఎండ్ విధానం, ఇది ఎన్‌కోడర్-డీకోడర్ ట్రాన్స్‌ఫార్మర్‌గా అమలు చేయబడుతుంది. ఇన్‌పుట్ ఆడియో 30-సెకన్ల భాగాలుగా విభజించబడింది, లాగ్-మెల్ స్పెక్ట్రోగ్రామ్‌గా మార్చబడుతుంది, ఆపై ఎన్‌కోడర్‌కి పంపబడుతుంది. భాష గుర్తింపు, వాక్య-స్థాయి టైమ్‌స్టాంప్‌లు, బహుభాషా స్పీచ్ ట్రాన్స్‌క్రిప్షన్ మరియు ఇంగ్లీషులోకి స్పీచ్ ట్రాన్స్‌లేషన్ వంటి విధులను నిర్వహించడానికి ప్రత్యేకమైన మోడల్‌ను నిర్దేశించే ప్రత్యేక టోకెన్‌లతో విడదీయబడిన సంబంధిత వచన ఉపశీర్షికను అంచనా వేయడానికి డీకోడర్ శిక్షణ పొందింది.

పెద్ద పరిమాణం, అధిక గుర్తింపు ఖచ్చితత్వం మరియు నాణ్యత, కానీ GPU వీడియో మెమరీ పరిమాణం మరియు తక్కువ పనితీరు కోసం అధిక అవసరాలు. ఉదాహరణకు, కనీస ఎంపికలో 39 మిలియన్ పారామీటర్‌లు ఉంటాయి మరియు 1 GB వీడియో మెమరీ అవసరం, గరిష్ట ఎంపికలో 1550 బిలియన్ పారామీటర్‌లు ఉంటాయి మరియు 10 GB వీడియో మెమరీ అవసరం. కనిష్ట వేరియంట్ గరిష్టం కంటే 32 రెట్లు వేగంగా ఉంటుంది.

సిస్టమ్ "ట్రాన్స్‌ఫార్మర్" న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌ని ఉపయోగిస్తుంది, ఇది ఒకదానితో ఒకటి పరస్పర చర్య చేసే ఎన్‌కోడర్ మరియు డీకోడర్‌ను కలిగి ఉంటుంది. ఆడియో 30-సెకన్ల భాగాలుగా విభజించబడింది, ఇవి లాగ్-మెల్ స్పెక్ట్రోగ్రామ్‌గా మార్చబడతాయి మరియు ఎన్‌కోడర్‌కు పంపబడతాయి.

ఎన్‌కోడర్ పని ఫలితం డీకోడర్‌కు పంపబడుతుంది, ఇది భాష గుర్తింపు, వాక్య ఉచ్చారణ కాలక్రమం అకౌంటింగ్, వివిధ భాషలలో స్పీచ్ ట్రాన్స్‌క్రిప్షన్ మరియు సాధారణ నమూనాలో ఆంగ్ల అనువాదం వంటి పనులను పరిష్కరించడానికి అనుమతించే ప్రత్యేక టోకెన్‌లతో కలిపిన వచన ప్రాతినిధ్యాన్ని అంచనా వేస్తుంది.

విస్పర్ యొక్క పనితీరు భాషను బట్టి చాలా తేడా ఉంటుంది, కాబట్టి మంచి అవగాహనను అందించేది ఇంగ్లీష్, ఇది ఆంగ్లంలో నాలుగు వెర్షన్‌లను మాత్రమే కలిగి ఉంది, ఇది ఇతర భాషల ఇతర నమూనాల మాదిరిగానే ప్రయోజనాలు మరియు అప్రయోజనాలను అందిస్తుంది. వేగం మరియు ఖచ్చితత్వం.

చివరకు మీరు దాని గురించి మరింత తెలుసుకోవడానికి ఆసక్తి కలిగి ఉంటే, లో మీరు అసలు ప్రచురణను తనిఖీ చేయవచ్చు ఈ లింక్, మీరు సోర్స్ కోడ్ మరియు శిక్షణ పొందిన మోడల్‌లపై ఆసక్తి కలిగి ఉంటే మీరు వారిని సంప్రదించవచ్చు ఈ లింక్

PyTorch ఫ్రేమ్‌వర్క్ ఆధారంగా రిఫరెన్స్ ఇంప్లిమెంటేషన్ కోడ్ మరియు ఇప్పటికే శిక్షణ పొందిన మోడల్‌ల సెట్ తెరవబడి, ఉపయోగించడానికి సిద్ధంగా ఉంది. కోడ్ MIT లైసెన్స్ క్రింద ఓపెన్ సోర్స్ మరియు ffmpeg లైబ్రరీని ఉపయోగించడం అవసరం అని పేర్కొనడం విలువ.


వ్యాసం యొక్క కంటెంట్ మా సూత్రాలకు కట్టుబడి ఉంటుంది సంపాదకీయ నీతి. లోపం నివేదించడానికి క్లిక్ చేయండి ఇక్కడ.

వ్యాఖ్యానించిన మొదటి వ్యక్తి అవ్వండి

మీ వ్యాఖ్యను ఇవ్వండి

మీ ఇమెయిల్ చిరునామా ప్రచురితమైన కాదు.

*

*

  1. డేటాకు బాధ్యత: మిగ్యుల్ ఏంజెల్ గాటన్
  2. డేటా యొక్క ఉద్దేశ్యం: కంట్రోల్ స్పామ్, వ్యాఖ్య నిర్వహణ.
  3. చట్టబద్ధత: మీ సమ్మతి
  4. డేటా యొక్క కమ్యూనికేషన్: డేటా చట్టపరమైన బాధ్యత ద్వారా తప్ప మూడవ పార్టీలకు తెలియజేయబడదు.
  5. డేటా నిల్వ: ఆక్సెంటస్ నెట్‌వర్క్స్ (EU) హోస్ట్ చేసిన డేటాబేస్
  6. హక్కులు: ఎప్పుడైనా మీరు మీ సమాచారాన్ని పరిమితం చేయవచ్చు, తిరిగి పొందవచ్చు మరియు తొలగించవచ్చు.