પ્રોજેક્ટ તાજેતરમાં OpenAI, જે કૃત્રિમ બુદ્ધિના ક્ષેત્રમાં જાહેર પ્રોજેક્ટ્સ વિકસાવે છે, સમાચાર પ્રકાશિત કર્યા છે વૉઇસ રેકગ્નિશન સિસ્ટમથી સંબંધિત બબડાટ જે એ ઓટોમેટિક સ્પીચ રેકગ્નિશન સિસ્ટમ (ASR) 680.000 કલાકના બહુભાષી, મલ્ટિટાસ્કિંગ નિરીક્ષિત ડેટા પર તાલીમ આપવામાં આવી છે.
એવો દાવો કરવામાં આવે છે કે અંગ્રેજી ભાષણ માટે, સિસ્ટમ માનવ ઓળખની નજીક સ્વચાલિત માન્યતા વિશ્વસનીયતા અને ચોકસાઈના સ્તરો પ્રદાન કરે છે.
અમે બતાવીએ છીએ કે આવા મોટા અને વૈવિધ્યસભર ડેટાસેટનો ઉપયોગ ઉચ્ચારો, પૃષ્ઠભૂમિ અવાજ અને તકનીકી ભાષામાં વધુ મજબૂતી તરફ દોરી જાય છે. આ ઉપરાંત, તે વિવિધ ભાષાઓમાં ટ્રાન્સક્રિપ્શન તેમજ તે ભાષાઓના અંગ્રેજીમાં અનુવાદની મંજૂરી આપે છે. અમે ઓપન સોર્સ મૉડલ અને અનુમાન કોડ છીએ જે ઉપયોગી એપ્લિકેશનો બનાવવા અને મજબૂત વાણી પ્રક્રિયા પર ભાવિ સંશોધન માટે પાયા તરીકે કામ કરે છે.
મોડેલ વિશે (પહેલાથી જ ઉલ્લેખ કર્યો છે) 680 કલાકનો ઉપયોગ કરીને પ્રશિક્ષિત વિવિધ ભાષાઓ અને વિષય વિસ્તારોને આવરી લેતા વિવિધ સંગ્રહોમાંથી એકત્રિત કરવામાં આવેલ વૉઇસ ડેટાનો. તાલીમમાં સામેલ લગભગ 1/3 વૉઇસ ડેટા અંગ્રેજી સિવાયની ભાષાઓમાં છે.
સૂચિત સિસ્ટમ ઉચ્ચારણ ઉચ્ચાર જેવી પરિસ્થિતિઓને યોગ્ય રીતે સંભાળે છે, પૃષ્ઠભૂમિ અવાજની હાજરી અને તકનીકી કલકલનો ઉપયોગ. વાણીને ટેક્સ્ટમાં ટ્રાન્સક્રાઈબ કરવા ઉપરાંત, સિસ્ટમ વાણીને મનસ્વી ભાષામાંથી અંગ્રેજીમાં અનુવાદિત કરી શકે છે અને ઑડિઓ સ્ટ્રીમમાં ભાષણનો દેખાવ શોધી શકે છે.
મોડેલોને બે રજૂઆતોમાં તાલીમ આપવામાં આવે છે: અંગ્રેજી ભાષા માટેનું એક મોડેલ અને એક બહુભાષી મોડેલ જે સ્પેનિશ, રશિયન, ઇટાલિયન, જર્મન, જાપાનીઝ, યુક્રેનિયન, બેલારુસિયન, ચાઇનીઝ અને અન્ય ભાષાઓને સમર્થન આપે છે. બદલામાં, દરેક દૃશ્યને 5 વિકલ્પોમાં વિભાજિત કરવામાં આવે છે, જે કદ અને મોડેલમાં આવરી લેવામાં આવેલા પરિમાણોની સંખ્યામાં અલગ પડે છે.
વ્હીસ્પર આર્કિટેક્ચર એ એક સરળ એન્ડ-ટુ-એન્ડ અભિગમ છે, જે એન્કોડર-ડીકોડર ટ્રાન્સફોર્મર તરીકે અમલમાં મૂકવામાં આવે છે. ઇનપુટ ઓડિયો 30-સેકન્ડના હિસ્સામાં વિભાજિત થાય છે, લોગ-મેલ સ્પેક્ટ્રોગ્રામમાં રૂપાંતરિત થાય છે અને પછી એન્કોડરમાં પસાર થાય છે. ડીકોડરને અનુરૂપ ટેક્સ્ટ સબટાઈટલની આગાહી કરવા માટે પ્રશિક્ષિત કરવામાં આવે છે, જે વિશિષ્ટ ટોકન્સ સાથે જોડાયેલા હોય છે જે અનન્ય મોડેલને ભાષા ઓળખ, વાક્ય-સ્તરના ટાઇમસ્ટેમ્પ્સ, બહુભાષી ભાષણ ટ્રાન્સક્રિપ્શન અને અંગ્રેજીમાં ભાષણ અનુવાદ જેવા કાર્યો કરવા માટે નિર્દેશિત કરે છે.
કદ જેટલું મોટું, ઓળખની સચોટતા અને ગુણવત્તા જેટલી વધારે છે, પરંતુ GPU વિડિયો મેમરી કદ માટેની આવશ્યકતાઓ પણ તેટલી ઊંચી અને પ્રદર્શન ઓછું. ઉદાહરણ તરીકે, ન્યૂનતમ વિકલ્પમાં 39 મિલિયન પેરામીટર્સ શામેલ છે અને તેને 1 GB વિડિયો મેમરીની જરૂર છે, જ્યારે મહત્તમ વિકલ્પમાં 1550 બિલિયન પેરામીટર્સનો સમાવેશ થાય છે અને તેને 10 GB વિડિયો મેમરીની જરૂર છે. ન્યૂનતમ વેરિઅન્ટ મહત્તમ કરતાં 32 ગણો ઝડપી છે.
સિસ્ટમ "ટ્રાન્સફોર્મર" ન્યુરલ નેટવર્ક આર્કિટેક્ચરનો ઉપયોગ કરે છે, જેમાં એન્કોડર અને ડીકોડરનો સમાવેશ થાય છે જે એકબીજા સાથે ક્રિયાપ્રતિક્રિયા કરે છે. ઓડિયોને 30-સેકન્ડના હિસ્સામાં વિભાજિત કરવામાં આવે છે, જે લોગ-મેલ સ્પેક્ટ્રોગ્રામમાં રૂપાંતરિત થાય છે અને એન્કોડરમાં મોકલવામાં આવે છે.
એન્કોડરના કાર્યનું પરિણામ ડીકોડરને મોકલવામાં આવે છે, જે વિશિષ્ટ ટોકન્સ સાથે મિશ્રિત ટેક્સ્ટ રજૂઆતની આગાહી કરે છે જે ભાષા શોધ, વાક્ય ઉચ્ચારણ કાલક્રમ એકાઉન્ટિંગ, વિવિધ ભાષાઓમાં ભાષણ ટ્રાન્સક્રિપ્શન અને સામાન્ય મોડેલમાં અંગ્રેજી અનુવાદ જેવા કાર્યોને હલ કરવાની મંજૂરી આપે છે.
એ ઉલ્લેખનીય છે કે વ્હિસ્પરનું પ્રદર્શન ભાષાના આધારે મોટા પ્રમાણમાં બદલાય છે, તેથી જે વધુ સારી સમજણ રજૂ કરે છે તે અંગ્રેજી છે, જેનાં ચાર સંસ્કરણો માત્ર અંગ્રેજીમાં છે, જે અન્ય ભાષાઓના અન્ય મોડલની જેમ, તેના ફાયદા અને ગેરફાયદા પ્રદાન કરે છે. ઝડપ અને ચોકસાઈ.
છેલ્લે જો તમને તેના વિશે વધુ જાણવામાં રસ છે, તમે મૂળ પ્રકાશનમાં તપાસ કરી શકો છો આ લિંક, જ્યારે તમને સ્ત્રોત કોડ અને પ્રશિક્ષિત મોડલ્સમાં રસ હોય તો તમે તેમની સાથે સંપર્ક કરી શકો છો આ લિંક
PyTorch ફ્રેમવર્ક પર આધારિત સંદર્ભ અમલીકરણ કોડ અને પહેલાથી જ પ્રશિક્ષિત મોડલ્સનો સમૂહ ખુલ્લો છે, ઉપયોગ માટે તૈયાર છે. કોડ MIT લાયસન્સ હેઠળ ઓપન સોર્સ છે અને તે ઉલ્લેખનીય છે કે ffmpeg લાઇબ્રેરીનો ઉપયોગ જરૂરી છે.