તેઓએ વ્હિસ્પરનો સોર્સ કોડ બહાર પાડ્યો, જે ઓટોમેટિક સ્પીચ રેકગ્નિશન સિસ્ટમ છે

વ્હીસ્પર

વ્હીસ્પર એ ઓટોમેટિક સ્પીચ રેકગ્નિશન સિસ્ટમ છે

પ્રોજેક્ટ તાજેતરમાં OpenAI, જે કૃત્રિમ બુદ્ધિના ક્ષેત્રમાં જાહેર પ્રોજેક્ટ્સ વિકસાવે છે, સમાચાર પ્રકાશિત કર્યા છે વૉઇસ રેકગ્નિશન સિસ્ટમથી સંબંધિત બબડાટ જે એ ઓટોમેટિક સ્પીચ રેકગ્નિશન સિસ્ટમ (ASR) 680.000 કલાકના બહુભાષી, મલ્ટિટાસ્કિંગ નિરીક્ષિત ડેટા પર તાલીમ આપવામાં આવી છે.

એવો દાવો કરવામાં આવે છે કે અંગ્રેજી ભાષણ માટે, સિસ્ટમ માનવ ઓળખની નજીક સ્વચાલિત માન્યતા વિશ્વસનીયતા અને ચોકસાઈના સ્તરો પ્રદાન કરે છે.

અમે બતાવીએ છીએ કે આવા મોટા અને વૈવિધ્યસભર ડેટાસેટનો ઉપયોગ ઉચ્ચારો, પૃષ્ઠભૂમિ અવાજ અને તકનીકી ભાષામાં વધુ મજબૂતી તરફ દોરી જાય છે. આ ઉપરાંત, તે વિવિધ ભાષાઓમાં ટ્રાન્સક્રિપ્શન તેમજ તે ભાષાઓના અંગ્રેજીમાં અનુવાદની મંજૂરી આપે છે. અમે ઓપન સોર્સ મૉડલ અને અનુમાન કોડ છીએ જે ઉપયોગી એપ્લિકેશનો બનાવવા અને મજબૂત વાણી પ્રક્રિયા પર ભાવિ સંશોધન માટે પાયા તરીકે કામ કરે છે.

મોડેલ વિશે (પહેલાથી જ ઉલ્લેખ કર્યો છે) 680 કલાકનો ઉપયોગ કરીને પ્રશિક્ષિત વિવિધ ભાષાઓ અને વિષય વિસ્તારોને આવરી લેતા વિવિધ સંગ્રહોમાંથી એકત્રિત કરવામાં આવેલ વૉઇસ ડેટાનો. તાલીમમાં સામેલ લગભગ 1/3 વૉઇસ ડેટા અંગ્રેજી સિવાયની ભાષાઓમાં છે.

સૂચિત સિસ્ટમ ઉચ્ચારણ ઉચ્ચાર જેવી પરિસ્થિતિઓને યોગ્ય રીતે સંભાળે છે, પૃષ્ઠભૂમિ અવાજની હાજરી અને તકનીકી કલકલનો ઉપયોગ. વાણીને ટેક્સ્ટમાં ટ્રાન્સક્રાઈબ કરવા ઉપરાંત, સિસ્ટમ વાણીને મનસ્વી ભાષામાંથી અંગ્રેજીમાં અનુવાદિત કરી શકે છે અને ઑડિઓ સ્ટ્રીમમાં ભાષણનો દેખાવ શોધી શકે છે.

મોડેલોને બે રજૂઆતોમાં તાલીમ આપવામાં આવે છે: અંગ્રેજી ભાષા માટેનું એક મોડેલ અને એક બહુભાષી મોડેલ જે સ્પેનિશ, રશિયન, ઇટાલિયન, જર્મન, જાપાનીઝ, યુક્રેનિયન, બેલારુસિયન, ચાઇનીઝ અને અન્ય ભાષાઓને સમર્થન આપે છે. બદલામાં, દરેક દૃશ્યને 5 વિકલ્પોમાં વિભાજિત કરવામાં આવે છે, જે કદ અને મોડેલમાં આવરી લેવામાં આવેલા પરિમાણોની સંખ્યામાં અલગ પડે છે.

વ્હીસ્પર આર્કિટેક્ચર એ એક સરળ એન્ડ-ટુ-એન્ડ અભિગમ છે, જે એન્કોડર-ડીકોડર ટ્રાન્સફોર્મર તરીકે અમલમાં મૂકવામાં આવે છે. ઇનપુટ ઓડિયો 30-સેકન્ડના હિસ્સામાં વિભાજિત થાય છે, લોગ-મેલ સ્પેક્ટ્રોગ્રામમાં રૂપાંતરિત થાય છે અને પછી એન્કોડરમાં પસાર થાય છે. ડીકોડરને અનુરૂપ ટેક્સ્ટ સબટાઈટલની આગાહી કરવા માટે પ્રશિક્ષિત કરવામાં આવે છે, જે વિશિષ્ટ ટોકન્સ સાથે જોડાયેલા હોય છે જે અનન્ય મોડેલને ભાષા ઓળખ, વાક્ય-સ્તરના ટાઇમસ્ટેમ્પ્સ, બહુભાષી ભાષણ ટ્રાન્સક્રિપ્શન અને અંગ્રેજીમાં ભાષણ અનુવાદ જેવા કાર્યો કરવા માટે નિર્દેશિત કરે છે.

કદ જેટલું મોટું, ઓળખની સચોટતા અને ગુણવત્તા જેટલી વધારે છે, પરંતુ GPU વિડિયો મેમરી કદ માટેની આવશ્યકતાઓ પણ તેટલી ઊંચી અને પ્રદર્શન ઓછું. ઉદાહરણ તરીકે, ન્યૂનતમ વિકલ્પમાં 39 મિલિયન પેરામીટર્સ શામેલ છે અને તેને 1 GB વિડિયો મેમરીની જરૂર છે, જ્યારે મહત્તમ વિકલ્પમાં 1550 બિલિયન પેરામીટર્સનો સમાવેશ થાય છે અને તેને 10 GB વિડિયો મેમરીની જરૂર છે. ન્યૂનતમ વેરિઅન્ટ મહત્તમ કરતાં 32 ગણો ઝડપી છે.

સિસ્ટમ "ટ્રાન્સફોર્મર" ન્યુરલ નેટવર્ક આર્કિટેક્ચરનો ઉપયોગ કરે છે, જેમાં એન્કોડર અને ડીકોડરનો સમાવેશ થાય છે જે એકબીજા સાથે ક્રિયાપ્રતિક્રિયા કરે છે. ઓડિયોને 30-સેકન્ડના હિસ્સામાં વિભાજિત કરવામાં આવે છે, જે લોગ-મેલ સ્પેક્ટ્રોગ્રામમાં રૂપાંતરિત થાય છે અને એન્કોડરમાં મોકલવામાં આવે છે.

એન્કોડરના કાર્યનું પરિણામ ડીકોડરને મોકલવામાં આવે છે, જે વિશિષ્ટ ટોકન્સ સાથે મિશ્રિત ટેક્સ્ટ રજૂઆતની આગાહી કરે છે જે ભાષા શોધ, વાક્ય ઉચ્ચારણ કાલક્રમ એકાઉન્ટિંગ, વિવિધ ભાષાઓમાં ભાષણ ટ્રાન્સક્રિપ્શન અને સામાન્ય મોડેલમાં અંગ્રેજી અનુવાદ જેવા કાર્યોને હલ કરવાની મંજૂરી આપે છે.

એ ઉલ્લેખનીય છે કે વ્હિસ્પરનું પ્રદર્શન ભાષાના આધારે મોટા પ્રમાણમાં બદલાય છે, તેથી જે વધુ સારી સમજણ રજૂ કરે છે તે અંગ્રેજી છે, જેનાં ચાર સંસ્કરણો માત્ર અંગ્રેજીમાં છે, જે અન્ય ભાષાઓના અન્ય મોડલની જેમ, તેના ફાયદા અને ગેરફાયદા પ્રદાન કરે છે. ઝડપ અને ચોકસાઈ.

છેલ્લે જો તમને તેના વિશે વધુ જાણવામાં રસ છે, તમે મૂળ પ્રકાશનમાં તપાસ કરી શકો છો આ લિંક, જ્યારે તમને સ્ત્રોત કોડ અને પ્રશિક્ષિત મોડલ્સમાં રસ હોય તો તમે તેમની સાથે સંપર્ક કરી શકો છો આ લિંક

PyTorch ફ્રેમવર્ક પર આધારિત સંદર્ભ અમલીકરણ કોડ અને પહેલાથી જ પ્રશિક્ષિત મોડલ્સનો સમૂહ ખુલ્લો છે, ઉપયોગ માટે તૈયાર છે. કોડ MIT લાયસન્સ હેઠળ ઓપન સોર્સ છે અને તે ઉલ્લેખનીય છે કે ffmpeg લાઇબ્રેરીનો ઉપયોગ જરૂરી છે.


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: મિગ્યુએલ gelંજેલ ગેટóન
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.