Олар сөзді автоматты түрде тану жүйесінің Whisper бастапқы кодын шығарды

Шыңырау

Whisper — сөзді автоматты түрде тану жүйесі

Жоба жақында OpenAIжасанды интеллект саласындағы қоғамдық жобаларды әзірлейтін, жаңалықтар жариялады дауысты тану жүйесімен байланысты сыбырлау, бұл а автоматты түрде сөйлеуді тану жүйесі (ASR) Интернеттен жиналған 680.000 XNUMX сағат көптілді, көп тапсырмалы бақыланатын деректер бойынша оқытылды.

Ағылшын тілінде сөйлеу үшін жүйе автоматты түрде танудың сенімділігі мен адам тануға жақын дәлдік деңгейлерін қамтамасыз етеді деп мәлімделді.

Біз осындай үлкен және әртүрлі деректер жинағын пайдалану екпіндерге, фондық шуылға және техникалық тілге беріктікке әкелетінін көрсетеміз. Бұған қоса, ол бірнеше тілде транскрипциялауға, сондай-ақ сол тілдерден ағылшын тіліне аударуға мүмкіндік береді. Біз пайдалы қолданбаларды құруға және сенімді сөйлеуді өңдеу бойынша болашақ зерттеулерге негіз болатын ашық бастапқы модельдер және қорытынды кодымыз.

Модель туралы (жоғарыда айтылғандай) 680 000 сағатты пайдалана отырып оқытылды әртүрлі тілдерді және пәндік аймақтарды қамтитын әртүрлі жинақтардан жиналған дауыстық деректер. Жаттығуға қатысатын дауыстық деректердің шамамен 1/3 бөлігі ағылшын тілінен басқа тілдерде.

Ұсынылған жүйе екпінді айтылу сияқты жағдайларды дұрыс шешеді, фондық шудың болуы және техникалық жаргонның қолданылуы. Сөйлеуді мәтінге көшірумен қатар, жүйе сөзді ерікті тілден ағылшын тіліне аударып, дыбыс ағынындағы сөйлеудің көрінісін анықтай алады.

Модельдер екі нұсқада оқытылады: ағылшын тіліне арналған үлгі және испан, орыс, итальян, неміс, жапон, украин, белорус, қытай және басқа тілдерді қолдайтын көптілді үлгі. Өз кезегінде, әрбір көрініс 5 нұсқаға бөлінеді, олар өлшемде және модельде қамтылған параметрлер саны бойынша ерекшеленеді.

Whisper архитектурасы кодтаушы-декодер трансформаторы ретінде іске асырылатын қарапайым түпкілікті тәсіл болып табылады. Кіріс дыбысы 30 секундтық бөліктерге бөлінеді, log-Mel спектрограммасына түрлендіріледі, содан кейін кодтаушыға беріледі. Декодер тілді сәйкестендіру, сөйлем деңгейіндегі уақыт белгілері, көп тілді сөйлеу транскрипциясы және сөйлеуді ағылшын тіліне аудару сияқты тапсырмаларды орындауға бірегей үлгіні бағыттайтын арнайы белгілермен кесілген сәйкес мәтін субтитрін болжауға үйретілген.

Өлшем неғұрлым үлкен болса, тану дәлдігі мен сапасы соғұрлым жоғары болады, сонымен қатар GPU бейне жады өлшеміне қойылатын талаптар соғұрлым жоғары болады және өнімділік соғұрлым төмен болады. Мысалы, ең төменгі опция 39 миллион параметрді қамтиды және 1 ГБ бейне жадын қажет етеді, ал максималды опция 1550 миллиард параметрді қамтиды және 10 ГБ бейне жадысын қажет етеді. Ең төменгі нұсқа максимумнан 32 есе жылдам.

Жүйе «Трансформатор» нейрондық желі архитектурасын пайдаланады, бір-бірімен әрекеттесетін кодтауыш пен дешифраторды қамтиды. Дыбыс 30 секундтық бөліктерге бөлінеді, олар log-Mel спектрограммасына түрлендіріліп, кодтаушыға жіберіледі.

Кодер жұмысының нәтижесі дешифраторға жіберіледі, ол тілді анықтау, сөйлемдердің айтылу хронологиясын есепке алу, әртүрлі тілдердегі сөйлеу транскрипциясы және жалпы үлгідегі ағылшын тіліне аударма сияқты тапсырмаларды шешуге мүмкіндік беретін арнайы таңбалауыштармен араласқан мәтінді ұсынуды болжайды.

Айта кету керек, Whisper өнімділігі тілге байланысты айтарлықтай өзгереді, сондықтан жақсырақ түсінуді ұсынатыны ағылшын тілі болып табылады, оның тек ағылшын тілінде төрт нұсқасы бар, ол басқа тілдердің басқа үлгілері сияқты артықшылықтары мен кемшіліктерін ұсынады. жылдамдық пен дәлдік.

Finalmente Егер сіз бұл туралы көбірек білгіңіз келсе, Сіз түпнұсқалық басылымды тексере аласыз Бұл сілтеме, ал егер сізді бастапқы код пен оқытылған үлгілер қызықтырса, олардан кеңес ала аласыз бұл сілтеме

PyTorch негізіне негізделген анықтамалық іске асыру коды және бұрыннан дайындалған үлгілер жиынтығы ашық, пайдалануға дайын. Код MIT лицензиясы бойынша ашық бастапқы код болып табылады және ffmpeg кітапханасын пайдалану қажет екенін атап өткен жөн.


Мақаланың мазмұны біздің ұстанымдарымызды ұстанады редакторлық этика. Қате туралы хабарлау үшін нұқыңыз Мұнда.

Бірінші болып пікір айтыңыз

Пікіріңізді қалдырыңыз

Сіздің электрондық пошта мекен-жайы емес жарияланады. Міндетті өрістер таңбаланған *

*

*

  1. Деректерге жауапты: Мигель Анхель Гатан
  2. Деректердің мақсаты: СПАМ-ны басқару, түсініктемелерді басқару.
  3. Заңдылық: Сіздің келісіміңіз
  4. Деректер туралы ақпарат: заңды міндеттемелерді қоспағанда, деректер үшінші тұлғаларға жіберілмейді.
  5. Деректерді сақтау: Occentus Networks (ЕО) орналастырған мәліметтер базасы
  6. Құқықтар: Сіз кез-келген уақытта ақпаратты шектей, қалпына келтіре және жоя аласыз.