Те пуснаха изходния код на Whisper, система за автоматично разпознаване на реч

Шепот

Whisper е система за автоматично разпознаване на реч

Проектът наскоро OpenAI, която разработва публични проекти в областта на изкуствения интелект, е публикувал новини свързани със системата за гласово разпознаване шепот, което е а система за автоматично разпознаване на реч (ASR) обучени на 680.000 XNUMX часа многоезични, многозадачни контролирани данни, събрани от мрежата.

Твърди се, че за английска реч системата осигурява нива на надеждност и точност на автоматично разпознаване, близки до човешкото разпознаване.

Ние показваме, че използването на такъв голям и разнообразен набор от данни води до по-голяма устойчивост на акценти, фонов шум и технически език. Освен това позволява транскрипция на различни езици, както и превод на тези езици на английски. Ние сме модели с отворен код и код за изводи, които служат като основа за изграждане на полезни приложения и за бъдещи изследвания на стабилна обработка на реч.

За модела (както вече споменахме) обучен с помощта на 680 000 часа на гласови данни, събрани от различни колекции, обхващащи различни езици и предметни области. Около 1/3 от гласовите данни, включени в обучението, са на езици, различни от английски.

Предложената система правилно се справя със ситуации като произношение с акцент, наличието на фонов шум и използването на технически жаргон. В допълнение към транскрибирането на реч в текст, системата може също така да превежда реч от произволен език на английски и да разпознава появата на реч в аудио потока.

Моделите се обучават в две представяния: модел за английски език и многоезичен модел, който поддържа испански, руски, италиански, немски, японски, украински, беларуски, китайски и други езици. От своя страна, всеки изглед е разделен на 5 опции, които се различават по размер и брой параметри, обхванати в модела.

Архитектурата Whisper е прост подход от край до край, реализиран като трансформатор на енкодер-декодер. Входният звук се разделя на 30-секундни части, преобразува се в спектрограма на log-Mel и след това се предава на енкодер. Декодерът е обучен да предсказва съответния текстов субтитър, разпръснат със специални токени, които насочват уникалния модел към изпълнение на задачи като езикова идентификация, времеви отпечатъци на ниво изречение, транскрипция на многоезична реч и превод на реч на английски.

Колкото по-голям е размерът, толкова по-висока е точността и качеството на разпознаване, но също така толкова по-високи са изискванията за размера на видеопаметта на GPU и толкова по-ниска е производителността. Например минималната опция включва 39 милиона параметъра и изисква 1 GB видео памет, докато максималната опция включва 1550 милиарда параметри и изисква 10 GB видео памет. Минималният вариант е 32 пъти по-бърз от максималния.

Системата използва архитектурата на невронната мрежа "Transformer", който включва енкодер и декодер, които взаимодействат един с друг. Аудиото се разделя на 30-секундни части, които се преобразуват в log-Mel спектрограма и се изпращат към енкодера.

Резултатът от работата на енкодера се изпраща на декодера, който предвижда текстово представяне, смесено със специални токени, които позволяват решаването на задачи като откриване на език, отчитане на хронологията на произношението на изреченията, транскрипция на реч на различни езици и превод на английски в общ модел.

Струва си да се спомене, че производителността на Whisper варира значително в зависимост от езика, така че този, който представя по-добро разбиране, е английският, който има четири версии само на английски, които, подобно на другите модели на други езици, предлагат предимства и недостатъци на бързина и точност.

Накрая Ако се интересувате да научите повече за това, можете да проверите оригиналната публикация в тази връзка, а ако се интересувате от изходния код и обучените модели, можете да се консултирате с тях на тази връзка

Референтният код за внедряване, базиран на рамката на PyTorch и набор от вече обучени модели, са отворени, готови за използване. Кодът е с отворен код под лиценза на MIT и си струва да се спомене, че е необходимо използването на библиотеката ffmpeg.


Бъдете първите, които коментират

Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.