Они выпустили исходный код Whisper, системы автоматического распознавания речи.

Whisper

Whisper — система автоматического распознавания речи.

Недавно проект OpenAI, которая развивает общественные проекты в области искусственного интеллекта, опубликовал новости связанные с системой распознавания голоса Whisper, который является система автоматического распознавания речи (АСР) обучен на 680.000 XNUMX часов многоязычных, многозадачных контролируемых данных, собранных из Интернета.

Утверждается, что для английской речи система обеспечивает уровни надежности и точности автоматического распознавания, близкие к человеческому распознаванию.

Мы показываем, что использование такого большого и разнообразного набора данных приводит к большей устойчивости к акцентам, фоновому шуму и техническому языку. Кроме того, он позволяет транскрипцию на разных языках, а также перевод этих языков на английский. Мы представляем модели с открытым исходным кодом и код логического вывода, которые служат основой для создания полезных приложений и будущих исследований в области надежной обработки речи.

О модели (как уже было сказано) обучение с использованием 680 000 часов голосовых данных, собранных из различных коллекций, охватывающих разные языки и предметные области. Около 1/3 голосовых данных, задействованных в обучении, находится на языках, отличных от английского.

Предлагаемая система правильно обрабатывает такие ситуации, как акцентированное произношение, наличие фонового шума и использование технического жаргона. Помимо транскрипции речи в текст, система также может переводить речь с произвольного языка на английский и обнаруживать появление речи в аудиопотоке.

Модели обучаются в двух представлениях: модель для английского языка и мультиязычная модель, поддерживающая испанский, русский, итальянский, немецкий, японский, украинский, белорусский, китайский и другие языки. В свою очередь, каждое представление разделено на 5 вариантов, которые отличаются размером и количеством параметров, охватываемых моделью.

Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде преобразователя кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуется в логарифмическую спектрограмму Мела и затем передается кодировщику. Декодер обучен предсказывать соответствующий текстовый подзаголовок, перемежающийся специальными токенами, которые направляют уникальную модель для выполнения таких задач, как идентификация языка, временные метки на уровне предложений, транскрипция многоязычной речи и перевод речи на английский язык.

Чем больше размер, тем выше точность и качество распознавания, но также выше требования к объему видеопамяти GPU и ниже производительность. Например, минимальный вариант включает 39 миллионов параметров и требует 1 ГБ видеопамяти, а максимальный вариант включает 1550 миллиарда параметров и требует 10 ГБ видеопамяти. Минимальный вариант в 32 раза быстрее максимального.

В системе используется нейросетевая архитектура «Трансформер», который включает в себя кодировщик и декодер, которые взаимодействуют друг с другом. Аудио разбивается на 30-секундные фрагменты, которые преобразуются в спектрограмму log-Mel и отправляются в кодировщик.

Результат работы энкодера отправляется на декодер, который предсказывает текстовое представление, смешанное со специальными токенами, позволяющими решать такие задачи, как определение языка, учет хронологии произношения предложений, транскрипция речи на разных языках и перевод на английский язык в общей модели.

Стоит отметить, что производительность Whisper сильно различается в зависимости от языка, поэтому лучше всего понимается английский язык, который имеет четыре версии только на английском языке, которые, как и другие модели других языков, предлагают преимущества и недостатки скорость и точность.

В конце концов Если вам интересно узнать об этом больше, вы можете проверить оригинальную публикацию в ссылку, а если вас интересует исходный код и обученные модели, вы можете проконсультироваться с ними по адресу эту ссылку.

Код эталонной реализации на основе фреймворка PyTorch и набор уже обученных моделей открыты и готовы к использованию. Код с открытым исходным кодом под лицензией MIT, и стоит упомянуть, что требуется использование библиотеки ffmpeg.


Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.