Вони випустили вихідний код Whisper, автоматичної системи розпізнавання мови

Шепіт

Whisper — це система автоматичного розпізнавання мовлення

Проект нещодавно OpenAI, яка розвиває публічні проекти у сфері штучного інтелекту, опублікував новину пов'язані з системою розпізнавання голосу Шепотіть, який є а система автоматичного розпізнавання мови (ASR) навчався на 680.000 XNUMX годинах багатомовних, багатозадачних контрольованих даних, зібраних з Інтернету.

Стверджується, що для англійської мови система забезпечує рівні надійності й точності автоматичного розпізнавання, близькі до розпізнавання людиною.

Ми показуємо, що використання такого великого та різноманітного набору даних призводить до більшої стійкості до акцентів, фонового шуму та технічної мови. Крім того, він дозволяє транскрипцію різними мовами, а також переклад цих мов на англійську. Ми є моделями з відкритим вихідним кодом і кодом висновків, які служать основою для створення корисних програм і для майбутніх досліджень надійної обробки мовлення.

Про модель (як уже говорилося) навчався з використанням 680 000 годин голосових даних, зібраних із різних колекцій, що охоплюють різні мови та предметні області. Приблизно 1/3 голосових даних, задіяних у навчанні, є мовами, відмінними від англійської.

Запропонована система правильно справляється з такими ситуаціями, як акцентована вимова, наявність фонового шуму та використання технічного жаргону. Окрім транскрибування мови в текст, система також може перекладати мову з довільної мови на англійську та виявляти появу мови в аудіопотоці.

Моделі навчаються у двох представленнях: модель для англійської мови та багатомовна модель, яка підтримує іспанську, російську, італійську, німецьку, японську, українську, білоруську, китайську та інші мови. У свою чергу, кожен вид розділений на 5 варіантів, які відрізняються розміром і кількістю параметрів, охоплених у моделі.

Архітектура Whisper — це простий наскрізний підхід, реалізований як трансформатор кодера-декодера. Вхідний звук розбивається на 30-секундні фрагменти, перетворюється на спектрограму логарифму Мела, а потім передається на кодер. Декодер навчений передбачати відповідні текстові субтитри, вкраплені спеціальними маркерами, які керують унікальною моделлю для виконання таких завдань, як ідентифікація мови, мітки часу на рівні речень, багатомовна транскрипція мовлення та переклад мовлення англійською мовою.

Чим більший розмір, тим вище точність і якість розпізнавання, але також тим вищі вимоги до розміру відеопам'яті GPU і нижча продуктивність. Наприклад, мінімальний варіант включає 39 мільйонів параметрів і вимагає 1 ГБ відеопам'яті, а максимальний варіант включає 1550 мільярда параметрів і вимагає 10 ГБ відеопам'яті. Мінімальний варіант у 32 рази швидше максимального.

Система використовує архітектуру нейронної мережі «Трансформер», який включає в себе кодер і декодер, які взаємодіють один з одним. Аудіо розбивається на 30-секундні фрагменти, які перетворюються на спектрограму log-Mel і надсилаються на кодер.

Результат роботи кодувальника надходить на декодер, який передбачає текстове представлення, змішане зі спеціальними токенами, які дозволяють вирішувати такі завдання, як визначення мови, облік хронології вимови речень, транскрипція мовлення різними мовами та переклад англійською мовою в загальній моделі.

Варто зазначити, що продуктивність Whisper значно відрізняється залежно від мови, тому краще розуміння забезпечується англійською мовою, яка має чотири версії лише англійською мовою, які, як і інші моделі інших мов, мають переваги та недоліки. швидкість і точність.

В кінці кінців Якщо вам цікаво дізнатись більше про це, Ви можете перевірити оригінальну публікацію в посилання, а якщо вас цікавить вихідний код і навчені моделі, ви можете проконсультуватися з ними за адресою це посилання.

Еталонний код реалізації на основі фреймворку PyTorch і набір уже навчених моделей відкритий, готовий до використання. Код є відкритим кодом за ліцензією MIT, і варто зазначити, що використання бібліотеки ffmpeg є обов’язковим.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.