NLLB, искусственный интеллект Facebook для прямого перевода текста

Недавно Представлен Facebook через публикацию о разработках проект НЛЛБ (No Language Left Behind), целью которого является создание универсальная модель машинного обучения для перевода прямой текст с одного языка на другой, минуя промежуточный перевод на английский язык.

Предлагаемая модель охватывает более 200 языков, включая редкие африканские и австралийские языки. и конечной целью проекта является предоставление средства общения для всех людей, независимо от того, на каком языке они говорят.

Чтобы помочь людям лучше общаться сегодня и стать частью метавселенной завтрашнего дня, исследователи Meta AI создали No Language Left Behind (NLLB), стремясь разработать высококачественные возможности машинного перевода для большинства языков мира.

Сегодня мы объявляем о крупном продвижении в NLLB: мы создали единую модель ИИ под названием NLLB-200., которая переводит 200 различных языков с передовыми результатами. Многие из этих языков, такие как камба и лаосский, не поддерживались даже лучшими инструментами перевода, доступными сегодня.

О проекте упоминается, что он предназначен для упрощения создания проектов с использованием предложенной модели, код приложения, используемый для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код обучения модели и кодировщики на основе библиотеки LASER3 (Agnostic Software Representation of the idiom). Итоговая модель предлагается в двух вариантах: полном и уменьшенном. Уменьшенная версия требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах.

Менее 25 африканских языков в настоящее время поддерживаются широко используемыми инструментами перевода, многие из которых имеют низкое качество. Напротив, NLLB-200 поддерживает 55 африканских языков с высоким качеством вывода. В совокупности эта уникальная модель может обеспечить качественный перевод на языки, на которых говорят миллиарды людей по всему миру. В целом показатели NLLB-200 BLEU улучшаются по сравнению с предыдущим уровнем техники в среднем на 44% по всем 10 101 направлениям теста FLORES-70. Для некоторых африканских и индийских языков увеличение составляет более XNUMX процентов по сравнению с последними системами перевода.

В отличие от других систем перевода с машинным обучением, Решение Facebook отличается тем, что предлагает общую модель для всех 200 языков., который охватывает все языки и не требует отдельных моделей для каждого языка.

Перевод осуществляется непосредственно с исходного языка на целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода предлагается дополнительная модель LID (Language IDentification), позволяющая определять используемый язык. Те. система может автоматически распознавать язык, на котором предоставляется информация, и переводить ее на язык пользователя.

Перевод поддерживается в любом направлении, между любым из 200 поддерживаемых языков. Для подтверждения качества перевода между любыми языками был подготовлен набор эталонных тестов FLORES-200, который показал, что модель NLLB-200 по качеству перевода в среднем на 44% превосходит системы FLORES-70. предложил исследование, основанное на машинном обучении с использованием метрик BLEU, которые сравнивают машинный перевод со стандартным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство по качеству достигает XNUMX%. Наглядно оценить качество перевода можно на специально подготовленном демо-сайте.

Для тех, кто заинтересован в проекте, они должны знать, что модель доступна по лицензии Creative Commons BY-NC 4.0, который разрешает копирование, распространение, включение в ваши проекты и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только в некоммерческих целях. Инструмент моделирования находится под лицензией MIT. Для стимулирования развития по модели NLLB было решено выделить $200 XNUMX на предоставление стипендий исследователям.

В конце концов если вам интересно узнать об этом больше о заметке вы можете проверить исходный пост По следующей ссылке.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.