NLLB, штучний інтелект Facebook для прямого перекладу тексту

Останнім часом Facebook представлений через публікацію розробок в Проект НЛЛБ (No Language Left Behind), метою якого є створення універсальна модель машинного навчання для перекладу прямий текст з однієї мови на іншу, минаючи проміжний переклад на англійську.

Пропонована модель охоплює понад 200 мов, включаючи рідкісні африканські та австралійські мови і кінцева мета проекту — забезпечити засоби спілкування для всіх людей, незалежно від мови, якою вони розмовляють.

Щоб допомогти людям краще спілкуватися сьогодні та бути частиною завтрашнього метавсесвіту, дослідники Meta AI створили No Language Left Behind (NLLB), намагаючись розробити високоякісні можливості машинного перекладу для більшості мов світу.

Сьогодні ми оголошуємо про значний прогрес у NLLB: ми створили єдину модель AI під назвою NLLB-200., яка перекладає 200 різними мовами з передовими результатами. Багато з цих мов, як-от камба та лаоська, не підтримувалися навіть найкращими інструментами перекладу, доступними сьогодні.

Про проект згадується, що є призначений для спрощення створення проектів з використанням запропонованої моделі, програмний код, що використовується для тестування та оцінки якості моделей (FLORES-200, NLLB-MD, Toxicity-200), навчальний код моделі та кодери на основі бібліотеки LASER3 (Agnostic Software Representation of the idiom). Остаточна модель пропонується в двох варіантах: повному і зменшеному. Скорочена версія потребує менше ресурсів і підходить для тестування та використання в дослідницьких проектах.

Менш ніж 25 африканських мов наразі підтримуються широко використовуваними інструментами перекладу, багато з яких мають низьку якість. Навпаки, NLLB-200 підтримує 55 африканських мов з високою якістю виведення. Загалом ця унікальна модель може забезпечити високоякісний переклад для мов, якими розмовляють мільярди людей у ​​всьому світі. Загалом показники NLLB-200 BLEU покращуються порівняно з попереднім рівнем техніки в середньому на 44 відсотки за всіма 10 тисячами напрямків тесту FLORES-101. Для деяких африканських та індійських мов збільшення перевищує 70 відсотків порівняно з останніми системами перекладу.

На відміну від інших систем перекладу машинного навчання, Рішення Facebook виділяється тим, що пропонує спільну модель для всіх 200 мов, який охоплює всі мови та не вимагає окремих моделей для кожної мови.

Переклад здійснюється безпосередньо з мови оригіналу на мову перекладу, без проміжного перекладу на англійську. Для створення універсальних систем перекладу запропоновано додаткову модель LID (Language IDentification), яка дозволяє визначити мову, що використовується. Ті. система може автоматично розпізнавати мову, якою надається інформація, і перекладати її на мову користувача.

Переклад підтримується в будь-якому напрямкуміж будь-якою з 200 підтримуваних мов. Для підтвердження якості перекладу між будь-якими мовами був підготовлений тест FLORES-200, який показав, що модель NLLB-200 за якістю перекладу в середньому на 44% перевершує системи FLORES-70. запропоноване дослідження на основі машинного навчання з використанням метрик BLEU, які порівнюють машинний переклад зі стандартним людським перекладом. Для рідкісних африканських мов і індійських діалектів перевага в якості досягає XNUMX%. Візуально оцінити якість перекладу можна на спеціально підготовленому демо-сайті.

Для тих, хто зацікавлений у проекті, вони повинні знати, що Модель доступна за ліцензією Creative Commons BY-NC 4.0, яка дозволяє копіювання, розповсюдження, включення у ваші проекти та створення похідних робіт, але за умови вказівки авторства, збереження ліцензії та використання лише в некомерційних цілях. Інструмент моделювання ліцензовано згідно з ліцензією MIT. Для стимулювання розвитку за моделлю NLLB було вирішено виділити 200 тис. доларів США на стипендії дослідникам.

В кінці кінців якщо вам цікаво дізнатись більше про це щодо примітки, ви можете звернутися до вихідного допису У наступному посиланні.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.