NLLB，一種用於直接文字翻譯的 Facebook AI

最近 Facebook揭幕 通過出版物公佈 NLLB項目 (No Language Left Behind)，其目標是創造 用於翻譯的通用機器學習模型 直接從一種語言到另一種語言的文本，繞過中間翻譯成英語。

建議的模型 涵蓋 200 多種語言，包括稀有的非洲和澳大利亞語言 該項目的最終目標是為所有人提供一種交流方式，無論他們說什麼語言。

為了幫助當今的人們更好地聯繫並成為未來元宇宙的一部分，Meta AI 研究人員創建了“不讓語言落後”（NLLB），旨在為世界上大多數語言開發高質量的機器翻譯功能。.

今天，我們宣布 NLLB 的一項重大進步：我們創建了一個名為 NLLB-200. 的單一 AI 模型，它可以翻譯 200 種不同的語言並提供最先進的結果。其中許多語言，例如 Kamba 和老撾語，即使是當今最好的翻譯工具也不支持。

關於該項目，有人提到它是 旨在使用建議的模型簡化項目的創建，用於測試和評估模型質量的應用程序代碼（FLORES-200、NLLB-MD、Toxicity-200）、基於 LASER3 庫的模型訓練代碼和編碼器（成語的不可知論軟件表示）。 最終模型提供兩個版本：完整版和精簡版。 精簡版需要的資源更少，適合在研究項目中測試和使用。

目前廣泛使用的翻譯工具支持的非洲語言不到 25 種，其中許多質量較差。相比之下，NLLB-200 支持 55 種非洲語言，輸出質量很高。總的來說，這種獨特的模式可以為全球數十億人使用的語言提供高質量的翻譯。總的來說，NLLB-200 BLEU 分數在 FLORES-44 基準測試的所有 10k 方向上平均提高了 101%。對於一些非洲和印度語言，與最近的翻譯系統相比，增幅超過 70%。

與其他機器學習翻譯系統不同， Facebook 的解決方案因為所有 200 種語言提供通用模型而脫穎而出，它涵蓋了所有語言，並且不需要為每種語言提供單獨的模型。

直接從源語言到目標語言的翻譯，無需中間翻譯成英語。 為了創建通用翻譯系統，提出了一個額外的 LID（語言識別）模型，它允許確定使用的語言。那些。系統可以自動識別提供信息的語言並將其翻譯成用戶的語言。

支持雙向翻譯, 在 200 種支持的語言中的任何一種之間。為了確認任何語言之間的翻譯質量，我們準備了 FLORES-200 基準測試集，結果表明 NLLB-200 模型在翻譯質量方面平均優於 FLORES-44 系統 70%。當使用將機器翻譯與標准人工翻譯進行比較的 BLEU 指標時，提出了基於機器學習的研究。對於稀有的非洲語言和印度方言，質量上的優勢達到XNUMX%。您可以在專門準備的演示網站上直觀地評估翻譯質量。

對於那些對項目感興趣的人，他們應該知道 模型在知識共享 BY-NC 4.0 許可下可用，它允許複製、分發、包含在您的項目中以及創建衍生作品，但須遵守署名、許可保留和僅用於非商業目的。該建模工具在 MIT 許可下獲得許可。為了使用 NLLB 模型刺激發展，決定撥款 200 美元向研究人員提供獎學金。

終於 如果您有興趣了解更多信息 關於note，可以參考原帖在下面的鏈接中。

DesdeLinux

NLLB，用於直接文本翻譯的 Facebook AI

發表您的評論取消回复

發表您的評論 取消回复

發表您的評論取消回复