NLLB,用於直接文本翻譯的 Facebook AI

最近 Facebook揭幕 通過出版物公佈 NLLB項目 (No Language Left Behind),其目標是創造 用於翻譯的通用機器學習模型 直接從一種語言到另一種語言的文本,繞過中間翻譯成英語。

建議的模型 涵蓋 200 多種語言,包括稀有的非洲和澳大利亞語言 該項目的最終目標是為所有人提供一種交流方式,無論他們說什麼語言。

為了幫助當今的人們更好地聯繫並成為未來元宇宙的一部分,Meta AI 研究人員創建了“不讓語言落後”(NLLB),旨在為世界上大多數語言開發高質量的機器翻譯功能。.

今天,我們宣布 NLLB 的一項重大進步:我們創建了一個名為 NLLB-200. 的單一 AI 模型,它可以翻譯 200 種不同的語言並提供最先進的結果。 其中許多語言,例如 Kamba 和老撾語,即使是當今最好的翻譯工具也不支持。

關於該項目,有人提到它是 旨在使用建議的模型簡化項目的創建,用於測試和評估模型質量的應用程序代碼(FLORES-200、NLLB-MD、Toxicity-200)、基於 LASER3 庫的模型訓練代碼和編碼器(成語的不可知論軟件表示)。 最終模型提供兩個版本:完整版和精簡版。 精簡版需要的資源更少,適合在研究項目中測試和使用。

目前廣泛使用的翻譯工具支持的非洲語言不到 25 種,其中許多質量較差。 相比之下,NLLB-200 支持 55 種非洲語言,輸出質量很高。 總的來說,這種獨特的模式可以為全球數十億人使用的語言提供高質量的翻譯。 總的來說,NLLB-200 BLEU 分數在 FLORES-44 基準測試的所有 10k 方向上平均提高了 101%。 對於一些非洲和印度語言,與最近的翻譯系統相比,增幅超過 70%。

與其他機器學習翻譯系統不同, Facebook 的解決方案因為所有 200 種語言提供通用模型而脫穎而出,它涵蓋了所有語言,並且不需要為每種語言提供單獨的模型。

直接從源語言到目標語言的翻譯,無需中間翻譯成英語。 為了創建通用翻譯系統,提出了一個額外的 LID(語言識別)模型,它允許確定使用的語言。 那些。 系統可以自動識別提供信息的語言並將其翻譯成用戶的語言。

支持雙向翻譯, 在 200 種支持的語言中的任何一種之間。 為了確認任何語言之間的翻譯質量,我們準備了 FLORES-200 基準測試集,結果表明 NLLB-200 模型在翻譯質量方面平均優於 FLORES-44 系統 70%。當使用將機器翻譯與標准人工翻譯進行比較的 BLEU 指標時,提出了基於機器學習的研究。 對於稀有的非洲語言和印度方言,質量上的優勢達到XNUMX%。 您可以在專門準備的演示網站上直觀地評估翻譯質量。

對於那些對項目感興趣的人,他們應該知道 模型在知識共享 BY-NC 4.0 許可下可用,它允許複製、分發、包含在您的項目中以及創建衍生作品,但須遵守署名、許可保留和僅用於非商業目的。 該建模工具在 MIT 許可下獲得許可。 為了使用 NLLB 模型刺激發展,決定撥款 200 美元向研究人員提供獎學金。

終於 如果您有興趣了解更多信息 關於note,可以參考原帖 在下面的鏈接中。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。