NLLB, một AI của Facebook để dịch văn bản trực tiếp

Gần đây Facebook tiết lộ thông qua một ấn phẩm, sự phát triển của Dự án NLLB (Không có ngôn ngữ nào bị bỏ lại phía sau), có mục tiêu là tạo ra một mô hình máy học phổ quát để dịch chuyển trực tiếp văn bản từ ngôn ngữ này sang ngôn ngữ khác, bỏ qua bản dịch trung gian sang tiếng Anh.

Mô hình đề xuất bao gồm hơn 200 ngôn ngữ, bao gồm cả các ngôn ngữ hiếm của châu Phi và châu Úc và mục tiêu cuối cùng của dự án là cung cấp một phương tiện giao tiếp cho tất cả mọi người, bất kể họ nói ngôn ngữ nào.

Để giúp mọi người kết nối tốt hơn hôm nay và trở thành một phần của metaverse của ngày mai, các nhà nghiên cứu Meta AI đã tạo ra No Language Left Behind (NLLB), một nỗ lực nhằm phát triển khả năng dịch máy chất lượng cao cho hầu hết các ngôn ngữ trên thế giới.

Hôm nay, chúng tôi công bố một tiến bộ lớn trong NLLB: chúng tôi đã tạo ra một mô hình AI duy nhất có tên là NLLB-200., Có thể dịch 200 ngôn ngữ khác nhau với kết quả tiên tiến. Nhiều ngôn ngữ trong số này, chẳng hạn như tiếng Kamba và tiếng Lào, thậm chí không được hỗ trợ bởi các công cụ dịch thuật tốt nhất hiện nay.

Về dự án nó được đề cập rằng nó là nhằm đơn giản hóa việc tạo các dự án bằng cách sử dụng mô hình đề xuất, mã ứng dụng dùng để kiểm tra và đánh giá chất lượng của các mô hình (FLORES-200, NLLB-MD, Toxicity-200), mã đào tạo mô hình và các bộ mã hóa dựa trên thư viện LASER3 (Đại diện phần mềm bất khả tri của thành ngữ). Mô hình cuối cùng được cung cấp trong hai phiên bản: đầy đủ và giảm. Phiên bản rút gọn yêu cầu ít tài nguyên hơn và phù hợp để thử nghiệm và sử dụng trong các dự án nghiên cứu.

Ít hơn 25 ngôn ngữ châu Phi hiện được hỗ trợ bởi các công cụ dịch thuật được sử dụng rộng rãi, nhiều trong số đó có chất lượng kém. Ngược lại, NLLB-200 hỗ trợ 55 ngôn ngữ Châu Phi với đầu ra chất lượng cao. Tổng cộng, mô hình độc đáo này có thể cung cấp bản dịch chất lượng cao cho các ngôn ngữ được hàng tỷ người trên thế giới sử dụng. Tổng cộng, điểm số NLLB-200 BLEU cải thiện tình trạng kỹ thuật trước đó trung bình 44 phần trăm ở tất cả 10k hướng của điểm chuẩn FLORES-101. Đối với một số ngôn ngữ Châu Phi và Ấn Độ, mức tăng hơn 70% so với các hệ thống dịch thuật gần đây.

Không giống như các hệ thống dịch máy học khác, Giải pháp của Facebook nổi bật với việc cung cấp một mô hình chung cho tất cả 200 ngôn ngữ, bao gồm tất cả các ngôn ngữ và không yêu cầu các mô hình riêng biệt cho từng ngôn ngữ.

Bản dịch được thực hiện trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích mà không cần dịch trung gian sang tiếng Anh. Để tạo ra các hệ thống dịch phổ quát, một mô hình LID (Language IDentification) bổ sung được đề xuất, cho phép xác định ngôn ngữ được sử dụng. Những thứ kia. hệ thống có thể tự động nhận dạng ngôn ngữ mà thông tin được cung cấp và dịch nó sang ngôn ngữ của người dùng.

Dịch được hỗ trợ theo một trong hai hướng, giữa bất kỳ ngôn ngữ nào trong số 200 ngôn ngữ được hỗ trợ. Để xác nhận chất lượng của bản dịch giữa bất kỳ ngôn ngữ nào, bộ thử nghiệm điểm chuẩn FLORES-200 đã được chuẩn bị, cho thấy rằng mô hình NLLB-200, về chất lượng dịch, trung bình vượt trội hơn 44% so với các hệ thống FLORES-70 trước đây. nghiên cứu được đề xuất dựa trên học máy khi sử dụng các số liệu BLEU so sánh bản dịch máy với bản dịch tiêu chuẩn của con người. Đối với các ngôn ngữ hiếm của châu Phi và thổ ngữ Ấn Độ, sự vượt trội về chất lượng đạt XNUMX%. Bạn có thể đánh giá trực quan chất lượng bản dịch trên một trang demo được chuẩn bị đặc biệt.

Đối với những người quan tâm đến dự án, họ nên biết rằng mô hình có sẵn theo giấy phép Creative Commons BY-NC 4.0, cho phép sao chép, phân phối, đưa vào các dự án của bạn và tạo ra các tác phẩm phái sinh, nhưng chỉ tùy thuộc vào ghi nhận tác giả, lưu giữ giấy phép và chỉ sử dụng cho các mục đích phi thương mại. Công cụ mô hình hóa được cấp phép theo giấy phép MIT. Để kích thích sự phát triển bằng cách sử dụng mô hình NLLB, nó đã được quyết định phân bổ 200 đô la để cấp học bổng cho các nhà nghiên cứu.

Cuối cùng nếu bạn muốn biết thêm về nó về lưu ý, bạn có thể tham khảo bài gốc Trong liên kết sau đây.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.