เมื่อเร็ว ๆ นี้ เปิดตัว Facebook ผ่านการตีพิมพ์การพัฒนาของ โครงการ NLLB (ไม่มีภาษาทิ้งไว้ข้างหลัง) ซึ่งมีวัตถุประสงค์เพื่อสร้าง โมเดลแมชชีนเลิร์นนิงสากลสำหรับการแปล ข้อความตรงจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง โดยข้ามการแปลขั้นกลางเป็นภาษาอังกฤษ
แบบที่เสนอ ครอบคลุมมากกว่า 200 ภาษา รวมถึงภาษาแอฟริกันและออสเตรเลียที่หายาก และเป้าหมายสูงสุดของโครงการคือการจัดหาวิธีการสื่อสารสำหรับทุกคน โดยไม่คำนึงถึงภาษาที่พวกเขาพูด
เพื่อช่วยให้ผู้คนเชื่อมต่อกันได้ดีขึ้นในวันนี้และเป็นส่วนหนึ่งของ metaverse ของวันพรุ่งนี้ นักวิจัย Meta AI ได้สร้าง No Language Left Behind (NLLB) ซึ่งเป็นความพยายามในการพัฒนาความสามารถในการแปลภาษาด้วยเครื่องคุณภาพสูงสำหรับภาษาส่วนใหญ่ของโลก
วันนี้ เรากำลังประกาศความก้าวหน้าครั้งสำคัญใน NLLB: เราได้สร้างแบบจำลอง AI เดียวที่เรียกว่า NLLB-200 ซึ่งแปลได้ 200 ภาษาด้วยผลลัพธ์ที่ล้ำสมัย ภาษาเหล่านี้หลายภาษา เช่น Kamba และ Lao ไม่ได้รับการสนับสนุนโดยเครื่องมือแปลภาษาที่ดีที่สุดในปัจจุบัน
เกี่ยวกับโครงการที่ว่ากันว่าคือ มีวัตถุประสงค์เพื่อลดความซับซ้อนของการสร้างโครงการโดยใช้แบบจำลองที่เสนอ, รหัสแอปพลิเคชันที่ใช้ในการทดสอบและประเมินคุณภาพของแบบจำลอง (FLORES-200, NLLB-MD, Toxicity-200) รหัสการฝึกแบบจำลองและตัวเข้ารหัสตามไลบรารี LASER3 (ตัวแทนซอฟต์แวร์ไม่เชื่อเรื่องพระเจ้า) รุ่นสุดท้ายมีให้เลือกสองรุ่น: เต็มและลดลง เวอร์ชันลดขนาดต้องการทรัพยากรน้อยลง และเหมาะสำหรับการทดสอบและใช้งานในโครงการวิจัย
ปัจจุบันมีเครื่องมือแปลภาษาที่ใช้กันอย่างแพร่หลายสนับสนุนภาษาแอฟริกาน้อยกว่า 25 ภาษา ซึ่งส่วนใหญ่มีคุณภาพต่ำ ในทางตรงกันข้าม NLLB-200 รองรับภาษาแอฟริกัน 55 ภาษาพร้อมเอาต์พุตคุณภาพสูง โดยรวมแล้ว โมเดลที่ไม่เหมือนใครนี้สามารถให้การแปลคุณภาพสูงสำหรับภาษาที่พูดโดยผู้คนหลายพันล้านคนทั่วโลก โดยรวมแล้ว คะแนน NLLB-200 BLEU ปรับปรุงจากความทันสมัยก่อนหน้านี้โดยเฉลี่ย 44 เปอร์เซ็นต์ในทุกทิศทาง 10k ของเกณฑ์มาตรฐาน FLORES-101 สำหรับภาษาแอฟริกันและอินเดียบางภาษา การเพิ่มขึ้นมากกว่า 70 เปอร์เซ็นต์จากระบบการแปลล่าสุด
ต่างจากระบบแปลภาษาแมชชีนเลิร์นนิงอื่นๆ โซลูชันของ Facebook โดดเด่นด้วยการนำเสนอโมเดลทั่วไปสำหรับภาษาทั้งหมด 200 ภาษาซึ่งครอบคลุมทุกภาษาและไม่ต้องการรุ่นแยกต่างหากสำหรับแต่ละภาษา
การแปลจะทำโดยตรงจากภาษาต้นฉบับเป็นภาษาเป้าหมาย โดยไม่มีการแปลเป็นภาษาอังกฤษขั้นกลาง ในการสร้างระบบการแปลสากล จะมีการเสนอแบบจำลอง LID (Language IDentification) เพิ่มเติม ซึ่งช่วยให้สามารถกำหนดภาษาที่ใช้ได้ เหล่านั้น. ระบบสามารถจดจำภาษาที่ให้ข้อมูลและแปลเป็นภาษาของผู้ใช้ได้โดยอัตโนมัติ
รองรับการแปลในทิศทางใดทิศทางหนึ่งระหว่างภาษาใดก็ได้จาก 200 ภาษาที่รองรับ เพื่อยืนยันคุณภาพของการแปลระหว่างภาษาใดๆ ได้มีการเตรียมชุดทดสอบเกณฑ์มาตรฐาน FLORES-200 ซึ่งแสดงให้เห็นว่าแบบจำลอง NLLB-200 ในแง่ของคุณภาพการแปลนั้นดีกว่าระบบ FLORES-44 โดยเฉลี่ย 70% ก่อนหน้านี้ เสนองานวิจัยโดยอาศัยการเรียนรู้ของเครื่องเมื่อใช้เมตริก BLEU ที่เปรียบเทียบการแปลด้วยคอมพิวเตอร์กับการแปลโดยมนุษย์มาตรฐาน สำหรับภาษาแอฟริกันที่หายากและภาษาถิ่นของอินเดียคุณภาพที่เหนือกว่าถึง XNUMX% คุณสามารถประเมินคุณภาพการแปลด้วยสายตาได้จากเว็บไซต์สาธิตที่เตรียมไว้เป็นพิเศษ
สำหรับผู้ที่สนใจโครงการควรทราบว่า รุ่นนี้มีให้ใช้งานภายใต้ใบอนุญาต Creative Commons BY-NC 4.0ซึ่งอนุญาตให้คัดลอก แจกจ่าย รวมอยู่ในโครงการของคุณ และการสร้างงานลอกเลียนแบบ แต่ขึ้นอยู่กับการแสดงที่มา การเก็บรักษาใบอนุญาต และใช้เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น เครื่องมือสร้างแบบจำลองได้รับอนุญาตภายใต้ใบอนุญาต MIT เพื่อกระตุ้นการพัฒนาโดยใช้แบบจำลอง NLLB จึงมีการตัดสินใจจัดสรร $200 เพื่อมอบทุนการศึกษาแก่นักวิจัย
ในที่สุด หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติม เกี่ยวกับบันทึกคุณสามารถอ้างถึงโพสต์ต้นฉบับ ในลิงค์ต่อไปนี้.