NLLB, সরাসরি পাঠ্য অনুবাদের জন্য একটি Facebook AI

সম্প্রতি ফেসবুক উন্মোচন একটি প্রকাশনার মাধ্যমে এর উন্নয়ন এনএলএলবি প্রকল্প (No Language Left Behind), যার উদ্দেশ্য তৈরি করা অনুবাদের জন্য একটি সর্বজনীন মেশিন লার্নিং মডেল ইংরেজিতে মধ্যবর্তী অনুবাদকে বাইপাস করে এক ভাষা থেকে অন্য ভাষাতে সরাসরি পাঠ্য।

প্রস্তাবিত মডেল বিরল আফ্রিকান এবং অস্ট্রেলিয়ান ভাষা সহ 200 টিরও বেশি ভাষা কভার করে এবং প্রকল্পের চূড়ান্ত লক্ষ্য হল সকল মানুষের জন্য যোগাযোগের একটি মাধ্যম প্রদান করা, তারা যে ভাষায় কথা বলুক না কেন।

মানুষকে আজকে আরও ভালোভাবে সংযোগ করতে এবং আগামীকালের মেটাভার্সের অংশ হতে সাহায্য করার জন্য, মেটা এআই গবেষকরা নো ল্যাঙ্গুয়েজ লেফট বিহাইন্ড (NLLB) তৈরি করেছেন, যা বিশ্বের বেশিরভাগ ভাষার জন্য উচ্চ-মানের মেশিন অনুবাদ ক্ষমতা বিকাশের প্রচেষ্টা।

আজ আমরা NLLB-তে একটি বড় অগ্রগতি ঘোষণা করছি: আমরা NLLB-200 নামে একটি একক AI মডেল তৈরি করেছি, যা 200টি ভিন্ন ভাষাকে অত্যাধুনিক ফলাফল সহ অনুবাদ করে। এই ভাষাগুলির মধ্যে অনেকগুলি, যেমন কাম্বা এবং লাও, আজ উপলব্ধ সেরা অনুবাদ টুল দ্বারা সমর্থিত ছিল না।

প্রকল্পটি সম্পর্কে বলা হয়েছে যে এটি প্রস্তাবিত মডেল ব্যবহার করে প্রকল্প নির্মাণ সহজ করার উদ্দেশ্যে, মডেলের গুণমান পরীক্ষা এবং মূল্যায়ন করতে ব্যবহৃত অ্যাপ্লিকেশন কোড (FLORES-200, NLLB-MD, Toxicity-200), মডেল ট্রেনিং কোড এবং LASER3 লাইব্রেরির উপর ভিত্তি করে এনকোডার (বাক্যের অজ্ঞেয় সফ্টওয়্যার প্রতিনিধিত্ব)। চূড়ান্ত মডেল দুটি সংস্করণে দেওয়া হয়: সম্পূর্ণ এবং হ্রাস। সংক্ষিপ্ত সংস্করণের জন্য কম সংস্থান প্রয়োজন এবং এটি গবেষণা প্রকল্পে পরীক্ষা ও ব্যবহারের জন্য উপযুক্ত।

25 টিরও কম আফ্রিকান ভাষা বর্তমানে ব্যাপকভাবে ব্যবহৃত অনুবাদ সরঞ্জাম দ্বারা সমর্থিত, যার মধ্যে অনেকগুলি নিম্নমানের। বিপরীতে, NLLB-200 উচ্চ মানের আউটপুট সহ 55টি আফ্রিকান ভাষা সমর্থন করে। সামগ্রিকভাবে, এই অনন্য মডেলটি বিশ্বজুড়ে কোটি কোটি মানুষের কথা বলা ভাষার জন্য উচ্চমানের অনুবাদ প্রদান করতে পারে। মোট, NLLB-200 BLEU স্কোরগুলি FLORES-44 বেঞ্চমার্কের সমস্ত 10k দিকনির্দেশে গড়ে 101 শতাংশ দ্বারা শিল্পের আগের অবস্থার উন্নতি করে৷ কিছু আফ্রিকান এবং ভারতীয় ভাষার জন্য, সাম্প্রতিক অনুবাদ ব্যবস্থার তুলনায় বৃদ্ধি 70 শতাংশের বেশি।

অন্যান্য মেশিন লার্নিং অনুবাদ সিস্টেমের বিপরীতে, Facebook এর সমাধানটি 200টি ভাষার জন্য একটি সাধারণ মডেল অফার করার জন্য দাঁড়িয়েছে৷, যা সমস্ত ভাষা কভার করে এবং প্রতিটি ভাষার জন্য আলাদা মডেলের প্রয়োজন হয় না।

অনুবাদ ইংরেজিতে মধ্যবর্তী অনুবাদ ছাড়াই সরাসরি উৎস ভাষা থেকে লক্ষ্য ভাষায় করা হয়। সার্বজনীন অনুবাদ ব্যবস্থা তৈরি করতে, একটি অতিরিক্ত LID (ভাষা সনাক্তকরণ) মডেল প্রস্তাব করা হয়েছে, যা ব্যবহৃত ভাষা নির্ধারণের অনুমতি দেয়। সেগুলো. সিস্টেম স্বয়ংক্রিয়ভাবে যে ভাষায় তথ্য প্রদান করা হয়েছে তা চিনতে পারে এবং ব্যবহারকারীর ভাষায় অনুবাদ করতে পারে।

অনুবাদ উভয় দিকেই সমর্থিত, 200টি সমর্থিত ভাষার যেকোনো একটির মধ্যে। যেকোনো ভাষার মধ্যে অনুবাদের গুণমান নিশ্চিত করার জন্য, FLORES-200 বেঞ্চমার্ক পরীক্ষার সেট প্রস্তুত করা হয়েছিল, যা দেখায় যে অনুবাদের মানের দিক থেকে NLLB-200 মডেলটি FLORES-44 সিস্টেমের তুলনায় গড়ে 70% বেশি। প্রমিত মানব অনুবাদের সাথে মেশিন অনুবাদের তুলনা করে BLEU মেট্রিক্স ব্যবহার করার সময় মেশিন লার্নিং-এর উপর ভিত্তি করে প্রস্তাবিত গবেষণা। বিরল আফ্রিকান ভাষা এবং ভারতীয় উপভাষার জন্য, গুণমানের শ্রেষ্ঠত্ব XNUMX% এ পৌঁছেছে। আপনি একটি বিশেষভাবে প্রস্তুত ডেমো সাইটে অনুবাদের গুণমানটি দৃশ্যত মূল্যায়ন করতে পারেন।

যারা প্রকল্পে আগ্রহী, তাদের জানা উচিত যে মডেল ক্রিয়েটিভ কমন্স BY-NC 4.0 লাইসেন্সের অধীনে উপলব্ধ, যা আপনার প্রকল্পে অনুলিপি, বিতরণ, অন্তর্ভুক্তি এবং ডেরিভেটিভ কাজ তৈরির অনুমতি দেয়, তবে শুধুমাত্র অ-বাণিজ্যিক উদ্দেশ্যে অ্যাট্রিবিউশন, লাইসেন্স ধারণ এবং ব্যবহার সাপেক্ষে। মডেলিং টুল MIT লাইসেন্সের অধীনে লাইসেন্সপ্রাপ্ত। NLLB মডেল ব্যবহার করে উন্নয়নকে উদ্দীপিত করার জন্য, গবেষকদের বৃত্তি প্রদানের জন্য $200 বরাদ্দ করার সিদ্ধান্ত নেওয়া হয়েছিল।

পরিশেষে আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন নোট সম্পর্কে, আপনি মূল পোস্টটি পরীক্ষা করতে পারেন নীচের লিঙ্কে।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।