তারা হুইস্পারের সোর্স কোড প্রকাশ করেছে, একটি স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ সিস্টেম

ফিস্ ফিস্ শব্দ

হুইস্পার হল একটি স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম

সম্প্রতি প্রকল্পটি OpenAI, যা কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে পাবলিক প্রকল্পগুলি বিকাশ করে, খবর প্রকাশ করেছে ভয়েস রিকগনিশন সিস্টেমের সাথে সম্পর্কিত ফিসফিস যা একটি স্বয়ংক্রিয় স্পিচ রিকগনিশন সিস্টেম (ASR) ওয়েব থেকে সংগৃহীত 680.000 ঘন্টা বহুভাষিক, মাল্টিটাস্কিং তত্ত্বাবধানে থাকা ডেটার উপর প্রশিক্ষিত।

এটা দাবি করা হয় যে ইংরেজি বক্তৃতার জন্য, সিস্টেমটি মানুষের স্বীকৃতির কাছাকাছি স্বয়ংক্রিয় স্বীকৃতি নির্ভরযোগ্যতা এবং নির্ভুলতার স্তর সরবরাহ করে।

আমরা দেখাই যে এত বড় এবং বৈচিত্র্যময় ডেটাসেট ব্যবহার করলে উচ্চারণ, পটভূমির শব্দ এবং প্রযুক্তিগত ভাষা আরও শক্তিশালী হয়। এছাড়াও, এটি বিভিন্ন ভাষায় ট্রান্সক্রিপশনের পাশাপাশি সেই ভাষাগুলির ইংরেজিতে অনুবাদের অনুমতি দেয়। আমরা ওপেন সোর্স মডেল এবং অনুমান কোড যা দরকারী অ্যাপ্লিকেশন তৈরির জন্য এবং শক্তিশালী স্পিচ প্রসেসিংয়ের উপর ভবিষ্যতের গবেষণার ভিত্তি হিসাবে কাজ করে।

মডেল সম্পর্কে (ইতিমধ্যে উল্লিখিত) 680 ঘন্টা ব্যবহার করে প্রশিক্ষিত বিভিন্ন ভাষা এবং বিষয় এলাকা কভার করে বিভিন্ন সংগ্রহ থেকে সংগৃহীত ভয়েস ডেটা। প্রশিক্ষণে জড়িত ভয়েস ডেটার প্রায় 1/3 ইংরেজি ছাড়া অন্য ভাষায়।

প্রস্তাবিত সিস্টেম উচ্চারিত উচ্চারণের মতো পরিস্থিতি সঠিকভাবে পরিচালনা করে, পটভূমির গোলমালের উপস্থিতি এবং প্রযুক্তিগত শব্দার্থ ব্যবহার। বক্তৃতাকে পাঠ্যে প্রতিলিপি করার পাশাপাশি, সিস্টেমটি একটি স্বেচ্ছাচারী ভাষা থেকে ইংরেজিতে বক্তৃতা অনুবাদ করতে পারে এবং অডিও স্ট্রীমে বক্তৃতার উপস্থিতি সনাক্ত করতে পারে।

মডেলগুলিকে দুটি উপস্থাপনায় প্রশিক্ষণ দেওয়া হয়: ইংরেজি ভাষার জন্য একটি মডেল এবং একটি বহুভাষিক মডেল যা স্প্যানিশ, রাশিয়ান, ইতালীয়, জার্মান, জাপানি, ইউক্রেনীয়, বেলারুশিয়ান, চীনা এবং অন্যান্য ভাষা সমর্থন করে। পরিবর্তে, প্রতিটি দৃশ্যকে 5টি বিকল্পে বিভক্ত করা হয়েছে, যা মডেলে আচ্ছাদিত আকার এবং পরামিতিগুলির সংখ্যার মধ্যে পৃথক।

হুইস্পার আর্কিটেকচার হল একটি সহজ এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসাবে প্রয়োগ করা হয়। ইনপুট অডিওটি 30-সেকেন্ডের খণ্ডে বিভক্ত হয়, একটি লগ-মেল স্পেকট্রোগ্রামে রূপান্তরিত হয় এবং তারপর একটি এনকোডারে প্রেরণ করা হয়। একটি ডিকোডারকে সংশ্লিষ্ট টেক্সট সাবটাইটেলের ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষিত করা হয়, বিশেষ টোকেনগুলির সাথে ছেদযুক্ত যা অনন্য মডেলকে ভাষা সনাক্তকরণ, বাক্য-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা প্রতিলিপি, এবং ইংরেজিতে বক্তৃতা অনুবাদের মতো কাজগুলি সম্পাদন করতে নির্দেশ করে।

আকার যত বড় হবে, স্বীকৃতির নির্ভুলতা এবং গুণমান তত বেশি হবে, তবে GPU ভিডিও মেমরির আকারের জন্য প্রয়োজনীয়তাও তত বেশি হবে এবং কর্মক্ষমতা তত কম হবে। উদাহরণস্বরূপ, সর্বনিম্ন বিকল্পটিতে 39 মিলিয়ন প্যারামিটার রয়েছে এবং এর জন্য 1 GB ভিডিও মেমরির প্রয়োজন, যেখানে সর্বাধিক বিকল্পটিতে 1550 বিলিয়ন প্যারামিটার রয়েছে এবং 10 GB ভিডিও মেমরির প্রয়োজন৷ সর্বনিম্ন বৈকল্পিকটি সর্বাধিকের চেয়ে 32 গুণ দ্রুত।

সিস্টেমটি "ট্রান্সফরমার" নিউরাল নেটওয়ার্ক আর্কিটেকচার ব্যবহার করে, যার মধ্যে একটি এনকোডার এবং একটি ডিকোডার রয়েছে যা একে অপরের সাথে যোগাযোগ করে। অডিওটি 30-সেকেন্ডের খণ্ডে বিভক্ত, যা একটি লগ-মেল স্পেকট্রোগ্রামে রূপান্তরিত হয় এবং এনকোডারে পাঠানো হয়।

এনকোডারের কাজের ফলাফল ডিকোডারে পাঠানো হয়, যা বিশেষ টোকেনগুলির সাথে মিশ্রিত একটি পাঠ্য উপস্থাপনা ভবিষ্যদ্বাণী করে যা ভাষা সনাক্তকরণ, বাক্য উচ্চারণ কালানুক্রমিক অ্যাকাউন্টিং, বিভিন্ন ভাষায় বক্তৃতা প্রতিলিপি এবং একটি সাধারণ মডেলে ইংরেজি অনুবাদের মতো কাজগুলি সমাধান করতে দেয়।

এটি উল্লেখ করার মতো যে Whisper-এর কার্যকারিতা ভাষার উপর নির্ভর করে ব্যাপকভাবে পরিবর্তিত হয়, তাই যেটি একটি ভাল বোঝার উপস্থাপিত হয় তা হল ইংরেজি, যার চারটি সংস্করণ শুধুমাত্র ইংরেজিতে রয়েছে, যা অন্যান্য ভাষার অন্যান্য মডেলের মতো, এর সুবিধা এবং অসুবিধাগুলি অফার করে। গতি এবং নির্ভুলতা।

পরিশেষে আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন, আপনি মূল প্রকাশনা চেক করতে পারেন এই লিঙ্কে, আপনি যদি উত্স কোড এবং প্রশিক্ষিত মডেলগুলিতে আগ্রহী হন তবে আপনি তাদের সাথে পরামর্শ করতে পারেন৷ এই লিঙ্কটি

PyTorch কাঠামোর উপর ভিত্তি করে রেফারেন্স বাস্তবায়ন কোড এবং ইতিমধ্যে প্রশিক্ষিত মডেলের একটি সেট খোলা, ব্যবহারের জন্য প্রস্তুত। কোডটি MIT লাইসেন্সের অধীনে ওপেন সোর্স এবং এটি উল্লেখ করার মতো যে ffmpeg লাইব্রেরির ব্যবহার প্রয়োজন।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।