মোজিলা ডিপস্পিচ 0.9 স্পিচ রিকগনিশন ইঞ্জিন প্রবর্তন করে

ডিপস্পিচ 1

লঞ্চ প্রকাশিত হয়েছে ভয়েস স্বীকৃতি ইঞ্জিন ডিপস্পিচ 0.9 মোজিলা দ্বারা বিকাশিতযা আর্কিটেকচার প্রয়োগ করে বক্তৃতা স্বীকৃতি বৈদু গবেষকরা প্রস্তাবিত একই নামের।

রুপায়ণ পাইথন ব্যবহার করে লেখা হয় মেশিন লার্নিং প্ল্যাটফর্ম TensorFlow এবং বিনামূল্যে এমপিএল 2.0 লাইসেন্সের অধীনে বিতরণ করা হয়।

ডিপস্পিচ সম্পর্কে

ডিপস্পিচ দুটি উপ-সিস্টেম নিয়ে গঠিত: একটি শাব্দ মডেল এবং একটি ডিকোডার। শাব্দিক মডেলটি ইনপুট সাউন্ডে নির্দিষ্ট অক্ষর উপস্থিত থাকার সম্ভাবনা গণনা করতে গভীর মেশিন লার্নিং কৌশল ব্যবহার করে।

ডিকোডারটি অক্ষর সম্ভাবনার ডেটাটিকে পাঠ্য উপস্থাপনায় রূপান্তর করতে একটি রে অনুসন্ধান অ্যালগরিদম ব্যবহার করে। ডিপস্পিচ প্রচলিত সিস্টেমগুলির তুলনায় অনেক সহজ এবং একই সময়ে বহিরাগত শব্দের উপস্থিতিতে উচ্চতর মানের স্বীকৃতি সরবরাহ করে।

বিকাশটি traditionalতিহ্যবাহী অ্যাকোস্টিক মডেল এবং ফোনমেসের ধারণা ব্যবহার করে না; পরিবর্তে, একটি ভাল-অপ্টিমাইজড নিউরাল নেটওয়ার্ক-ভিত্তিক মেশিন লার্নিং সিস্টেম ব্যবহার করা হয় যা শব্দের প্রতিধ্বনি, প্রতিধ্বনি এবং বক্তৃতা বৈশিষ্ট্যগুলির মতো বিভিন্ন ব্যতিক্রমী মডেল করার জন্য পৃথক উপাদান বিকাশের প্রয়োজনীয়তা দূর করে।

কিট প্রশিক্ষিত মডেল, নমুনা শব্দ ফাইল উপলব্ধ করা হয় এবং কমান্ড লাইন স্বীকৃতি সরঞ্জাম।

সমাপ্ত মডেল কেবল ইংরেজী এবং চীনা জন্য সরবরাহ করা হয়। অন্যান্য ভাষার জন্য, আপনি কমন ভয়েস প্রকল্পের দ্বারা সংগৃহীত ভয়েস ডেটা ব্যবহার করে সংযুক্ত নির্দেশাবলী অনুযায়ী সিস্টেমটি নিজেই শিখতে পারেন।

যখন ডাউনলোডের জন্য প্রস্তাবিত ইংরেজি ভাষার ব্যবহারের জন্য ব্যবহৃত মডেল ব্যবহার করা হয়, ডিপস্পাইচে স্বীকৃতি ত্রুটির মাত্রাটি 7.06% হয় যখন LibriSpeech পরীক্ষা স্যুট ব্যবহার করে মূল্যায়ন করা হয়।

তুলনার জন্য, মানুষের স্বীকৃতি ত্রুটি হার অনুমান করা হয় 5,83%।

প্রস্তাবিত মডেলটিতে, সর্বোত্তম স্বীকৃতি ফলাফল বহিরাগত কোলাহল ছাড়াই একটি পরিবেশে আমেরিকান উচ্চারণের সাথে একটি পুরুষ ভয়েসের একটি পরিষ্কার রেকর্ডিংয়ের সাথে অর্জন করা হয়।

ভসক কন্টিনিউজ স্পিচ রিকগনিশন লাইব্রেরির লেখকের মতে, কমন ভয়েস সেটটির অসুবিধাগুলি হ'ল বক্তৃতা সামগ্রীর একতরফাতা (তাদের 20 এবং 30 এর দশকে পুরুষদের প্রাধান্য এবং মহিলা, শিশুদের কণ্ঠের সাথে উপাদানের অভাব) এবং প্রবীণ), শব্দভাণ্ডারের পরিবর্তনশীলতার অভাব (একই বাক্যাংশের পুনরাবৃত্তি) এবং এমপি 3 রেকর্ডিংগুলির বিতরণ বিকৃতিতে ঝুঁকির মধ্যে রয়েছে।

ডিপস্পাইচের অসুবিধাগুলির মধ্যে দুর্বল অভিনয় অন্তর্ভুক্ত এবং ডিকোডারে উচ্চ মেমরির খরচ, সেই সাথে মডেলটিকে প্রশিক্ষণের জন্য গুরুত্বপূর্ণ সংস্থানগুলি (মজিলা প্রতিটিটিতে 8 জিবি ভিআরএম সহ 6000 কোয়াড্রো আরটিএক্স 24 জিপিইউ সহ একটি সিস্টেম ব্যবহার করে)।

এই পদ্ধতির খারাপ দিকটি এটি একটি নিউরাল নেটওয়ার্কের উচ্চমানের স্বীকৃতি এবং প্রশিক্ষণের জন্য, ডিপস্পেক ইঞ্জিন প্রচুর পরিমাণে ডেটা প্রয়োজন ভিন্ন ভিন্ন কণ্ঠস্বর দ্বারা এবং প্রাকৃতিক শোরগোলের উপস্থিতিতে প্রকৃত অবস্থাতেই ভিন্ন ভিন্নরূপ নির্ধারিত হয়।

এই ডেটাটি মজিলায় নির্মিত কমন ভয়েস প্রকল্প দ্বারা সংকলিত হয়েছে, যা ইংরেজিতে 1469 ঘন্টা, জার্মানিতে 692, ফরাসী ভাষায় 554, রাশিয়ান ভাষায় 105 টি এবং ইউক্রেনীয় 22 ঘন্টা বিশিষ্ট একটি ডেটা সেট করে set

ডিপস্পিচের জন্য চূড়ান্ত ইংলিশ মডেলটি প্রশিক্ষণ দেওয়ার সময়, কমন ভয়েস ছাড়াও লিব্রিস্পিচ, ফিশার এবং স্যুইচবোর্ড প্রকল্পগুলির ডেটা অতিরিক্তভাবে ব্যবহৃত হয়, পাশাপাশি প্রতিলিপি রেডিও প্রোগ্রামগুলির রেকর্ডিংয়ের প্রায় 1700 ঘন্টা।

নতুন শাখায় পরিবর্তনগুলির মধ্যে, শব্দের ওজন জোর করার সম্ভাবনা হাইলাইট করা হয় ডিকোডিং প্রক্রিয়া চলাকালীন নির্বাচিত

নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়ার সময় এটি ইলেক্ট্রন 9.2 প্ল্যাটফর্মের জন্য সমর্থন এবং স্তর সাধারণীকরণ ব্যবস্থার (লেয়ার নর্ম) একটি alচ্ছিক বাস্তবায়নও হাইলাইট করে।

ডাউনলোড করুন এবং পান

পারফরম্যান্সটি লেপোটাতো, রাস্পবেরি পাই 3 এবং রাস্পবেরি পাই 4 বোর্ডের পাশাপাশি গুগল পিক্সেল 2, সনি এক্সপেরিয়া জেড প্রিমিয়াম এবং নোকিয়া 1.3 স্মার্টফোনে মোটর ব্যবহার করতে যথেষ্ট।

প্রস্তুত মডিউল প্রস্তাব পাইথন, নোডজেএস, সি ++, এবং .NET এর জন্য আপনার প্রোগ্রামগুলিতে স্পিচ স্বীকৃতি ফাংশনগুলিকে একীভূত করতে ব্যবহার করতে (তৃতীয় পক্ষের বিকাশকারীরা মরিচা, গো, এবং ভের জন্য পৃথক পৃথকভাবে মডিউল প্রস্তুত করেছে)।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।