Google Lyra-এর V2 প্রকাশ করেছে, কম-বিটরেট ওপেন সোর্স কোডেক

লিরা গুগল অডিও কোডেক

Google Lyra-এর দ্বিতীয় সংস্করণ প্রকাশ করেছে, এটির উচ্চ-মানের, কম-বিটরেট কোডেক যা ভয়েস কমিউনিকেশন এমনকি সবচেয়ে ধীরগতির নেটওয়ার্কেও উপলব্ধ করে।

সম্প্রতি গুগল একটি ব্লগ পোস্টের মাধ্যমে উন্মোচন করেছে, আপনার অডিও কোডেক দ্বিতীয় সংস্করণ মুক্তি "Lyra-V2", যা খুব ধীরগতির যোগাযোগ চ্যানেল ব্যবহার করার সময় সর্বোচ্চ ভয়েস গুণমান অর্জন করতে মেশিন লার্নিং কৌশল ব্যবহার করে।

নতুন সংস্করণ একটি নতুন নিউরাল নেটওয়ার্ক আর্কিটেকচারে একটি রূপান্তর প্রবর্তন করে, অতিরিক্ত প্ল্যাটফর্মের জন্য সমর্থন, উন্নত বিটরেট নিয়ন্ত্রণ, কর্মক্ষমতা উন্নতি, এবং উচ্চতর অডিও গুণমান।

আমরা এখন Lyra V2 রিলিজ করছি, একটি নতুন আর্কিটেকচারের সাথে যা বৃহত্তর প্ল্যাটফর্ম সমর্থন উপভোগ করে, স্কেলযোগ্য বিটরেট ক্ষমতা, ভালো পারফরম্যান্স এবং উচ্চ মানের অডিও প্রদান করে। এই রিলিজের সাথে, আমরা সম্প্রদায়ের সাথে বিকশিত হতে এবং আপনার সম্মিলিত সৃজনশীলতার সাথে, নতুন অ্যাপ্লিকেশনগুলি বিকাশ করা এবং নতুন দিকনির্দেশনা উত্থাপন করার জন্য উন্মুখ।

লিরা সম্পর্কে

কম গতিতে প্রেরিত ভয়েস ডেটার গুণমান সম্পর্কে, লাইরা ঐতিহ্যগত কোডেক থেকে উল্লেখযোগ্যভাবে উচ্চতর যেগুলো ডিজিটাল সিগন্যাল প্রসেসিং পদ্ধতি ব্যবহার করে। সাধারণ অডিও কম্প্রেশন এবং সংকেত রূপান্তর পদ্ধতি ছাড়াও সীমিত পরিমাণে প্রেরণ করা তথ্যের শর্তে উচ্চ-মানের ভয়েস ট্রান্সমিশন অর্জনের জন্য, Lyra একটি মেশিন লার্নিং সিস্টেমের উপর ভিত্তি করে একটি ভয়েস মডেল ব্যবহার করে যা আপনাকে অনুপস্থিত তথ্য পুনরায় তৈরি করতে দেয়। সাধারণ বক্তৃতা বৈশিষ্ট্যের উপর ভিত্তি করে।

কোডেক একটি এনকোডার এবং একটি ডিকোডার অন্তর্ভুক্ত। এনকোডার অ্যালগরিদম প্রতি 20 মিলিসেকেন্ডে ভয়েস ডেটা প্যারামিটার বের করে, সেগুলিকে সংকুচিত করে এবং প্রাপকের কাছে স্থানান্তর করে 3,2 kbps থেকে 9,2 kbps বিট রেট সহ নেটওয়ার্কে।

রিসিভারের দিকে, ডিকোডারটি ট্রান্সমিটেড অডিও প্যারামিটারের উপর ভিত্তি করে মূল স্পিচ সিগন্যাল পুনরায় তৈরি করতে একটি জেনারেটিভ মডেল ব্যবহার করে, যার মধ্যে লগারিদমিক চক স্পেকট্রোগ্রাম রয়েছে যা বিভিন্ন ফ্রিকোয়েন্সি রেঞ্জে বক্তৃতার শক্তি বৈশিষ্ট্যগুলিকে বিবেচনা করে। এবং মানুষের শ্রবণ উপলব্ধি মাথায় রেখে প্রস্তুত করা হয় .

Lyra V2 এ নতুন কি আছে?

Lyra V2 সাউন্ডস্ট্রিম নিউরাল নেটওয়ার্কের উপর ভিত্তি করে একটি নতুন জেনারেটিভ মডেল ব্যবহার করে, যার কম কম্পিউটেশনাল প্রয়োজনীয়তা রয়েছে, এমনকি কম-পাওয়ার সিস্টেমেও রিয়েল-টাইম ডিকোডিংয়ের অনুমতি দেয়।

শব্দ উৎপন্ন করতে ব্যবহৃত মডেলটি 90 টিরও বেশি ভাষায় কয়েক হাজার ঘন্টা ভয়েস রেকর্ডিং ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছে (মডেল চালানোর জন্য TensorFlow Lite ব্যবহার করা হয়) প্রস্তাবিত বাস্তবায়নের কর্মক্ষমতা সর্বনিম্ন দামের সীমার স্মার্টফোনগুলিতে ভয়েস এনকোড এবং ডিকোড করার জন্য যথেষ্ট।

একটি ভিন্ন জেনারেটিভ মডেল ব্যবহার করার পাশাপাশি, নতুন সংস্করণটি RVQ কোয়ান্টিফায়ারের সাথে লিঙ্কগুলির অন্তর্ভুক্তির জন্যও দাঁড়িয়েছে কোডেক আর্কিটেকচারে (অবশিষ্ট ভেক্টর কোয়ান্টিজার), যা ডেটা ট্রান্সমিশনের আগে প্রেরকের দিকে এবং ডেটা গ্রহণের পরে রিসিভারের দিকে সঞ্চালিত হয়।

কোয়ান্টাইজার কোডেক দ্বারা প্রদত্ত পরামিতিগুলিকে প্যাকেটের সেটে রূপান্তর করে, নির্বাচিত বিট হারের সাথে সম্পর্কিত তথ্য এনকোডিং করে। বিভিন্ন মানের স্তর নিশ্চিত করার জন্য, তিনটি বিটরেটের (3,2kbps, 6kbps, এবং 9,2kbps) জন্য কোয়ান্টাইজার প্রদান করা হয়, বিটরেট যত বেশি হবে, গুণমান তত ভালো হবে, কিন্তু ব্যান্ডউইথের প্রয়োজনীয়তা তত বেশি হবে।

নতুন স্থাপত্য সিগন্যাল ট্রান্সমিশন বিলম্ব 100 মিলিসেকেন্ড থেকে 20 মিলিসেকেন্ডে কমিয়েছে। তুলনা করার জন্য, WebRTC-এর জন্য Opus কোডেক পরীক্ষিত বিট হারে 26,5 ms, 46,5 ms, এবং 66,5 ms বিলম্ব দেখিয়েছে। এনকোডার এবং ডিকোডার কর্মক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে: পূর্ববর্তী সংস্করণের সাথে তুলনা করে, 5 গুণ পর্যন্ত ত্বরণ রয়েছে। উদাহরণস্বরূপ, Pixel 6 Pro স্মার্টফোনে, নতুন কোডেক একটি 20ms নমুনা 0,57ms এ এনকোড করে এবং ডিকোড করে, যা রিয়েল-টাইম স্ট্রিমিং-এর জন্য প্রয়োজনের চেয়ে 35 গুণ দ্রুত।

পারফরম্যান্সের পাশাপাশি, আমরা সাউন্ড রিস্টোরেশনের গুণমানও উন্নত করতে পেরেছি: MUSHRA স্কেল অনুসারে, Lyra V3,2 কোডেক ব্যবহার করার সময় 6 kbps, 9,2 kbps এবং 2 kbps বিট হারে বক্তৃতা গুণমান 10 kbps এর বিট হারের সাথে মিলে যায়, Opus কোডেক ব্যবহার করার সময় 13 kbps এবং 14 kbps।

পরিশেষে আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন, আপনি বিশদটি পরীক্ষা করতে পারেন নিম্নলিখিত লিঙ্ক।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।