স্টেবল ডিফিউশন 2.0, একটি AI যা ইমেজ সংশ্লেষণ এবং পরিবর্তন করতে সক্ষম

স্থিতিশীল বিস্তার 2.0

স্ট্যাবল ডিফিউশন 2.0 দিয়ে তৈরি করা ছবি

সম্প্রতি স্থায়িত্ব AI, উন্মোচন একটি ব্লগ পোস্টের মাধ্যমে সিস্টেমের দ্বিতীয় সংস্করণ স্বয়ংক্রিয় শিক্ষা স্থিতিশীল বিস্তার, যা একটি প্রস্তাবিত টেমপ্লেট বা একটি প্রাকৃতিক ভাষার পাঠ্য বিবরণের উপর ভিত্তি করে চিত্রগুলি সংশ্লেষণ এবং পরিবর্তন করতে সক্ষম৷

স্টেবল ডিফিউশন হল একটি মেশিন লার্নিং মডেল স্থিতিশীলতা এআই দ্বারা উন্নত প্রাকৃতিক ভাষার বর্ণনা থেকে উচ্চমানের ডিজিটাল ছবি তৈরি করতে. মডেলটি বিভিন্ন কাজের জন্য ব্যবহার করা যেতে পারে, যেমন টেক্সট-নির্দেশিত ইমেজ-টু-ইমেজ অনুবাদ এবং ইমেজ বর্ধিতকরণ তৈরি করা।

DALL-E-এর মতো প্রতিযোগী মডেলের বিপরীতে, স্থিতিশীল ডিফিউশন হল ওপেন সোর্স1 এবং এটি তৈরি করা ছবিগুলিকে কৃত্রিমভাবে সীমাবদ্ধ করে না। সমালোচকরা AI এর নীতিশাস্ত্র নিয়ে উদ্বেগ প্রকাশ করেছেন, দাবি করেছেন যে মডেলটি ডিপফেক তৈরি করতে ব্যবহার করা যেতে পারে।

LMU মিউনিখের কম্পভিস গ্রুপ থেকে রবিন রমবাচ (স্টেবিলিটি এআই) এবং প্যাট্রিক এসারের (রানওয়ে এমএল) গতিশীল দল প্রফেসর ডক্টর বজর্ন ওমারের নেতৃত্বে, স্টেবল ডিফিউশন V1 এর আসল প্রকাশের নেতৃত্ব দেয়। তারা সুপ্ত বিচ্ছুরণ মডেলগুলির সাথে তাদের পূর্ববর্তী ল্যাবের কাজ তৈরি করেছে এবং LAION এবং Eleuther AI থেকে সমালোচনামূলক সমর্থন অর্জন করেছে। আপনি আমাদের পূর্ববর্তী ব্লগ পোস্টে স্থিতিশীল ডিফিউশন V1 এর আসল প্রকাশ সম্পর্কে আরও পড়তে পারেন। রবিন এখন আমাদের বৃহত্তর দলের সাথে পরবর্তী প্রজন্মের মিডিয়া মডেল তৈরি করার জন্য স্টেবিলিটি AI-তে ক্যাথরিন ক্রসনের সাথে প্রচেষ্টার নেতৃত্ব দিচ্ছেন।

স্থিতিশীল ডিফিউশন 2.0 মূল V1 সংস্করণের তুলনায় অনেকগুলি দুর্দান্ত উন্নতি এবং বৈশিষ্ট্য সরবরাহ করে।

স্টেবল ডিফিউশন 2.0 এর প্রধান খবর

এই নতুন সংস্করণে যে উপস্থাপন করা হয় পাঠ্য বিবরণের উপর ভিত্তি করে একটি নতুন চিত্র সংশ্লেষণ মডেল তৈরি করা হয়েছে "SD2.0-v", যা 768×768 রেজোলিউশনের সাথে ছবি তৈরি করা সমর্থন করে। নতুন মডেলটিকে পাঠ্য বিবরণ সহ 5 বিলিয়ন চিত্রের LAION-5850B সংগ্রহ ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

মডেলটি স্ট্যাবল ডিফিউশন 1.5 মডেলের মতো প্যারামিটারের একই সেট ব্যবহার করে, কিন্তু মৌলিকভাবে ভিন্ন OpenCLIP-ViT/H এনকোডার ব্যবহারে রূপান্তর দ্বারা পৃথক হয়, যা ফলাফলের চিত্রগুলির গুণমানকে উল্লেখযোগ্যভাবে উন্নত করা সম্ভব করে তোলে।

ক প্রস্তুত করা হয়েছে SD2.0-বেসের সরলীকৃত সংস্করণ, ক্লাসিক্যাল নয়েজ পূর্বাভাস মডেল ব্যবহার করে 256×256 চিত্রের উপর প্রশিক্ষিত এবং 512×512 এর রেজোলিউশনের সাথে চিত্রের প্রজন্মকে সমর্থন করে।

এর পাশাপাশি তাও তুলে ধরা হলো সুপারস্যাম্পলিং প্রযুক্তি ব্যবহার করার সম্ভাবনা প্রদান করা হয় (সুপার রেজোলিউশন) স্থানিক স্কেলিং এবং বিশদ পুনর্গঠন অ্যালগরিদম ব্যবহার করে গুণমান হ্রাস না করে মূল চিত্রের রেজোলিউশন বাড়ানোর জন্য।

অন্যান্য পরিবর্তন যে এই নতুন সংস্করণ থেকে দাঁড়ানো:

  • প্রদত্ত ইমেজ প্রসেসিং মডেল (SD20-upscaler) 4x ম্যাগনিফিকেশন সমর্থন করে, যা 2048×2048 রেজোলিউশনের ছবি তৈরি করতে দেয়।
  • স্থিতিশীল ডিফিউশন 2.0-এ একটি আপস্কেলার ডিফিউশন মডেলও রয়েছে যা 4 এর ফ্যাক্টর দ্বারা চিত্রের রেজোলিউশনকে উন্নত করে।
  • SD2.0-depth2img মডেলটি প্রস্তাবিত, যা বস্তুর গভীরতা এবং স্থানিক বিন্যাস বিবেচনা করে। MiDaS সিস্টেমটি মনোকুলার গভীরতা অনুমান করতে ব্যবহৃত হয়।
  • নতুন টেক্সট-চালিত অভ্যন্তরীণ পেইন্ট মডেল, নতুন স্টেবল ডিফিউশন 2.0 টেক্সট-টু-ইমেজ বেসে সূক্ষ্ম-টিউন করা হয়েছে
  • মডেলটি আপনাকে একটি টেমপ্লেট হিসাবে অন্য একটি চিত্র ব্যবহার করে নতুন চিত্রগুলিকে সংশ্লেষণ করতে দেয়, যা মূল থেকে আমূল ভিন্ন হতে পারে তবে সামগ্রিক রচনা এবং গভীরতা বজায় রাখে। উদাহরণস্বরূপ, আপনি একই ভঙ্গিতে অন্য চরিত্র গঠনের জন্য ফটোতে একজন ব্যক্তির ভঙ্গি ব্যবহার করতে পারেন।
  • চিত্রগুলি পরিবর্তন করার জন্য আপডেট করা মডেল: SD 2.0-ইনপেইন্টিং, যা চিত্রের অংশগুলি প্রতিস্থাপন এবং পরিবর্তন করতে পাঠ্য ইঙ্গিত ব্যবহার করার অনুমতি দেয়৷
  • মডেলগুলি একটি GPU সহ মূলধারার সিস্টেমে ব্যবহারের জন্য অপ্টিমাইজ করা হয়েছে।

অবশেষে হ্যাঁ আপনি এটি সম্পর্কে আরও জানতে আগ্রহী, আপনার জানা উচিত যে নিউরাল নেটওয়ার্ক প্রশিক্ষণ এবং ইমেজিং সরঞ্জামগুলির কোড PyTorch ফ্রেমওয়ার্ক ব্যবহার করে Python এ লেখা হয়েছে এবং MIT লাইসেন্সের অধীনে প্রকাশিত হয়েছে।

প্রাক-প্রশিক্ষিত মডেলগুলি ক্রিয়েটিভ ML OpenRAIL-M অনুমতিমূলক লাইসেন্সের অধীনে খোলা থাকে, যা বাণিজ্যিক ব্যবহারের অনুমতি দেয়।

উৎস: https://stability.ai


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।