Riffusion یک سیستم یادگیری ماشینی انتشار پایدار است که برای سنتز موسیقی اقتباس شده است
راه اندازی یک پروژه جدید به نام Riffusion در حال توسعه یک نوع سیستم یادگیری ماشینی Stable Diffusion است سازگار برای تولید موسیقی به جای تصاویر. موسیقی را می توان بر اساس یک الگوی پیشنهادی یا یک توصیف متنی به زبان طبیعی ترکیب کرد.
اجزای سنتز موسیقی در پایتون با استفاده از چارچوب PyTorch نوشته شده و تحت مجوز MIT در دسترس هستند.
ال proyecto جالب است زیرا هنوز از مدل های «متن به تصویر» و «تصویر به تصویر» استفاده می کند. برای تولید موسیقی، اما طیفنگارها را طوری دستکاری میکند که انگار یک تصویر هستند.
به عبارت دیگر پخش پایدار کلاسیک بر اساس عکس ها و تصاویر نیست، بلکه بر اساس تصاویر طیف نگاری است آنها تغییر در فرکانس و دامنه موج صوتی را در طول زمان منعکس می کنند. در نتیجه، یک طیفنگار نیز روی خروجی تشکیل میشود که سپس به یک نمایش صوتی تبدیل میشود.
این مدل انتشار پایدار v1.5 بدون هیچ تغییری است و فقط بر روی تصاویر طیفگرام جفت متنی نصب شده است. پردازش صدا در پایین دست مدل رخ می دهد.
شما می توانید با تغییر دانه، تنوع بی نهایتی از یک تبلیغ ایجاد کنید. تمام رابطهای کاربری وب و تکنیکهای مشابهی مانند img2img، inpainting، نشانههای منفی و درونیابی خارج از جعبه کار میکنند.
طیف نگارها
طیفنگار صوتی روشی بصری برای نمایش محتوای فرکانس یک کلیپ صوتی است. محور x نشان دهنده زمان و محور y نشان دهنده فرکانس است. رنگ هر پیکسل دامنه صدا را در فرکانس و زمان مشخص شده توسط سطر و ستون آن نشان می دهد.
ذکر شده است که این روش همچنین می تواند برای اصلاح ترکیبات صوتی موجود و سنتز موسیقی نمونه استفاده شود، مشابه اصلاح تصویر در Stable Diffusion.
به عنوان مثال، نسل میتواند طیفنگارهای نمونه را روی یک سبک مرجع تنظیم کند، سبکهای مختلف را ترکیب کند، به آرامی از یک سبک به سبک دیگر منتقل شود، یا تغییراتی در صدای موجود ایجاد کند تا مشکلاتی مانند افزایش صدای سازهای جداگانه، تغییر ریتم و جایگزینی را حل کند. از سازها
STFT معکوس است، بنابراین صدای اصلی را می توان از یک طیف نگار بازسازی کرد. با این حال، تصاویر طیفگرام مدل ما فقط دامنه امواج سینوسی را شامل میشود و فازها را شامل نمیشود، زیرا فازها بینظم هستند و یادگیری آنها دشوار است. در عوض، ما از الگوریتم Griffin-Lim برای تقریب فاز در هنگام بازسازی کلیپ صوتی استفاده می کنیم.
الگوها آنها همچنین برای تولید ترکیبات طولانی مدت استفاده می شوند. از مجموعه ای از معابر نزدیک به یکدیگر تشکیل شده است که در طول زمان کمی تغییر می کنند. قطعات تولید شده به طور جداگانه با درونیابی پارامترهای داخلی مدل در یک جریان پیوسته ترکیب می شوند.
سطلهای فرکانس در طیفنگار ما از مقیاس Mel استفاده میکنند، که مقیاس ادراکی از گامها است که توسط شنوندگان بهعنوان فاصله یکسان از یکدیگر قضاوت میشود.
در زیر یک تصویر با دست ترسیم شده است که به صورت طیف نگار تفسیر شده و به صدا تبدیل شده است. آن را پخش کنید تا حس شهودی از نحوه کار آنها به دست آورید. توجه کنید که چگونه میتوانید آهنگهای دو منحنی را در نیمه پایین بشنوید، و چگونه چهار خط عمودی در نیمه بالایی ریتمهایی شبیه به صدای های کلاه تولید میکنند.
تبدیل فوریه (تبدیل ریاضی که برای تبدیل سیگنالها بین حوزه زمان و حوزه فرکانس استفاده میشود) برای ایجاد طیفنگاری از صدا استفاده میشود. هنگام بازآفرینی صدا از یک طیفنگار، مشکلی در تعیین فاز وجود دارد (فقط فرکانس و دامنه در طیفنگار وجود دارد)، که برای بازسازی از الگوریتم تقریب Griffin-Lim استفاده میشود.
اتصال رابط در زبان TypeScript پیاده سازی شده و همچنین توزیع می شود تحت مجوز MIT. مدل های آموزش دیده تحت مجوز مجاز Creative ML OpenRAIL-M برای استفاده تجاری منتشر می شوند.
اگر می خواهید در مورد آن بیشتر بدانید ، می توانید با جزئیات در لینک زیر.
اولین کسی باشید که نظر