Riffusion، یک سیستم یادگیری ماشینی که موسیقی تولید می کند

پراکندگی

Riffusion یک سیستم یادگیری ماشینی انتشار پایدار است که برای سنتز موسیقی اقتباس شده است

راه اندازی یک پروژه جدید به نام Riffusion در حال توسعه یک نوع سیستم یادگیری ماشینی Stable Diffusion است سازگار برای تولید موسیقی به جای تصاویر. موسیقی را می توان بر اساس یک الگوی پیشنهادی یا یک توصیف متنی به زبان طبیعی ترکیب کرد.

اجزای سنتز موسیقی در پایتون با استفاده از چارچوب PyTorch نوشته شده و تحت مجوز MIT در دسترس هستند.

ال proyecto جالب است زیرا هنوز از مدل های «متن به تصویر» و «تصویر به تصویر» استفاده می کند. برای تولید موسیقی، اما طیف‌نگارها را طوری دستکاری می‌کند که انگار یک تصویر هستند.

به عبارت دیگر پخش پایدار کلاسیک بر اساس عکس ها و تصاویر نیست، بلکه بر اساس تصاویر طیف نگاری است آنها تغییر در فرکانس و دامنه موج صوتی را در طول زمان منعکس می کنند. در نتیجه، یک طیف‌نگار نیز روی خروجی تشکیل می‌شود که سپس به یک نمایش صوتی تبدیل می‌شود.

این مدل انتشار پایدار v1.5 بدون هیچ تغییری است و فقط بر روی تصاویر طیف‌گرام جفت متنی نصب شده است. پردازش صدا در پایین دست مدل رخ می دهد.

شما می توانید با تغییر دانه، تنوع بی نهایتی از یک تبلیغ ایجاد کنید. تمام رابط‌های کاربری وب و تکنیک‌های مشابهی مانند img2img، inpainting، نشانه‌های منفی و درون‌یابی خارج از جعبه کار می‌کنند.

طیف نگارها
طیف‌نگار صوتی روشی بصری برای نمایش محتوای فرکانس یک کلیپ صوتی است. محور x نشان دهنده زمان و محور y نشان دهنده فرکانس است. رنگ هر پیکسل دامنه صدا را در فرکانس و زمان مشخص شده توسط سطر و ستون آن نشان می دهد.

ذکر شده است که این روش همچنین می تواند برای اصلاح ترکیبات صوتی موجود و سنتز موسیقی نمونه استفاده شود، مشابه اصلاح تصویر در Stable Diffusion.

به عنوان مثال، نسل می‌تواند طیف‌نگارهای نمونه را روی یک سبک مرجع تنظیم کند، سبک‌های مختلف را ترکیب کند، به آرامی از یک سبک به سبک دیگر منتقل شود، یا تغییراتی در صدای موجود ایجاد کند تا مشکلاتی مانند افزایش صدای سازهای جداگانه، تغییر ریتم و جایگزینی را حل کند. از سازها

STFT معکوس است، بنابراین صدای اصلی را می توان از یک طیف نگار بازسازی کرد. با این حال، تصاویر طیف‌گرام مدل ما فقط دامنه امواج سینوسی را شامل می‌شود و فازها را شامل نمی‌شود، زیرا فازها بی‌نظم هستند و یادگیری آنها دشوار است. در عوض، ما از الگوریتم Griffin-Lim برای تقریب فاز در هنگام بازسازی کلیپ صوتی استفاده می کنیم.

الگوها آنها همچنین برای تولید ترکیبات طولانی مدت استفاده می شوند. از مجموعه ای از معابر نزدیک به یکدیگر تشکیل شده است که در طول زمان کمی تغییر می کنند. قطعات تولید شده به طور جداگانه با درونیابی پارامترهای داخلی مدل در یک جریان پیوسته ترکیب می شوند.

سطل‌های فرکانس در طیف‌نگار ما از مقیاس Mel استفاده می‌کنند، که مقیاس ادراکی از گام‌ها است که توسط شنوندگان به‌عنوان فاصله یکسان از یکدیگر قضاوت می‌شود.

در زیر یک تصویر با دست ترسیم شده است که به صورت طیف نگار تفسیر شده و به صدا تبدیل شده است. آن را پخش کنید تا حس شهودی از نحوه کار آنها به دست آورید. توجه کنید که چگونه می‌توانید آهنگ‌های دو منحنی را در نیمه پایین بشنوید، و چگونه چهار خط عمودی در نیمه بالایی ریتم‌هایی شبیه به صدای های کلاه تولید می‌کنند.

تبدیل فوریه (تبدیل ریاضی که برای تبدیل سیگنال‌ها بین حوزه زمان و حوزه فرکانس استفاده می‌شود) برای ایجاد طیف‌نگاری از صدا استفاده می‌شود. هنگام بازآفرینی صدا از یک طیف‌نگار، مشکلی در تعیین فاز وجود دارد (فقط فرکانس و دامنه در طیف‌نگار وجود دارد)، که برای بازسازی از الگوریتم تقریب Griffin-Lim استفاده می‌شود.

اتصال رابط در زبان TypeScript پیاده سازی شده و همچنین توزیع می شود تحت مجوز MIT. مدل های آموزش دیده تحت مجوز مجاز Creative ML OpenRAIL-M برای استفاده تجاری منتشر می شوند.

اگر می خواهید در مورد آن بیشتر بدانید ، می توانید با جزئیات در لینک زیر.


محتوای مقاله به اصول ما پیوست اخلاق تحریریه. برای گزارش یک خطا کلیک کنید اینجا.

اولین کسی باشید که نظر

نظر خود را بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند با *

*

*

  1. مسئول داده ها: میگل آنخل گاتون
  2. هدف از داده ها: کنترل هرزنامه ، مدیریت نظرات.
  3. مشروعیت: رضایت شما
  4. ارتباط داده ها: داده ها به اشخاص ثالث منتقل نمی شوند مگر با تعهد قانونی.
  5. ذخیره سازی داده ها: پایگاه داده به میزبانی شبکه های Occentus (EU)
  6. حقوق: در هر زمان می توانید اطلاعات خود را محدود ، بازیابی و حذف کنید.