Riffusion, system uczenia maszynowego generujący muzykę

Riffusion to system uczenia maszynowego Stable Diffusion przystosowany do syntezy muzycznej

Ruszył nowy projekt pt „Riffusion” opracowuje wariant systemu uczenia maszynowego Stable Diffusion przystosowany do generowania muzyki zamiast obrazów. Muzykę można zsyntetyzować w oparciu o sugerowany szablon lub opis tekstowy w języku naturalnym.

Komponenty do syntezy muzyki są napisane w Pythonie przy użyciu frameworka PyTorch i są dostępne na licencji MIT.

Projekt Jest to interesujące, ponieważ nadal wykorzystuje modele „tekst do obrazu” i „obraz do obrazu”. do generowania muzyki, ale manipuluje spektrogramami tak, jakby były obrazami.

Innymi słowy Klasyczna stabilna dyfuzja nie opiera się na fotografiach i obrazach, ale na obrazach spektrogramów Odzwierciedlają zmianę częstotliwości i amplitudy fali dźwiękowej w czasie. W rezultacie na wyjściu powstaje również spektrogram, który jest następnie konwertowany na reprezentację audio.

Jest to stabilny model dyfuzji v1.5 bez żadnych modyfikacji, po prostu dopasowany do sparowanych tekstowo obrazów spektrogramu. Przetwarzanie dźwięku odbywa się za modelem.

Możesz wygenerować nieskończoną liczbę odmian reklamy, zmieniając ziarno. Wszystkie te same internetowe interfejsy użytkownika i techniki, takie jak img2img, inpainting, negatywne wskazania i interpolacja, działają od razu po wyjęciu z pudełka.

spektrogramy
Spektrogram audio to wizualny sposób przedstawiania zawartości częstotliwościowej klipu dźwiękowego. Oś x reprezentuje czas, a oś y częstotliwość. Kolor każdego piksela określa amplitudę dźwięku przy częstotliwości i czasie określonym przez jego wiersz i kolumnę.

Wspomina się, że metoda może być również wykorzystana do modyfikacji istniejących kompozycji dźwiękowych i syntezy muzyki samplowej, podobny do modyfikacji obrazu w Stable Diffusion.

Na przykład generacja może ustawić próbki spektrogramów na styl referencyjny, łączyć różne style, płynnie przechodzić z jednego stylu do drugiego lub wprowadzać zmiany w istniejącym brzmieniu, aby rozwiązać problemy, takie jak zwiększenie głośności poszczególnych instrumentów, zmiana rytmu i zastąpienie instrumentów.

STFT jest odwracalny, więc oryginalny dźwięk można zrekonstruować ze spektrogramu. Jednak obrazy spektrogramu naszego modelu zawierają tylko amplitudę fal sinusoidalnych, a nie fazy, ponieważ fazy są chaotyczne i trudne do nauczenia. Zamiast tego używamy algorytmu Griffin-Lim do przybliżenia fazy podczas rekonstrukcji klipu audio.

Wzory Służą również do generowania długotrwałych kompozycji, składa się z szeregu zbliżonych do siebie fragmentów, które nieznacznie zmieniają się w czasie. Oddzielnie generowane fragmenty są łączone w ciągły strumień poprzez interpolację wewnętrznych parametrów modelu.

Podziały częstotliwości w naszym spektrogramie wykorzystują skalę Mel, która jest percepcyjną skalą tonów ocenianych przez słuchaczy jako znajdująca się w tej samej odległości od siebie.

Poniżej znajduje się ręcznie narysowany obraz zinterpretowany jako spektrogram i przekonwertowany na dźwięk. Zagraj, aby intuicyjnie poczuć, jak działają. Zwróć uwagę, jak możesz usłyszeć tony dwóch krzywych w dolnej połowie i jak cztery pionowe linie w górnej połowie wytwarzają rytmy podobne do dźwięku hi-hatu.

Transformata Fouriera (transformacja matematyczna używana do przekształcania sygnałów między domeną czasu a domeną częstotliwości) jest używana do tworzenia spektrogramu z dźwięku. Przy odtwarzaniu dźwięku ze spektrogramu występuje problem z określeniem fazy (na spektrogramie występują tylko częstotliwość i amplituda), do rekonstrukcji której wykorzystywany jest algorytm aproksymacji Griffina-Lima.

Wiązanie interfejsu jest zaimplementowane w języku TypeScript i jest również dystrybuowane na licencji MIT. Przeszkolone modele są udostępniane na licencji zezwalającej Creative ML OpenRAIL-M do użytku komercyjnego.

Jeśli chcesz dowiedzieć się więcej na ten temat, możesz zapoznać się z szczegóły w poniższym linku.

DesdeLinux

Riffusion, system uczenia maszynowego, który generuje muzykę

Zostaw swój komentarz Anuluj odpowiedź