Riffusion, система машинного обучения, генерирующая музыку

Riffusion — это система машинного обучения Stable Diffusion, адаптированная для музыкального синтеза.

Запуск нового проекта под названием «Riffusion» разрабатывает вариант системы машинного обучения Stable Diffusion. адаптирован для создания музыки вместо изображений. Музыка может быть синтезирована на основе предложенного шаблона или текстового описания на естественном языке.

Компоненты синтеза музыки написаны на Python с использованием фреймворка PyTorch и доступны по лицензии MIT.

В рамках проекта Это интересно, потому что он по-прежнему использует модели «текст в изображение» и «изображение в изображение». для создания музыки, но манипулирует спектрограммами, как если бы они были изображениями.

Иными словами, Классическая стабильная диффузия основана не на фотографиях и изображениях, а на изображениях спектрограмм. Они отражают изменение частоты и амплитуды звуковой волны во времени. Следовательно, на выходе также формируется спектрограмма, которая затем преобразуется в звуковое представление.

Это модель стабильной диффузии версии 1.5 без каких-либо модификаций, просто подобранная по изображениям спектрограмм с текстовыми парами. Обработка звука происходит после модели.

Вы можете создавать бесконечные вариации рекламы, меняя начальное значение. Все те же пользовательские веб-интерфейсы и методы, такие как img2img, inpainting, отрицательные индикации и интерполяция, работают из коробки.

спектрограммы
Аудиоспектрограмма — это визуальный способ представления частотного содержания звукового клипа. Ось x представляет время, а ось y представляет частоту. Цвет каждого пикселя дает амплитуду звука на частоте и времени, заданных его строкой и столбцом.

Упоминается, что метод также может быть использован для модификации существующих звуковых композиций и синтеза музыкальных сэмплов, аналогично модификации изображения в Stable Diffusion.

Например, генерация может установить образцы спектрограмм в эталонный стиль, комбинировать разные стили, плавно переходить от одного стиля к другому или вносить изменения в существующий звук для решения таких задач, как увеличение громкости отдельных инструментов, изменение ритма и замена инструментов.

STFT обратим, поэтому исходный звук можно восстановить по спектрограмме. Однако изображения спектрограммы нашей модели содержат только амплитуду синусоидальных волн, а не фазы, потому что фазы хаотичны и их трудно изучить. Вместо этого мы используем алгоритм Гриффина-Лима для аппроксимации фазы при реконструкции аудиоклипа.

Лос патроны Они также используются для создания долговечных композиций, состоит из серии отрывков, близких друг к другу, которые немного меняются во времени. Отдельно сгенерированные фрагменты объединяются в непрерывный поток путем интерполяции внутренних параметров модели.

Частотные бины в нашей спектрограмме используют шкалу Мела, которая представляет собой шкалу восприятия высоты тона, которая, по мнению слушателей, находится на одинаковом расстоянии друг от друга.

Ниже представлено нарисованное от руки изображение, интерпретированное как спектрограмма и преобразованное в аудио. Поиграйте, чтобы получить интуитивное представление о том, как они работают. Обратите внимание, как вы можете слышать тоны двух кривых в нижней половине и как четыре вертикальные линии в верхней половине создают ритмы, похожие на звук хай-хэта.

Преобразование Фурье (математическое преобразование, используемое для преобразования сигналов между временной областью и частотной областью) используется для создания спектрограммы из звука. При воссоздании звука по спектрограмме возникает проблема с определением фазы (в спектрограмме присутствуют только частота и амплитуда), для восстановления которой используется аппроксимационный алгоритм Гриффина-Лима.

Привязка интерфейса реализована на языке TypeScript и также распространяется по лицензии MIT. Обученные модели выпускаются под разрешительной лицензией Creative ML OpenRAIL-M для коммерческого использования.

Если вы хотите узнать об этом больше, вы можете проконсультироваться с подробности по следующей ссылке.

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: Мигель Анхель Гатон
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

DesdeLinux

Riffusion, система машинного обучения, которая генерирует музыку

Оставьте свой комментарий Отменить ответ