Riffusion, sistem pembelajaran mesin sing ngasilake musik

rifusi

Riffusion minangka sistem pembelajaran mesin Difusi Stabil sing diadaptasi kanggo sintesis musik

Bukak proyek anyar sing diarani "Riffusion" ngembangaken varian saka sistem learning machine Difusi Stabil diadaptasi kanggo ngasilake musik tinimbang gambar. Musik bisa disintesis adhedhasar cithakan sing disaranake utawa deskripsi teks basa alami.

Komponen sintesis musik ditulis ing Python nggunakake framework PyTorch lan kasedhiya ing lisensi MIT.

Proyek kasebut Iku menarik amarga isih nggunakake model "text to image" lan "image to image". kanggo generasi music, nanging manipulates spectrograms minangka yen padha gambar.

Ing tembung liyane, Difusi Stabil Klasik ora adhedhasar foto lan gambar, nanging ing gambar spektrogram Padha nggambarake owah-owahan ing frekuensi lan amplitudo gelombang swara liwat wektu. Akibate, spektrogram uga dibentuk ing output, sing banjur diowahi dadi perwakilan audio.

Iki minangka model difusi stabil v1.5 tanpa modifikasi, mung dipasang ing gambar spektrogram sing dipasangake teks. Pangolahan audio ana ing ngisor model.

Sampeyan bisa ngasilake variasi tanpa wates saka iklan kanthi ngowahi wiji. Kabeh antarmuka lan teknik pangguna web sing padha kaya img2img, inpainting, indikasi negatif, lan interpolasi bisa ditindakake.

spektrogram
Spektrogram audio minangka cara visual kanggo nggambarake isi frekuensi klip swara. Sumbu x nggambarake wektu lan sumbu y nuduhake frekuensi. Werna saben piksel menehi amplitudo audio ing frekuensi lan wektu sing diwenehake dening baris lan kolom.

Disebutake manawa cara kasebut uga bisa digunakake kanggo ngowahi komposisi swara lan sintesis musik sampel sing wis ana, padha karo modifikasi gambar ing Stable Diffusion.

Contone, generasi bisa nyetel spektrogram sampel menyang gaya referensi, gabungke gaya beda, lancar transisi saka siji gaya menyang liyane, utawa nggawe owah-owahan kanggo swara sing wis ana kanggo ngatasi masalah kayata nambah volume instrumen individu, ngganti irama lan panggantos. saka instrumen.

STFT bisa diowahi, saengga audio asli bisa direkonstruksi saka spektrogram. Nanging, gambar spektrogram model kita mung ngemot amplitudo gelombang sinus lan dudu fase, amarga fase kasebut kacau lan angel sinau. Nanging, kita nggunakake algoritma Griffin-Lim kanggo kira-kira fase nalika mbangun maneh klip audio.

Pola-pola kasebut Dheweke uga digunakake kanggo nggawe komposisi sing tahan lama, kasusun saka seri perangan sing cedhak siji liyane, sing rada beda-beda saka wektu. Pecahan sing digawe kanthi kapisah digabung dadi aliran terus-terusan kanthi interpolasi parameter internal model.

Tong frekuensi ing spektrogram kita nggunakake skala Mel, yaiku skala persepsi pitches sing diadili dening pamireng minangka jarak sing padha.

Ing ngisor iki minangka gambar sing digambar tangan sing diinterpretasikake minangka spektrogram lan diowahi dadi audio. Play liwat kanggo njaluk aran intuisi kanggo carane padha bisa. Gatekna carane sampeyan bisa krungu nada saka loro kurva ing setengah ngisor, lan carane papat garis vertikal ing setengah ndhuwur gawé irama padha swara hi-hat.

Transformasi Fourier (transformasi matematika sing digunakake kanggo ngowahi sinyal antarane domain wektu lan domain frekuensi) digunakake kanggo nggawe spektrogram saka swara. Nalika nggawe ulang swara saka spektrogram, ana masalah karo penentuan fase (mung frekuensi lan amplitudo sing ana ing spektrogram), sing digunakake kanggo rekonstruksi algoritma perkiraan Griffin-Lim.

Naleni antarmuka dileksanakake ing basa TypeScript lan uga disebarake miturut lisensi MIT. Model sing dilatih dirilis miturut lisensi Creative ML OpenRAIL-M kanggo panggunaan komersial.

Yen sampeyan pengin ngerti luwih lengkap babagan iki, sampeyan bisa takon ing rincian ing link ing ngisor iki.


Konten artikel kasebut sesuai karo prinsip kita yaiku etika editorial. Kanggo nglaporake klik kesalahan Kene.

Dadi pisanan komentar

Ninggalake komentar sampeyan

Panjenengan alamat email ora bisa diterbitake. Perangkat kothak ditandhani karo *

*

*

  1. Tanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Kontrol SPAM, manajemen komentar.
  3. Legitimasi: idin sampeyan
  4. Komunikasi data: Data kasebut ora bakal dikomunikasikake karo pihak katelu kajaba kanthi kewajiban ukum.
  5. Panyimpenan data: Database sing dianakake dening Occentus Networks (EU)
  6. Hak: Kapan wae sampeyan bisa matesi, mulihake lan mbusak informasi sampeyan.