Riffusion, mašininio mokymosi sistema, kurianti muziką

Rifuzija

Riffusion yra stabili difuzijos mašinų mokymosi sistema, pritaikyta muzikinei sintezei

Naujo projekto pradžia vadinama „Riffusion“ kuria stabilios difuzijos mašininio mokymosi sistemos variantą pritaikyta kurti muziką, o ne vaizdus. Muziką galima sintetinti pagal siūlomą šabloną arba natūralios kalbos teksto aprašymą.

Muzikos sintezės komponentai parašyti Python naudojant PyTorch sistemą ir yra prieinami pagal MIT licenciją.

El proyecto Tai įdomu, nes jame vis dar naudojami modeliai „tekstas į vaizdą“ ir „vaizdas į vaizdą“. muzikos generavimui, bet manipuliuoja spektrogramomis taip, lyg tai būtų vaizdai.

Kitaip tariant, Klasikinė stabili difuzija pagrįsta ne nuotraukomis ir vaizdais, o spektrogramų vaizdais Jie atspindi garso bangos dažnio ir amplitudės pokyčius laikui bėgant. Todėl išvestyje taip pat susidaro spektrograma, kuri vėliau konvertuojama į garso atvaizdą.

Tai v1.5 stabilios difuzijos modelis be modifikacijų, tik pritaikytas prie teksto suporuotų spektrogramų vaizdų. Garso apdorojimas vyksta po modelio.

Keisdami pradžią galite generuoti begalę skelbimo variantų. Visos tos pačios žiniatinklio vartotojo sąsajos ir metodai, tokie kaip img2img, inpainting, neigiamos indikacijos ir interpoliacija, veikia iš karto.

spektrogramos
Garso spektrograma yra vaizdinis garso klipo dažnio turinio atvaizdavimo būdas. X ašis žymi laiką, y ašis – dažnį. Kiekvieno pikselio spalva nurodo garso amplitudę dažniu ir laiku, nurodytu jo eilutėje ir stulpelyje.

Minima, kad metodas taip pat gali būti naudojamas esamoms garso kompozicijoms modifikuoti ir pavyzdinės muzikos sintezei, panašus į vaizdo modifikavimą stabilioje difuzijoje.

Pavyzdžiui, karta gali nustatyti pavyzdines spektrogramas į atskaitos stilių, derinti skirtingus stilius, sklandžiai pereiti iš vieno stiliaus į kitą arba pakeisti esamą garsą, kad išspręstų tokias problemas kaip atskirų instrumentų garsumo didinimas, ritmo keitimas ir pakeitimas. instrumentų.

STFT yra apverčiamas, todėl originalų garsą galima atkurti iš spektrogramos. Tačiau mūsų modelio spektrogramos vaizduose yra tik sinusinių bangų amplitudė, o ne fazės, nes fazės yra chaotiškos ir sunkiai išmokstamos. Vietoj to mes naudojame Griffin-Lim algoritmą, kad apytiksliai įvertintume fazę, kai rekonstruojame garso klipą.

Šablonai Jie taip pat naudojami ilgalaikėms kompozicijoms sukurti, sudarytas iš greta vienas kito esančių ištraukų, kurios laikui bėgant šiek tiek skiriasi. Atskirai sukurti fragmentai sujungiami į nenutrūkstamą srautą, interpoliuojant vidinius modelio parametrus.

Mūsų spektrogramos dažnių juostose naudojama Mel skalė, kuri yra suvokimo skalė, kurią klausytojai vertina kaip vienodu atstumu vienas nuo kito.

Žemiau yra ranka nupieštas vaizdas, interpretuojamas kaip spektrograma ir konvertuotas į garsą. Žaiskite, kad intuityviai pajustumėte, kaip jie dirba. Atkreipkite dėmesį, kaip galite išgirsti dviejų kreivių tonus apatinėje pusėje ir kaip keturios vertikalios linijos viršutinėje pusėje sukuria ritmus, panašius į „hi-hat“ garsą.

Furjė transformacija (matematinė transformacija, naudojama signalams transformuoti tarp laiko srities ir dažnio srities) naudojama spektrogramai iš garso sukurti. Atkuriant garsą iš spektrogramos, iškyla fazių nustatymo problema (spektrogramoje yra tik dažnis ir amplitudė), kuriai rekonstrukcijai naudojamas Grifino-Limo ​​aproksimacijos algoritmas.

Sąsajos susiejimas įdiegtas TypeScript kalba ir taip pat platinamas pagal MIT licenciją. Išmokyti modeliai išleidžiami pagal Creative ML OpenRAIL-M leidimą komerciniam naudojimui.

Jei norite sužinoti daugiau apie tai, galite kreiptis į išsami informacija šioje nuorodoje.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.