Riffusion, இசையை உருவாக்கும் இயந்திர கற்றல் அமைப்பு

கொந்தளிப்பு

ரிஃப்யூஷன் என்பது இசை தொகுப்புக்கு ஏற்ற ஒரு நிலையான பரவல் இயந்திர கற்றல் அமைப்பாகும்

என்ற புதிய திட்டத்தின் துவக்கம் "ரிஃப்யூஷன்" நிலையான பரவல் இயந்திர கற்றல் அமைப்பின் மாறுபாட்டை உருவாக்குகிறது படங்களுக்கு பதிலாக இசையை உருவாக்குவதற்கு ஏற்றது. பரிந்துரைக்கப்பட்ட டெம்ப்ளேட் அல்லது இயல்பான மொழி உரை விளக்கத்தின் அடிப்படையில் இசையை ஒருங்கிணைக்க முடியும்.

இசை தொகுப்பு கூறுகள் PyTorch கட்டமைப்பைப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டு MIT உரிமத்தின் கீழ் கிடைக்கின்றன.

திட்டம் இது இன்னும் "உரையிலிருந்து படத்திற்கு" மற்றும் "படத்திலிருந்து படத்திற்கு" மாதிரிகளைப் பயன்படுத்துவதால் இது சுவாரஸ்யமானது. இசை உருவாக்கத்திற்காக, ஆனால் ஸ்பெக்ட்ரோகிராம்களை அவை படங்கள் போல கையாளுகிறது.

வேறு வார்த்தைகளில் கூறுவதானால், கிளாசிக் ஸ்டேபிள் டிஃப்யூஷன் புகைப்படங்கள் மற்றும் படங்களை அடிப்படையாகக் கொண்டது அல்ல, மாறாக ஸ்பெக்ட்ரோகிராம் படங்களை அடிப்படையாகக் கொண்டது அவை காலப்போக்கில் ஒலி அலையின் அதிர்வெண் மற்றும் வீச்சு மாற்றத்தை பிரதிபலிக்கின்றன. இதன் விளைவாக, வெளியீட்டில் ஒரு ஸ்பெக்ட்ரோகிராம் உருவாகிறது, அது ஆடியோ பிரதிநிதித்துவமாக மாற்றப்படுகிறது.

இது எந்த மாற்றங்களும் இல்லாத v1.5 நிலையான டிஃப்யூஷன் மாடலாகும், இது வெறும் டெக்ஸ்ட்-ஜோடி ஸ்பெக்ட்ரோகிராம் படங்களில் பொருத்தப்பட்டுள்ளது. ஆடியோ செயலாக்கம் மாதிரியின் கீழ்நோக்கி நிகழ்கிறது.

விதையை மாற்றுவதன் மூலம் நீங்கள் ஒரு விளம்பரத்தின் எல்லையற்ற மாறுபாடுகளை உருவாக்கலாம். ஒரே மாதிரியான இணைய பயனர் இடைமுகங்கள் மற்றும் img2img, inpainting, எதிர்மறை அறிகுறிகள் மற்றும் இடைக்கணிப்பு போன்ற நுட்பங்கள் பெட்டிக்கு வெளியே செயல்படுகின்றன.

ஸ்பெக்ட்ரோகிராம்கள்
ஆடியோ ஸ்பெக்ட்ரோகிராம் என்பது ஒலி கிளிப்பின் அதிர்வெண் உள்ளடக்கத்தைக் குறிக்கும் ஒரு காட்சி வழி. x அச்சு நேரத்தையும், y அச்சு அதிர்வெண்ணையும் குறிக்கிறது. ஒவ்வொரு பிக்சலின் நிறமும் அதன் வரிசை மற்றும் நெடுவரிசையால் கொடுக்கப்பட்ட அதிர்வெண் மற்றும் நேரத்தின் ஒலியின் வீச்சைக் கொடுக்கிறது.

என்று குறிப்பிடப்பட்டுள்ளது ஏற்கனவே உள்ள ஒலி அமைப்புகளையும், மாதிரி இசையின் தொகுப்பையும் மாற்றுவதற்கும் இந்த முறையைப் பயன்படுத்தலாம், நிலையான பரவலில் பட மாற்றம் போன்றது.

எடுத்துக்காட்டாக, தலைமுறை மாதிரி ஸ்பெக்ட்ரோகிராம்களை ஒரு குறிப்பு பாணியில் அமைக்கலாம், வெவ்வேறு பாணிகளை இணைக்கலாம், ஒரு பாணியிலிருந்து மற்றொரு பாணிக்கு சுமூகமாக மாறலாம் அல்லது தனிப்பட்ட கருவிகளின் அளவை அதிகரிப்பது, தாளத்தை மாற்றுவது மற்றும் மாற்றுவது போன்ற சிக்கல்களைத் தீர்க்க ஏற்கனவே இருக்கும் ஒலியில் மாற்றங்களைச் செய்யலாம். கருவிகளின்.

STFT தலைகீழானது, எனவே அசல் ஆடியோவை ஸ்பெக்ட்ரோகிராமில் இருந்து மறுகட்டமைக்க முடியும். எவ்வாறாயினும், எங்கள் மாதிரியின் ஸ்பெக்ட்ரோகிராம் படங்கள் சைன் அலைகளின் வீச்சுகளை மட்டுமே கொண்டிருக்கின்றன, கட்டங்கள் அல்ல, ஏனெனில் கட்டங்கள் குழப்பமானவை மற்றும் கற்றுக்கொள்வது கடினம். அதற்கு பதிலாக, ஆடியோ கிளிப்பை மறுகட்டமைக்கும் போது கட்டத்தை தோராயமாக மதிப்பிட க்ரிஃபின்-லிம் அல்காரிதத்தைப் பயன்படுத்துகிறோம்.

வடிவங்கள் அவை நீண்ட கால கலவைகளை உருவாக்கவும் பயன்படுத்தப்படுகின்றன. ஒன்றோடொன்று நெருங்கிய தொடர் பத்திகளால் ஆனது, இது காலப்போக்கில் சிறிது மாறுபடும். தனித்தனியாக உருவாக்கப்பட்ட துண்டுகள் மாதிரியின் உள் அளவுருக்களை இடைக்கணிப்பதன் மூலம் தொடர்ச்சியான ஸ்ட்ரீமில் இணைக்கப்படுகின்றன.

எங்கள் ஸ்பெக்ட்ரோகிராமில் உள்ள அதிர்வெண் தொட்டிகள் மெல் அளவைப் பயன்படுத்துகின்றன, இது ஒரு புலனுணர்வு அளவுகோல் ஆகும், இது கேட்பவர்களால் ஒருவருக்கொருவர் ஒரே தூரத்தில் இருக்கும்.

கீழே ஒரு கையால் வரையப்பட்ட படம் ஸ்பெக்ட்ரோகிராம் என விளக்கப்பட்டு ஆடியோவாக மாற்றப்பட்டது. அவர்கள் எவ்வாறு செயல்படுகிறார்கள் என்பதற்கான உள்ளுணர்வு உணர்வைப் பெற இதை விளையாடுங்கள். கீழ் பாதியில் உள்ள இரண்டு வளைவுகளின் டோன்களை நீங்கள் எவ்வாறு கேட்க முடியும் என்பதையும், மேல் பாதியில் உள்ள நான்கு செங்குத்து கோடுகள் ஹை-ஹாட் ஒலியைப் போன்ற தாளங்களை எவ்வாறு உருவாக்குகின்றன என்பதையும் கவனியுங்கள்.

ஒரு ஃபோரியர் உருமாற்றம் (நேர டொமைன் மற்றும் அதிர்வெண் டொமைன் இடையே சமிக்ஞைகளை மாற்றுவதற்குப் பயன்படுத்தப்படும் ஒரு கணித மாற்றம்) ஒலியிலிருந்து ஸ்பெக்ட்ரோகிராம் உருவாக்கப் பயன்படுகிறது. ஸ்பெக்ட்ரோகிராமில் இருந்து ஒலியை மீண்டும் உருவாக்கும்போது, ​​கட்ட நிர்ணயத்தில் சிக்கல் உள்ளது (ஸ்பெக்ட்ரோகிராமில் அதிர்வெண் மற்றும் அலைவீச்சு மட்டுமே உள்ளது), இதற்காக க்ரிஃபின்-லிம் தோராயமான அல்காரிதம் மறுகட்டமைக்கப்படுகிறது.

இடைமுக பிணைப்பு டைப்ஸ்கிரிப்ட் மொழியில் செயல்படுத்தப்பட்டு விநியோகிக்கப்படுகிறது MIT உரிமத்தின் கீழ். பயிற்சியளிக்கப்பட்ட மாதிரிகள் வணிக பயன்பாட்டிற்காக கிரியேட்டிவ் ML OpenRAIL-M அனுமதி உரிமத்தின் கீழ் வெளியிடப்படுகின்றன.

நீங்கள் இதைப் பற்றி மேலும் தெரிந்து கொள்ள விரும்பினால், நீங்கள் ஆலோசிக்கலாம் பின்வரும் இணைப்பில் விவரங்கள்.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுக்கு பொறுப்பு: மிகுவல் ஏஞ்சல் கேடன்
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.