நிலையான பரவல் 2.0, படங்களை ஒருங்கிணைத்து மாற்றியமைக்கும் திறன் கொண்ட AI

நிலையான பரவல் 2.0

நிலையான பரவல் 2.0 உடன் படம் உருவாக்கப்பட்டது

சமீபத்தில் நிலைத்தன்மை AI, வெளியிடப்பட்டது ஒரு வலைப்பதிவு இடுகை வழியாக அமைப்பின் இரண்டாவது பதிப்பு தானியங்கி கற்றல் நிலையான பரவல், இது பரிந்துரைக்கப்பட்ட டெம்ப்ளேட் அல்லது இயல்பான மொழி உரை விளக்கத்தின் அடிப்படையில் படங்களை ஒருங்கிணைத்து மாற்றியமைக்கும் திறன் கொண்டது.

நிலையான பரவல் ஆகும் ஒரு இயந்திர கற்றல் மாதிரி ஸ்டேபிலிட்டி AI ஆல் உருவாக்கப்பட்டது இயல்பான மொழி விளக்கங்களிலிருந்து உயர்தர டிஜிட்டல் படங்களை உருவாக்க. இந்த மாதிரியானது உரை-வழிகாட்டப்பட்ட படத்திலிருந்து பட மொழிபெயர்ப்புகளை உருவாக்குதல் மற்றும் படத்தை மேம்படுத்துதல் போன்ற பல்வேறு பணிகளுக்குப் பயன்படுத்தப்படலாம்.

DALL-E போன்ற போட்டியிடும் மாடல்களைப் போலன்றி, நிலையான பரவலானது திறந்த மூலமாகும்1 மற்றும் அது உருவாக்கும் படங்களை செயற்கையாகக் கட்டுப்படுத்தாது. AI இன் நெறிமுறைகள் குறித்து விமர்சகர்கள் கவலைகளை எழுப்பியுள்ளனர், இந்த மாதிரியானது டீப்ஃபேக்குகளை உருவாக்க பயன்படுத்தப்படலாம் என்று கூறினர்.

எல்எம்யு முனிச்சில் உள்ள கம்ப்விஸ் குழுமத்தைச் சேர்ந்த ராபின் ரோம்பாக் (ஸ்டெபிலிட்டி ஏஐ) மற்றும் பேட்ரிக் எஸ்ஸர் (ரன்வே எம்எல்) ஆகியோரின் டைனமிக் குழு, பேராசிரியர் டாக்டர். பிஜோர்ன் ஓமர் தலைமையில், நிலையான பரவல் V1 இன் அசல் வெளியீட்டிற்கு வழிவகுத்தது. அவர்கள் தங்கள் முந்தைய ஆய்வக வேலைகளை மறைந்திருக்கும் பரவல் மாதிரிகள் மூலம் உருவாக்கினர் மற்றும் LAION மற்றும் Eleuther AI இன் முக்கியமான ஆதரவைப் பெற்றனர். எங்கள் முந்தைய வலைப்பதிவு இடுகையில் நிலையான பரவல் V1 இன் அசல் வெளியீட்டைப் பற்றி மேலும் படிக்கலாம். எங்களின் பரந்த குழுவுடன் அடுத்த தலைமுறை மீடியா மாடல்களை உருவாக்க ஸ்டேபிலிட்டி AI இல் கேத்தரின் க்ரோசனுடன் இணைந்து ராபின் இப்போது முயற்சி செய்கிறார்.

அசல் V2.0 பதிப்போடு ஒப்பிடும்போது நிலையான பரவல் 1 பல சிறந்த மேம்பாடுகள் மற்றும் அம்சங்களை வழங்குகிறது.

நிலையான பரவல் 2.0 இன் முக்கிய செய்தி

வழங்கப்பட்ட இந்த புதிய பதிப்பில் உரை விளக்கத்தின் அடிப்படையில் ஒரு புதிய பட தொகுப்பு மாதிரி உருவாக்கப்பட்டது "SD2.0-v", இது 768×768 தீர்மானம் கொண்ட படங்களை உருவாக்குவதை ஆதரிக்கிறது. புதிய மாடல் 5 பில்லியன் படங்களின் LAION-5850B தொகுப்பைப் பயன்படுத்தி உரை விளக்கங்களுடன் பயிற்சியளிக்கப்பட்டது.

இந்த மாதிரியானது நிலையான பரவல் 1.5 மாதிரியின் அதே அளவுருக்களைப் பயன்படுத்துகிறது, ஆனால் அடிப்படையில் வேறுபட்ட OpenCLIP-ViT/H குறியாக்கியின் பயன்பாட்டிற்கு மாறுவதன் மூலம் வேறுபடுகிறது, இதன் விளைவாக உருவான படங்களின் தரத்தை கணிசமாக மேம்படுத்த முடிந்தது.

ஏ தயாரிக்கப்பட்டுள்ளது SD2.0-அடிப்படையின் எளிமைப்படுத்தப்பட்ட பதிப்பு, கிளாசிக்கல் இரைச்சல் முன்கணிப்பு மாதிரியைப் பயன்படுத்தி 256×256 படங்களில் பயிற்சியளிக்கப்பட்டது மற்றும் 512×512 தெளிவுத்திறனுடன் படங்களை உருவாக்குவதை ஆதரிக்கிறது.

இது தவிர, இதுவும் சிறப்பம்சமாக உள்ளது சூப்பர் சாம்ப்ளிங் தொழில்நுட்பத்தைப் பயன்படுத்துவதற்கான வாய்ப்பு வழங்கப்படுகிறது (சூப்பர் ரெசல்யூஷன்) ஸ்பேஷியல் ஸ்கேலிங் மற்றும் டீடெய்ல் ரீகஸ்ட்ரக்ஷன் அல்காரிதம்களைப் பயன்படுத்தி, தரத்தை குறைக்காமல் அசல் படத்தின் தெளிவுத்திறனை அதிகரிக்க.

மற்ற மாற்றங்களில் இந்த புதிய பதிப்பிலிருந்து தனித்து நிற்கும்:

  • வழங்கப்பட்ட பட செயலாக்க மாதிரி (SD20-upscaler) 4x உருப்பெருக்கத்தை ஆதரிக்கிறது, இது 2048×2048 தீர்மானம் கொண்ட படங்களை உருவாக்க அனுமதிக்கிறது.
  • நிலையான பரவல் 2.0 ஆனது ஒரு உயர்தர பரவல் மாதிரியையும் உள்ளடக்கியது, இது படத்தின் தெளிவுத்திறனை 4 மடங்கு மூலம் மேம்படுத்துகிறது.
  • SD2.0-depth2img மாதிரி முன்மொழியப்பட்டது, இது பொருட்களின் ஆழம் மற்றும் இடஞ்சார்ந்த அமைப்பை கணக்கில் எடுத்துக்கொள்கிறது. மோனோகுலர் ஆழத்தை மதிப்பிடுவதற்கு MiDaS அமைப்பு பயன்படுத்தப்படுகிறது.
  • புதிய ஸ்டேபிள் டிஃப்யூஷன் 2.0 டெக்ஸ்ட்-டு-இமேஜ் பேஸ்ஸில் சிறந்த டியூன் செய்யப்பட்ட புதிய டெக்ஸ்ட் டிரைவ் இன்டீரியர் பெயிண்ட் மாடல்
  • மற்றொரு படத்தை டெம்ப்ளேட்டாகப் பயன்படுத்தி புதிய படங்களை ஒருங்கிணைக்க இந்த மாதிரி உங்களை அனுமதிக்கிறது, இது அசலில் இருந்து முற்றிலும் வேறுபட்டதாக இருக்கலாம், ஆனால் ஒட்டுமொத்த கலவை மற்றும் ஆழத்தைத் தக்க வைத்துக் கொள்ளும். உதாரணமாக, ஒரு புகைப்படத்தில் உள்ள ஒரு நபரின் போஸைப் பயன்படுத்தி அதே போஸில் மற்றொரு கதாபாத்திரத்தை உருவாக்கலாம்.
  • படங்களை மாற்றுவதற்கான மேம்படுத்தப்பட்ட மாதிரி: SD 2.0-inpainting, இது படத்தின் பகுதிகளை மாற்றவும் மாற்றவும் உரை குறிப்புகளைப் பயன்படுத்த அனுமதிக்கிறது.
  • மாதிரிகள் GPU உடன் பிரதான அமைப்புகளில் பயன்படுத்த உகந்ததாக உள்ளது.

இறுதியாக ஆம் நீங்கள் அதைப் பற்றி மேலும் தெரிந்து கொள்ள ஆர்வமாக உள்ளீர்கள், நியூரல் நெட்வொர்க் பயிற்சி மற்றும் இமேஜிங் கருவிகளுக்கான குறியீடு PyTorch கட்டமைப்பைப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டு MIT உரிமத்தின் கீழ் வெளியிடப்பட்டது என்பதை நீங்கள் அறிந்திருக்க வேண்டும்.

முன் பயிற்சி பெற்ற மாதிரிகள் கிரியேட்டிவ் ML OpenRAIL-M அனுமதி உரிமத்தின் கீழ் திறக்கப்படுகின்றன, இது வணிக ரீதியான பயன்பாட்டை அனுமதிக்கிறது.

மூல: https://stability.ai


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுக்கு பொறுப்பு: மிகுவல் ஏஞ்சல் கேடன்
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.