نقطه E هوش مصنوعی جدید OpenAI برای تولید تصویر است
OpenAI قابلیت های خود را گسترش داده است از نرم افزار ai text شماتصویر دو تا سه بعدی با راه اندازی نقطه E، UNA هوش مصنوعی که تصاویر سه بعدی را از پیام های متنی تولید می کند. بر اساس یک سند کدپایه منتشر شده، Point-E برای اجرا به کامپیوتری پیشرفته نیاز ندارد و میتواند یک مدل را در کمتر از دو دقیقه با یک پردازنده گرافیکی Nvidia V100 تولید کند.
با این کار می توانیم ببینیم که ژنراتورهای مدل سه بعدی می توانند پیشرفت بعدی باشند که دنیای هوش مصنوعی را طوفانی خواهد کرد. OpenAI امسال بسیار فعال بوده است، به عنوان مثال در اینجا در وبلاگ ما در مورد این شرکت برای دو پروژه بزرگ آن صحبت کرده ایم: Dall-E 3 و ChatGPT.
بین این دو پلتفرم عظیم هوش مصنوعی، این شرکت به تولید تصاویر و متن طولانی از یک پیام متنی ساده کمک کرد، و اکنون این شرکت با مفهوم سومی بازگشته است که درست قبل از کریسمس راه اندازی شد تا علاقه همه را برانگیزد. این مفهوم سوم که Point-E نام دارد، از الگوی مشابهی پیروی می کند و محتوای سه بعدی را از اعلان های ساده ایجاد می کند.
در یک مقاله تحقیقاتی منتشر شده توسط تیم OpenAI اعلام شد، نقطه E در دو مرحله کار می کند: اول از هوش مصنوعی متن به تصویر استفاده می کند برای تبدیل درخواست شفاهی شما به تصویر، سپس از یک تابع دوم برای تبدیل این تصویر به یک مدل سه بعدی استفاده کنید.
Point-E منبع باز است و کد منبع آن در Github موجود است. با این حال، امتحان کردن می تواند کمی دشوار باشد، زیرا کاربران باید با ابزارهای خط فرمان آشنایی کافی داشته باشند و سیستم باید پایتون داشته باشد، برخلاف ChatGPT، که کاربران می توانند در یک وب سایت ثبت نام کنند و مهارت های خود را آزمایش کنند.
Point-E اشیاء سه بعدی را به معنای سنتی ایجاد نمی کند، بلکه ابرهای نقطه ای تولید می کند، یعنی مجموعه های گسسته ای از نقاط داده در فضا که یک شکل سه بعدی را نشان می دهند، از این رو مخفف گسسته است.
("E" در Point-E مخفف "کارآمدی" است زیرا ظاهراً سریعتر از رویکردهای قبلی برای رندر کردن اشیاء سه بعدی است.) به گفته توسعهدهندگان، ترکیب ابرهای نقطهای از نظر محاسباتی آسانتر است، اما شکل یا بافت ظریف یک شی را نمیگیرند، که در حال حاضر یکی از محدودیتهای اصلی Point-E است.
برای جلوگیری از این محدودیت، تیم Point-E یک سیستم هوش مصنوعی اضافی را برای تبدیل ابرهای نقطه ای به شبکه آموزش داد. (مشها، مجموعهای از رئوس، لبهها و وجههایی که یک شی را تعریف میکنند، معمولاً در مدلسازی و طراحی سهبعدی استفاده میشوند.) اما محققان آنها اشاره می کنند در مقاله خود که مدل گاهی اوقات ممکن است بخش هایی از اشیاء را از دست بدهد، که منجر به شکل های مخدوش یا مسدود می شود. علاوه بر مدل تولید مش، که مستقل است، Point-E از دو مدل تشکیل شده است: یک مدل تصویر متنی و یک مدل تصویر سه بعدی.
مدل متن-تصویر، شبیه به سیستم های تولید آثار هنری مانند DALL-E 2 و Stable Diffusion، برای درک ارتباط بین کلمات و مفاهیم بصری روی تصاویر برچسبگذاری شده آموزش دیده است. از سوی دیگر، مدل تصویر سهبعدی، مجموعهای از تصاویر مرتبط با اشیاء سهبعدی را برای یادگیری نحوه ترجمه مؤثر این دو مورد تغذیه قرار داد. هنگامی که یک پیام متنی به شما داده می شود، برای مثال "یک چرخ دنده قابل چاپ سه بعدی، یک چرخ دنده منفرد به قطر 3 سانتی متر و ضخامت 3 سانتی متر"، مدل متن به تصویر Point-E یک شی مصنوعی رندر شده تولید می کند که به تصویر می رود. -مدل سه بعدی
دومی سپس ابری از نقاط را ایجاد می کند. به گفته محققان OpenAI، پس از آموزش مدلها بر روی مجموعه دادهای از «چند میلیون» شی سهبعدی و ابردادههای مرتبط، Point-E توانست ابرهای نقطهای رنگی تولید کند که اغلب با اعلانهای متنی مطابقت دارند. کامل نیست: مدل تصویر سه بعدی Point-E گاهی اوقات تصویر را از مدل تصویر متنی درک نمی کند، در نتیجه شکلی با پیام متنی مطابقت ندارد. با این حال، حداقل طبق گفته تیم OpenAI، این بسیار سریعتر از وضعیت قبلی هنر است.
نتیجه تا رسیدن به کیفیت یک رندر سه بعدی تجاری در یک فیلم یا یک بازی ویدیویی فاصله زیادی دارد. اما قرار نیست اینطور باشد. هنگامی که آنها به یک برنامه سه بعدی مانند Blender وارد می شوند، می توانند به مش های بافتی تبدیل شوند که بیشتر شبیه تصاویر سه بعدی معمولی هستند.
محققان OpenAI در مقاله ای که این پروژه را توصیف می کند، توضیح می دهند: «اگرچه روش ما از نظر کیفیت نمونه برداری هنوز عالی نیست، اما یک یا دو مرتبه بزرگتر سریعتر است، که یک مصالحه عملی برای برخی موارد استفاده است.
بالاخره بله شما علاقه مند به دانستن کد منبع یا بیشتر هستید در مورد Point-E می توانید جزئیات را در قسمت بررسی کنید لینک زیر
اولین کسی باشید که نظر