Point-E راه حل جدید OpenAI که تصاویر سه بعدی تولید می کند

نقطه E

نقطه E هوش مصنوعی جدید OpenAI برای تولید تصویر است

OpenAI قابلیت های خود را گسترش داده است از نرم افزار ai text شماتصویر دو تا سه بعدی با راه اندازی نقطه E، UNA هوش مصنوعی که تصاویر سه بعدی را از پیام های متنی تولید می کند. بر اساس یک سند کدپایه منتشر شده، Point-E برای اجرا به کامپیوتری پیشرفته نیاز ندارد و می‌تواند یک مدل را در کمتر از دو دقیقه با یک پردازنده گرافیکی Nvidia V100 تولید کند.

با این کار می توانیم ببینیم که ژنراتورهای مدل سه بعدی می توانند پیشرفت بعدی باشند که دنیای هوش مصنوعی را طوفانی خواهد کرد. OpenAI امسال بسیار فعال بوده است، به عنوان مثال در اینجا در وبلاگ ما در مورد این شرکت برای دو پروژه بزرگ آن صحبت کرده ایم: Dall-E 3 و ChatGPT.

بین این دو پلتفرم عظیم هوش مصنوعی، این شرکت به تولید تصاویر و متن طولانی از یک پیام متنی ساده کمک کرد، و اکنون این شرکت با مفهوم سومی بازگشته است که درست قبل از کریسمس راه اندازی شد تا علاقه همه را برانگیزد. این مفهوم سوم که Point-E نام دارد، از الگوی مشابهی پیروی می کند و محتوای سه بعدی را از اعلان های ساده ایجاد می کند.

در یک مقاله تحقیقاتی منتشر شده توسط تیم OpenAI اعلام شد، نقطه E در دو مرحله کار می کند: اول از هوش مصنوعی متن به تصویر استفاده می کند برای تبدیل درخواست شفاهی شما به تصویر، سپس از یک تابع دوم برای تبدیل این تصویر به یک مدل سه بعدی استفاده کنید.

Point-E منبع باز است و کد منبع آن در Github موجود است. با این حال، امتحان کردن می تواند کمی دشوار باشد، زیرا کاربران باید با ابزارهای خط فرمان آشنایی کافی داشته باشند و سیستم باید پایتون داشته باشد، برخلاف ChatGPT، که کاربران می توانند در یک وب سایت ثبت نام کنند و مهارت های خود را آزمایش کنند.

Point-E اشیاء سه بعدی را به معنای سنتی ایجاد نمی کند، بلکه ابرهای نقطه ای تولید می کند، یعنی مجموعه های گسسته ای از نقاط داده در فضا که یک شکل سه بعدی را نشان می دهند، از این رو مخفف گسسته است.

("E" در Point-E مخفف "کارآمدی" است زیرا ظاهراً سریعتر از رویکردهای قبلی برای رندر کردن اشیاء سه بعدی است.) به گفته توسعه‌دهندگان، ترکیب ابرهای نقطه‌ای از نظر محاسباتی آسان‌تر است، اما شکل یا بافت ظریف یک شی را نمی‌گیرند، که در حال حاضر یکی از محدودیت‌های اصلی Point-E است.

برای جلوگیری از این محدودیت، تیم Point-E یک سیستم هوش مصنوعی اضافی را برای تبدیل ابرهای نقطه ای به شبکه آموزش داد. (مش‌ها، مجموعه‌ای از رئوس، لبه‌ها و وجه‌هایی که یک شی را تعریف می‌کنند، معمولاً در مدل‌سازی و طراحی سه‌بعدی استفاده می‌شوند.) اما محققان آنها اشاره می کنند در مقاله خود که مدل گاهی اوقات ممکن است بخش هایی از اشیاء را از دست بدهد، که منجر به شکل های مخدوش یا مسدود می شود. علاوه بر مدل تولید مش، که مستقل است، Point-E از دو مدل تشکیل شده است: یک مدل تصویر متنی و یک مدل تصویر سه بعدی.

مدل متن-تصویر، شبیه به سیستم های تولید آثار هنری مانند DALL-E 2 و Stable Diffusion، برای درک ارتباط بین کلمات و مفاهیم بصری روی تصاویر برچسب‌گذاری شده آموزش دیده است. از سوی دیگر، مدل تصویر سه‌بعدی، مجموعه‌ای از تصاویر مرتبط با اشیاء سه‌بعدی را برای یادگیری نحوه ترجمه مؤثر این دو مورد تغذیه قرار داد. هنگامی که یک پیام متنی به شما داده می شود، برای مثال "یک چرخ دنده قابل چاپ سه بعدی، یک چرخ دنده منفرد به قطر 3 سانتی متر و ضخامت 3 سانتی متر"، مدل متن به تصویر Point-E یک شی مصنوعی رندر شده تولید می کند که به تصویر می رود. -مدل سه بعدی

دومی سپس ابری از نقاط را ایجاد می کند. به گفته محققان OpenAI، پس از آموزش مدل‌ها بر روی مجموعه داده‌ای از «چند میلیون» شی سه‌بعدی و ابرداده‌های مرتبط، Point-E توانست ابرهای نقطه‌ای رنگی تولید کند که اغلب با اعلان‌های متنی مطابقت دارند. کامل نیست: مدل تصویر سه بعدی Point-E گاهی اوقات تصویر را از مدل تصویر متنی درک نمی کند، در نتیجه شکلی با پیام متنی مطابقت ندارد. با این حال، حداقل طبق گفته تیم OpenAI، این بسیار سریعتر از وضعیت قبلی هنر است.

نتیجه تا رسیدن به کیفیت یک رندر سه بعدی تجاری در یک فیلم یا یک بازی ویدیویی فاصله زیادی دارد. اما قرار نیست اینطور باشد. هنگامی که آنها به یک برنامه سه بعدی مانند Blender وارد می شوند، می توانند به مش های بافتی تبدیل شوند که بیشتر شبیه تصاویر سه بعدی معمولی هستند.

محققان OpenAI در مقاله ای که این پروژه را توصیف می کند، توضیح می دهند: «اگرچه روش ما از نظر کیفیت نمونه برداری هنوز عالی نیست، اما یک یا دو مرتبه بزرگتر سریعتر است، که یک مصالحه عملی برای برخی موارد استفاده است.

بالاخره بله شما علاقه مند به دانستن کد منبع یا بیشتر هستید در مورد Point-E می توانید جزئیات را در قسمت بررسی کنید لینک زیر


محتوای مقاله به اصول ما پیوست اخلاق تحریریه. برای گزارش یک خطا کلیک کنید اینجا.

اولین کسی باشید که نظر

نظر خود را بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند با *

*

*

  1. مسئول داده ها: میگل آنخل گاتون
  2. هدف از داده ها: کنترل هرزنامه ، مدیریت نظرات.
  3. مشروعیت: رضایت شما
  4. ارتباط داده ها: داده ها به اشخاص ثالث منتقل نمی شوند مگر با تعهد قانونی.
  5. ذخیره سازی داده ها: پایگاه داده به میزبانی شبکه های Occentus (EU)
  6. حقوق: در هر زمان می توانید اطلاعات خود را محدود ، بازیابی و حذف کنید.