По-новите модели OpenAI вече рисуват и разпознават обектите по-ефективно

Изследователите на OpenAI са разработили две невронни мрежи Те могат да рисуват обекти според указанията на потребителя на естествен език и да описват изображения с висока степен на точност.

Проектите, които те станаха известни преди няколко дни разширяване на кръга от задачи, към които може да се приложи изкуствен интелект, и допълнително напредване на целта на изследователската общност за изкуствен интелект да създаде по-гъвкави модели, които изискват по-малко ръчни настройки от инженерите, за да се получат точни резултати

DALL E, първата невронна мрежа ново, е миниатюризирана версия на модела за обработка на естествен език GPT-3 че OpenAI дебютира през 2020 г. GPT-3, една от най-сложните невронни мрежи, създадени до момента, може да генерира текст и дори софтуерен код от прости описания. DALL E прилага същата способност да рисува изображения, както е указано от потребителя.

Изключителната способност на модела е такава може да създава изображения дори в отговор на описания че се сблъсква за първи път и които обикновено са трудни за ИИ за тълкуване.

По време на тестване от изследователи на OpenAI те успяха да покажат, че моделът може да генерира чертежи успешно в отговор на описания като, в допълнение към това, моделът може да изобразява изображения в няколко различни стила.

Dреши да тества колко точно е универсалният ИИ като го накара да се справи с няколко допълнителни задачи с различна трудност.

В поредица от експерименти моделът се оказа много ефективен, имайки способността да генерира едно и също изображение от множество ъгли и при различни нива на разделителна способност.

Друг тест за AI също показа, че моделът е достатъчно сложен, за да персонализира отделни детайли на изображението, което се иска да генерира.

„Едновременното управление на множество обекти, техните атрибути и техните пространствени взаимоотношения представлява ново предизвикателство“, пишат изследователите на OpenAI в публикация в блог. „Например, помислете за фразата„ таралеж в червена шапка, жълти ръкавици, синя риза и зелен панталон “. За да интерпретира правилно това изречение, DALL · E трябва не само да композира правилно всяка дреха с животното, но и да формира асоциации (шапка, червено), (ръкавици, жълто), (риза, синьо) и (панталон, зелено), без да ги смесва «.

Другата невронна мрежа наскоро подробен OpenAI, Clip, фокусира се върху разпознаването на обекти в съществуващи изображения вместо да рисувате нови.

И въпреки че вече има модели на компютърно зрение, които класифицират изображенията по този начин, важно е да се отбележи, че повечето от тях могат да идентифицират само малък набор от обекти, за които са специално обучени.

Например AI, който класифицира животните в снимки на диви животни, трябва да бъде обучен на голям брой снимки на диви животни, за да се получат точни резултати. Какво отличава Clip от OpenAI е, че е в състояние да създаде описание на обект, който не е откривал преди.

Универсалността на Clip е плод на нов подход за обучение, разработен от лабораторията за изграждане на модела.

За процеса на обучение OpenAI не използва набор от данни за изображения нарисувани ръчно, но снимки получени от публичната мрежа и приложените текстови надписи. Надписите позволяват на Clip да изгради обширен лексикон от думи, свързани с различни видове обекти, асоциации, които след това може да използва, за да опише обекти, които не е виждал преди.

„Дълбокото обучение изисква голямо количество данни, а моделите на зрението традиционно се обучават на ръчно етикетирани набори от данни, които са скъпи за изграждане и осигуряват надзор само за ограничен брой предварително определени визуални концепции“, уточняват изследователите Клип. „По-скоро CLIP се учи от двойките текст и изображения, които вече са публично достъпни в Интернет.“

И накрая, ако искате да научите повече за това За моделите OpenAI можете да проверите подробностите В следващия линк.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.