GPT-4: ИИ за обработка на естествен език на OpenAI може да се появи в края на този семестър

През май 2020 г. OpenAI, компанията за изкуствен интелект, съоснована от Илон Мъск и Сам Алтман, публикува GPT-3, след това представен като страхотната невронна мрежа на момента. Най-съвременен езиков модел, GPT-3 включва 175 милиарда параметри в сравнение с 1,5 милиарда параметри на своя предшественик GPT-2.

GPT-3 победи модела NLG Turing (Turing Natural Language Generation) от Microsoft със 17 милиарда параметра, които преди това държаха рекорда за най-голямата невронна мрежа. Езиковият модел е бил удивен, критикуван и дори подложен на проверка; също така намери нови и интересни приложения.

И сега бяха пуснати слухове, че освобождаването на GPT-4, следващата версия на езиковия модел OpenAI, може да се появи скоро.

Въпреки че все още не е обявена дата на пускане, OpenAI даде някои индикации за характеристиките на наследника на GPT-3, с които мнозина биха могли да очакват, че GPT-4 не трябва да бъде по-голям от GPT-3, но трябва да използва повече изчислителни ресурси, което ще ограничи въздействието му върху околната среда.

По време на сесията, Алтман намекна това, противно на общоприетото схващане, GPT-4 няма да бъде най-големият езиков модел. Моделът несъмнено ще бъде по-голям от предишните поколения невронни мрежи, но размерът няма да бъде негов отличителен белег.

Първо, компаниите осъзнаха, че използването на размера на модела като индикатор за подобряване на производителността не е единственият или най-добрият начин да го направите. Съобщава се, че през 2020 г. Джаред Каплан и неговите колеги от OpenAI са стигнали до заключението, че производителността се подобрява най-много, когато увеличенията на бюджета за изчисления се разпределят основно за увеличаване на броя на параметрите, следвайки връзката на степен-закон. Google, Nvidia, Microsoft, OpenAI, DeepMind и други компании, които разработват езикови модели, приемат тези насоки за номинална стойност.

Но MT-NLG (Megatron-Turing NLG, невронна мрежа, създадена от Nvidia и Microsoft миналата година с 530 милиарда параметра), колкото и да е страхотна, не е най-добрата, когато става въпрос за производителност. Всъщност той не е оценен като най-добрия в нито една категория за сравнение. По-малките модели като Gopher или Chinchilla (70 милиарда параметра), само малка част от техния размер, биха били много по-добри от MT-NLG във всички задачи. Така стана ясно, че размерът на модела не е единственият фактор, който води до по-добро разбиране на езика.

Според Алтман езиковите модели страдат от критично ограничение. когато става въпрос за оптимизация. Обучението би било толкова скъпо, че компаниите ще трябва да правят компромис между точност и цена. Това често води до лошо оптимизиране на моделите.

Главният изпълнителен директор съобщи, че GPT-3 е обучен само веднъж, въпреки някои грешки, които в други случаи биха довели до преквалификация. Съобщава се, че поради това OpenAI се отказа от него поради непосилната цена, което попречи на изследователите да намерят най-добрия набор от хиперпараметри за модела.

Друга последица от високите разходи за обучение е, че анализите на поведението на модела ще бъдат ограничени. Според един доклад, когато изследователите на AI са стигнали до заключението, че размерът на модела е най-подходящата променлива за подобряване на производителността, те не са взели предвид броя на токените за обучение, тоест количеството данни, предоставени на моделите. Това би изисквало извънредни количества изчислителни ресурси. Съобщава се, че технологичните компании са следвали констатациите на изследователите, защото това е най-доброто, което са имали.

Олтман каза, че GPT-4 ще използва много повече изчисления от своя предшественик. Очаква се OpenAI да приложи свързани с оптимизация идеи в GPT-4, въпреки че до каква степен не може да се предвиди, тъй като бюджетът му не е известен.

Въпреки това, изявленията на Altman показват, че OpenAI трябва да се съсредоточи върху оптимизиране на променливи, различни от размера на модела.. Намирането на най-добрия набор от хиперпараметри, оптимален размер на модела и брой параметри може да доведе до невероятни подобрения във всички показатели.

Според анализатори всички прогнози за езиковите модели ще се сринат, ако тези подходи се комбинират в един модел. Алтман каза също, че хората няма да повярват колко по-добри модели могат да бъдат, без непременно да са по-големи. Това може да предполага, че усилията за мащабиране са приключили засега.

Съобщава се, че OpenAI положи много усилия за решаване на проблема с подравняването на AI: как да накараме езиковите модели да следват човешките намерения и да се придържат към човешките ценности?

Анализаторите казват, че това е не само труден математически проблем (как да накараме AI да разбере точно какво искаме?), но също така и философски (няма универсален начин за привеждане в съответствие с AI с хората, тъй като променливостта на човешките ценности от група на група е огромно и често противоречиво).

Накрая ако се интересувате да научите повече за товаможете да се обърнете към оригиналната публикация В следващия линк.

Оставете вашия коментар Отказ на отговора

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

коментар *

име*

Електронната поща*

Приемам условия за поверителност*

Отговорен за данните: Мигел Анхел Гатон
Предназначение на данните: Контрол на СПАМ, управление на коментари.
Легитимация: Вашето съгласие
Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

Искам да получа бюлетина

DesdeLinux

GPT-4: AI за обработка на естествен език на OpenAI може да пристигне по-късно този семестър

Оставете вашия коментар Отказ на отговора