GPT-4: ШІ для обробки природної мови OpenAI може з’явитися пізніше цього семестру

У травні 2020 року OpenAI, компанія зі штучного інтелекту, співзасновниками якої є Ілон Маск і Сем Альтман, опублікувала GPT-3, яку тоді представили як чудову нейронну мережу на даний момент. Сучасна мовна модель, GPT-3 включає 175 мільярдів параметрів порівняно з 1,5 мільярдами параметрів його попередника GPT-2.

GPT-3 переміг модель NLG Turing (Turing Natural Language Generation) від Microsoft із 17 мільярдами параметрів, які раніше були рекордом найбільшої нейронної мережі. Мовну модель дивували, критикували і навіть піддавали ретельній перевірці; він також знайшов нові та цікаві застосування.

І зараз З'явилися чутки про вихід GPT-4, наступна версія мовної моделі OpenAI, може з’явитися незабаром.

Хоча дата випуску ще не оголошена, OpenAI дав деякі вказівки на характеристики наступника GPT-3, з яким багато хто міг очікувати, що GPT-4 не повинен бути більшим за GPT-3, але має використовувати більше обчислювальних ресурсів, що обмежить його вплив на навколишнє середовище.

Під час сесії, Альтман натякнув на це, всупереч поширеній думці, GPT-4 не буде найбільшою мовною моделлю. Модель, безсумнівно, буде більшою за попередні покоління нейронних мереж, але розмір не буде її відмінною рисою.

По-перше, компанії зрозуміли, що використання розміру моделі як індикатора для підвищення продуктивності — не єдиний чи найкращий спосіб зробити це. Як повідомляється, у 2020 році Джаред Каплан і його колеги з OpenAI дійшли висновку, що продуктивність покращується найбільше, коли збільшення обчислювального бюджету в першу чергу спрямовано на збільшення кількості параметрів відповідно до степеневого співвідношення. Google, Nvidia, Microsoft, OpenAI, DeepMind та інші компанії, які розробляють мовні моделі, прийняли ці рекомендації за чисту монету.

Але MT-NLG (Megatron-Turing NLG, нейронна мережа, створена Nvidia і Microsoft минулого року з 530 мільярдами параметрів), як би вона не була, не найкраща, коли справа доходить до продуктивності. Насправді, він не є найкращим у жодній контрольній категорії. Менші моделі, такі як Gopher або Chinchilla (70 мільярдів параметрів), лише невелика частка від їхнього розміру, були б набагато кращими за MT-NLG у всіх завданнях. Таким чином, стало зрозуміло, що розмір моделі – не єдиний фактор, який веде до кращого розуміння мови.

На думку Альтмана, мовні моделі страждають від критичного обмеження. коли справа доходить до оптимізації. Навчання буде настільки дорогим, що компаніям доведеться йти на компроміс між точністю та вартістю. Це часто призводить до того, що моделі погано оптимізовані.

Генеральний директор повідомив, що GPT-3 проходив навчання лише один раз, незважаючи на деякі помилки, які в інших випадках призвели до перепідготовки. Через це, як повідомляється, OpenAI відмовився від цього через недосяжну вартість, що завадило дослідникам знайти найкращий набір гіперпараметрів для моделі.

Іншим наслідком високих витрат на навчання є те, що аналіз поведінки моделі буде обмежений. Згідно з одним звітом, коли дослідники ШІ дійшли висновку, що розмір моделі є найбільш релевантною змінною для підвищення продуктивності, вони не врахували кількість навчальних маркерів, тобто кількість даних, наданих моделям. Це вимагало б надзвичайної кількості обчислювальних ресурсів. Як повідомляється, технологічні компанії слідкували за висновками дослідників, оскільки це було найкраще, що у них було.

Альтман сказав, що GPT-4 буде використовувати набагато більше обчислень, ніж його попередник. Очікується, що OpenAI реалізуватиме ідеї, пов’язані з оптимізацією, в GPT-4, але в якій мірі неможливо передбачити, оскільки його бюджет невідомо.

Однак заяви с Альтман показує, що OpenAI має зосередитися на оптимізації змінних, крім розміру моделі.. Знаходження найкращого набору гіперпараметрів, оптимального розміру моделі та кількості параметрів може привести до неймовірних покращень у всіх контрольних показниках.

На думку аналітиків, усі передбачення мовних моделей зруйнуються, якщо ці підходи об’єднати в одну модель. Альтман також сказав, що люди не повірять, наскільки кращими можуть бути моделі, якщо вони не обов’язково більші. Це може свідчити про те, що зусилля щодо масштабування наразі закінчені.

Як повідомляється, OpenAI доклав багато зусиль для вирішення проблеми вирівнювання AI: як змусити мовні моделі відповідати людським намірам і дотримуватися людських цінностей?

Аналітики кажуть, що це не тільки складна математична проблема (як зробити так, щоб ШІ зрозумів саме те, що ми хочемо?), але й філософська (не існує універсального способу узгодити ШІ з людьми, оскільки мінливість людських цінностей від групи до групи величезна і часто конфліктна).

В кінці кінців якщо вам цікаво дізнатись більше про цеВи можете посилатися на оригінальний пост У наступному посиланні.


Зміст статті відповідає нашим принципам редакційна етика. Щоб повідомити про помилку, натисніть тут.

Будьте першим, щоб коментувати

Залиште свій коментар

Ваша електронна адреса не буде опублікований.

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.