GPT-4: Az OpenAI természetes nyelvi feldolgozó AI-ja e félév végén megérkezhet

2020 májusában az OpenAI, az Elon Musk és Sam Altman által közösen alapított mesterségesintelligencia-cég kiadta a GPT-3-at, amelyet akkor a pillanat nagy neurális hálózataként mutattak be. A legkorszerűbb nyelvi modell, A GPT-3 175 milliárd paramétert tartalmaz elődje GPT-1,5 2 milliárd paraméteréhez képest.

GPT-3 legyőzte az NLG Turing modellt (Turing Natural Language Generation) a Microsofttól 17 milliárd paraméterrel, amely korábban a legnagyobb neurális hálózat rekordját tartotta. A nyelvi modellt elcsodálkozták, kritizálták, sőt vizsgálatnak vetették alá; új és érdekes alkalmazásokra is talált.

És most pletykák kerültek nyilvánosságra, hogy a kiadás a GPT-4, az OpenAI nyelvi modell következő verziója hamarosan megjelenhet.

Bár megjelenési dátum még nem jelent meg, Az OpenAI adott néhány jelzést a GPT-3 utódjának jellemzőiről, amivel sokan azt várhatják, hogy a GPT-4 ne legyen nagyobb a GPT-3-nál, hanem több számítási erőforrást használjon, ami korlátozza környezeti hatását.

Az ülés során, Altman utalt erre, a közhiedelemmel ellentétben, A GPT-4 nem lesz a legnagyobb nyelvi modell. A modell kétségtelenül nagyobb lesz, mint a neurális hálózatok korábbi generációi, de a méret nem lesz jellemző.

Először is, a vállalatok rájöttek, hogy a modellméret mutatóként való használata a teljesítmény javítására nem az egyetlen vagy a legjobb módja ennek. 2020-ban Jared Kaplan és munkatársai az OpenAI-nál állítólag arra a következtetésre jutottak, hogy a teljesítmény akkor javul a legjobban, ha a számítási költségvetés növelését elsősorban a paraméterek számának növelésére fordítják, a hatványtörvény összefüggést követően. A Google, az Nvidia, a Microsoft, az OpenAI, a DeepMind és más, nyelvi modelleket fejlesztő cégek alaposra vették ezeket az irányelveket.

De az MT-NLG (Megatron-Turing NLG, az Nvidia és a Microsoft által tavaly épített neurális hálózat 530 milliárd paraméterrel), bármilyen nagyszerű is, teljesítményt tekintve nem a legjobb. Valójában egyetlen benchmark kategóriában sem értékelték a legjobbnak. Az olyan kisebb modellek, mint a Gopher vagy a Chinchilla (70 milliárd paraméter), méretüknek csak töredéke, minden feladatban sokkal jobbak lennének, mint az MT-NLG. Így világossá vált, hogy nem a modell mérete az egyetlen tényező, amely a nyelv jobb megértéséhez vezet.

Altman szerint a nyelvi modellek kritikus korlátoktól szenvednek. ha az optimalizálásról van szó. A képzés olyan drága lenne, hogy a cégeknek kompromisszumot kellene kötniük a pontosság és a költség között. Ez gyakran azt eredményezi, hogy a modellek rosszul vannak optimalizálva.

A vezérigazgató arról számolt be, hogy a GPT-3-at csak egyszer képezték ki, annak ellenére, hogy néhány olyan hiba történt, amelyek más esetekben átképzéshez vezettek volna. Emiatt az OpenAI állítólag nem döntött a megfizethetetlen költségek miatt, ami megakadályozta, hogy a kutatók megtalálják a modell legjobb hiperparaméterkészletét.

A magas képzési költségek másik következménye, hogy a modell viselkedésének elemzése korlátozott lenne. Egy jelentés szerint, amikor a mesterséges intelligencia kutatói arra a következtetésre jutottak, hogy a modell mérete a legrelevánsabb változó a teljesítmény javításához, nem vették figyelembe a képzési tokenek számát, vagyis a modellekhez szolgáltatott adatok mennyiségét. Ez rendkívüli mennyiségű számítási erőforrást igényelt volna. A technológiai cégek állítólag azért követték a kutatók eredményeit, mert ez volt a legjobb, amijük volt.

Altman azt mondta, hogy a GPT-4 sokkal több számítást fog használni, mint elődje. Az OpenAI várhatóan optimalizálással kapcsolatos ötleteket valósít meg a GPT-4-ben, bár annak mértékét nem lehet megjósolni, mivel a költségvetése nem ismert.

Azonban a nyilatkozatok Altman azt mutatja, hogy az OpenAI-nak a modellméreten kívüli változók optimalizálására kell összpontosítania.. A hiperparaméterek legjobb készletének, az optimális modellméretnek és a paraméterek számának megtalálása hihetetlen javulást eredményezhet az összes benchmark tekintetében.

Az elemzők szerint a nyelvi modellekre vonatkozó összes előrejelzés összeomlik, ha ezeket a megközelítéseket egyetlen modellben egyesítik. Altman azt is elmondta, hogy az emberek nem hinnék el, mennyivel jobbak lehetnek a modellek anélkül, hogy feltétlenül nagyobbak lennének. Ez azt sugallhatja, hogy a méretezési erőfeszítések most véget értek.

Az OpenAI állítólag sok erőfeszítést tett az AI-igazítási probléma megoldására: hogyan lehet a nyelvi modelleket az emberi szándékok követésére és az emberi értékekhez való ragaszkodásra késztetni?

Az elemzők szerint ez nem csak egy nehéz matematikai probléma (hogyan értsük meg az MI-vel, hogy pontosan mit akarunk?), hanem filozófiai is (nincs univerzális módszer az AI és az ember közötti összhangra, mivel az AI változékonysága az emberi értékek csoportról csoportra hatalmas és gyakran ellentmondó).

Végül ha érdekel, hogy többet tudjon meg rólahivatkozhat az eredeti bejegyzésre A következő linken.

DesdeLinux

GPT-4: Az OpenAI természetes nyelvi feldolgozó AI-ja még ebben a félévben megérkezhet

Hagyja megjegyzését Mégsem válaszát