GPT-4: AI i përpunimit të gjuhës natyrore të OpenAI mund të arrijë më vonë këtë semestri

Në maj 2020, OpenAI, kompania e AI e bashkëthemeluar nga Elon Musk dhe Sam Altman, publikoi GPT-3, e cila më pas u prezantua si rrjeti i madh nervor i momentit. Një model gjuhësor më i avancuar, GPT-3 përfshin 175 miliardë parametra krahasuar me 1,5 miliardë parametrat e paraardhësit të tij GPT-2.

GPT-3 mundi modelin NLG Turing (Turing Natural Language Generation) nga Microsoft me 17 miliardë parametra që mbante më parë rekordin për rrjetin më të madh nervor. Modeli gjuhësor është mahnitur, kritikuar dhe madje i është nënshtruar shqyrtimit; ka gjetur gjithashtu aplikacione të reja dhe interesante.

Dhe tani thashethemet janë lëshuar se lëshimi i GPT-4, versioni tjetër i modelit të gjuhës OpenAI, mund të vijë së shpejti.

Megjithëse ende nuk është shpallur data e publikimit, OpenAI ka dhënë disa indikacione në lidhje me karakteristikat e pasuesit të GPT-3, me të cilat shumë mund të presin, se GPT-4 nuk duhet të jetë më i madh se GPT-3, por duhet të përdorë më shumë burime llogaritëse, të cilat do të kufizojnë ndikimin e tij mjedisor.

Gjatë seancës, Altman la të kuptohet se, në kundërshtim me besimin popullor, GPT-4 nuk do të jetë modeli më i madh gjuhësor. Modeli do të jetë padyshim më i madh se gjeneratat e mëparshme të rrjeteve nervore, por madhësia nuk do të jetë shenja dalluese e tij.

Së pari, kompanitë kanë kuptuar se përdorimi i madhësisë së modelit si një tregues për të përmirësuar performancën nuk është mënyra e vetme ose më e mirë për ta bërë këtë. Në vitin 2020, Jared Kaplan dhe kolegët e tij OpenAI thuhet se arritën në përfundimin se performanca përmirësohet më së shumti kur rritjet në buxhetin llogaritës alokohen kryesisht për rritjen e numrit të parametrave, pas një marrëdhënieje pushtet-ligj. Google, Nvidia, Microsoft, OpenAI, DeepMind dhe kompani të tjera që zhvillojnë modele gjuhësore i kanë marrë këto udhëzime në vlerë.

Por MT-NLG (Megatron-Turing NLG, një rrjet nervor i ndërtuar nga Nvidia dhe Microsoft vitin e kaluar me 530 miliardë parametra), i shkëlqyer siç është, nuk është më i miri kur bëhet fjalë për performancën. Në fakt, nuk është vlerësuar si më i miri në asnjë kategori standarde. Modelet më të vogla si Gopher ose Chinchilla (70 miliardë parametra), vetëm një pjesë e madhësisë së tyre, do të ishin shumë më të mira se MT-NLG në të gjitha detyrat. Kështu, u bë e qartë se madhësia e modelit nuk është faktori i vetëm që çon në një kuptim më të mirë të gjuhës.

Sipas Altman, modelet gjuhësore vuajnë nga një kufizim kritik. kur është fjala për optimizimin. Trajnimi do të ishte aq i shtrenjtë sa që kompanitë do të duhej të bënin kompromis midis saktësisë dhe kostos. Kjo shpesh rezulton në optimizimin e dobët të modeleve.

CEO raportoi se GPT-3 ishte trajnuar vetëm një herë, pavarësisht disa gabimeve që në raste të tjera do të kishin çuar në rikualifikim. Për shkak të kësaj, OpenAI thuhet se vendosi kundër tij për shkak të kostos së papërballueshme, gjë që i pengoi studiuesit të gjenin grupin më të mirë të hiperparametrave për modelin.

Një pasojë tjetër e kostove të larta të trajnimit është se analizat e sjelljes së modelit do të kufizoheshin. Sipas një raporti, kur studiuesit e AI arritën në përfundimin se madhësia e modelit ishte variabli më i rëndësishëm për përmirësimin e performancës, ata nuk morën parasysh numrin e shenjave të trajnimit, domethënë sasinë e të dhënave të ofruara për modelet. Kjo do të kërkonte sasi të jashtëzakonshme të burimeve kompjuterike. Kompanitë e teknologjisë thuhet se ndoqën gjetjet e studiuesve sepse ishte më e mira që kishin.

Altman tha se GPT-4 do të përdorë shumë më tepër llogaritje se paraardhësi i tij. OpenAI pritet të zbatojë ide të lidhura me optimizimin në GPT-4, megjithëse deri në çfarë mase nuk mund të parashikohet pasi buxheti i tij nuk dihet.

Megjithatë, deklaratat e Altman tregon se OpenAI duhet të fokusohet në optimizimin e variablave të ndryshëm nga madhësia e modelit.. Gjetja e grupit më të mirë të hiperparametrave, madhësisë optimale të modelit dhe numrit të parametrave mund të çojë në përmirësime të jashtëzakonshme në të gjitha standardet.

Sipas analistëve, të gjitha parashikimet për modelet gjuhësore do të shemben nëse këto qasje kombinohen në një model të vetëm. Altman tha gjithashtu se njerëzit nuk do ta besonin se sa modele më të mira mund të jenë pa qenë domosdoshmërisht më të mëdha. Mund të sugjerojë që përpjekjet për shkallëzim kanë mbaruar tani për tani.

OpenAI thuhet se ka bërë shumë përpjekje për të zgjidhur problemin e shtrirjes së AI: si t'i bëjmë modelet e gjuhës të ndjekin qëllimet njerëzore dhe t'u përmbahen vlerave njerëzore?

Analistët thonë se ky nuk është vetëm një problem i vështirë matematikor (si ta bëjmë AI të kuptojë saktësisht atë që duam?), por gjithashtu një problem filozofik (nuk ka asnjë mënyrë universale për të lidhur AI me njerëzit, pasi ndryshueshmëria e vlerave njerëzore nga grupi në grup është i madh dhe shpesh konfliktual).

Më në fund nëse jeni të interesuar të dini më shumë për tëmund t'i referoheni postimit origjinal Në lidhjen vijuese.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.