GPT-4: OpenAI's AI voor natuurlijke taalverwerking zou aan het einde van dit semester kunnen verschijnen

In mei 2020 publiceerde OpenAI, het AI-bedrijf dat mede is opgericht door Elon Musk en Sam Altman, GPT-3, en vervolgens gepresenteerd als het grote neurale netwerk van dit moment. Een state-of-the-art taalmodel, GPT-3 bevat 175 miljard parameters vergeleken met de 1,5 miljard parameters van zijn voorganger GPT-2.

GPT-3 versla het NLG Turing-model (Turing Natural Language Generation) van Microsoft met 17 miljard parameters die voorheen het record voor het grootste neurale netwerk bezaten. Het taalmodel is verwonderd, bekritiseerd en zelfs onderworpen aan nauwkeurig onderzoek; het heeft ook nieuwe en interessante toepassingen gevonden.

En nu geruchten zijn vrijgegeven dat de release van GPT-4, de volgende versie van het OpenAI-taalmodel, zou binnenkort kunnen verschijnen.

Hoewel er is nog geen releasedatum aangekondigd, OpenAI heeft enkele aanwijzingen gegeven over de kenmerken van de opvolger van GPT-3, waarvan velen zouden verwachten dat GPT-4 niet groter zou moeten zijn dan GPT-3, maar meer rekenkracht zou moeten gebruiken, wat de impact op het milieu zal beperken.

Tijdens de sessie, Altman liet doorschemeren dat, in tegenstelling tot wat vaak wordt gedacht, GPT-4 wordt niet het grootste taalmodel. Het model zal ongetwijfeld groter zijn dan eerdere generaties neurale netwerken, maar grootte zal niet het kenmerk zijn.

Ten eerste hebben bedrijven zich gerealiseerd dat het gebruik van de modelgrootte als indicator om de prestaties te verbeteren niet de enige of beste manier is om dit te doen. In 2020 concludeerden Jared Kaplan en collega's van OpenAI naar verluidt dat de prestaties het meest verbeteren wanneer verhogingen van het rekenbudget voornamelijk worden toegewezen aan het vergroten van het aantal parameters, na een machtsrechtelijke relatie. Google, Nvidia, Microsoft, OpenAI, DeepMind en andere bedrijven die taalmodellen ontwikkelen, hebben deze richtlijnen voor waar aangenomen.

Maar MT-NLG (Megatron-Turing NLG, een neuraal netwerk dat vorig jaar door Nvidia en Microsoft is gebouwd met 530 miljard parameters), hoe geweldig het ook is, het is niet de beste als het gaat om prestaties. In feite wordt het in geen enkele benchmarkcategorie als de beste beoordeeld. Kleinere modellen zoals Gopher of Chinchilla (70 miljard parameters), slechts een fractie van hun grootte, zouden bij alle taken veel beter zijn dan MT-NLG. Zo werd duidelijk dat de grootte van het model niet de enige factor is die leidt tot een beter begrip van de taal.

Volgens Altman hebben taalmodellen een kritische beperking. als het om optimalisatie gaat. De training zou zo duur zijn dat bedrijven een compromis zouden moeten sluiten tussen nauwkeurigheid en kosten. Dit leidt er vaak toe dat modellen slecht worden geoptimaliseerd.

De CEO meldde dat GPT-3 slechts één keer is getraind, ondanks enkele fouten die in andere gevallen tot omscholing zouden hebben geleid. Om deze reden heeft OpenAI naar verluidt besloten dit niet te doen vanwege de onbetaalbare kosten, waardoor de onderzoekers de beste set hyperparameters voor het model niet konden vinden.

Een ander gevolg van hoge opleidingskosten is dat analyses van modelgedrag worden beperkt. Volgens één rapport, toen AI-onderzoekers concludeerden dat de modelgrootte de meest relevante variabele was voor het verbeteren van de prestaties, hielden ze geen rekening met het aantal trainingstokens, dat wil zeggen de hoeveelheid gegevens die aan de modellen werden verstrekt. Hiervoor zouden buitengewone hoeveelheden computerbronnen nodig zijn geweest. Techbedrijven volgden naar verluidt de bevindingen van de onderzoekers omdat het de beste was die ze hadden.

Altman zei dat GPT-4 veel meer berekeningen zal gebruiken dan zijn voorganger. Van OpenAI wordt verwacht dat het optimalisatie-gerelateerde ideeën in GPT-4 implementeert, maar in welke mate kan niet worden voorspeld, aangezien het budget onbekend is.

Echter, de verklaringen van Altman laat zien dat OpenAI zich moet concentreren op het optimaliseren van andere variabelen dan de modelgrootte.. Het vinden van de beste set hyperparameters, optimale modelgrootte en aantal parameters kan leiden tot ongelooflijke verbeteringen in alle benchmarks.

Volgens analisten zullen alle voorspellingen voor taalmodellen instorten als deze benaderingen worden gecombineerd tot één model. Altman zei ook dat mensen niet zouden geloven hoeveel betere modellen kunnen zijn zonder noodzakelijkerwijs groter te zijn. Het kan erop wijzen dat de schaalvergroting voorlopig voorbij is.

OpenAI heeft naar verluidt veel energie gestoken in het oplossen van het AI-afstemmingsprobleem: hoe kunnen taalmodellen menselijke bedoelingen volgen en zich houden aan menselijke waarden?

Analisten zeggen dat dit niet alleen een moeilijk wiskundig probleem is (hoe zorgen we ervoor dat de AI precies begrijpt wat we willen?), maar ook een filosofisch probleem (er is geen universele manier om AI op één lijn te brengen met de mens, aangezien de variabiliteit van de menselijke waarden van groep tot groep is enorm en vaak tegenstrijdig).

Eindelijk als u er meer over wilt wetenje kunt verwijzen naar het originele bericht In de volgende link.

DesdeLinux

GPT-4: OpenAI's natuurlijke taalverwerkings-AI kan later dit semester arriveren

Laat je reactie achter Antwoord annuleren