GPT-4: OpenAI-ის ბუნებრივი ენის დამუშავების AI შეიძლება შემოვიდეს ამ სემესტრის ბოლოს

2020 წლის მაისში, OpenAI-მ, AI-ის კომპანიამ, რომელიც თანადამფუძნებელი იყო ელონ მასკისა და სემ ალტმანის მიერ, გამოაქვეყნა GPT-3, რომელიც შემდეგ წარმოდგენილი იყო, როგორც იმ მომენტის დიდი ნერვული ქსელი. უახლესი ენობრივი მოდელი, GPT-3 მოიცავს 175 მილიარდ პარამეტრს მისი წინამორბედი GPT-1,5-ის 2 მილიარდ პარამეტრთან შედარებით.

GPT-3 დაამარცხა NLG Turing მოდელი (Turing Natural Language Generation) Microsoft-ისგან 17 მილიარდი პარამეტრით, რომელიც ადრე ყველაზე დიდ ნერვულ ქსელში რეკორდს იკავებდა. ენის მოდელი გაოცებული იყო, გააკრიტიკეს და დაქვემდებარებულიც კი იყო; მან ასევე იპოვა ახალი და საინტერესო აპლიკაციები.

Და ახლა გავრცელდა ჭორები GPT-4-ის გამოშვების შესახებ, OpenAI ენის მოდელის შემდეგი ვერსია, შესაძლოა მალე გამოვიდეს.

მიუხედავად იმისა, რომ გამოსვლის თარიღი ჯერ არ გამოცხადებულა, OpenAI-მ მოგვცა გარკვეული მითითებები GPT-3-ის მემკვიდრის მახასიათებლებზე, რომლითაც ბევრი შეიძლება მოელოდეს, რომ GPT-4 არ უნდა იყოს GPT-3-ზე დიდი, მაგრამ უნდა გამოიყენოს მეტი გამოთვლითი რესურსი, რაც შეზღუდავს მის გარემოზე ზემოქმედებას.

სესიის დროს, ალტმანმა მიანიშნა ამის შესახებპოპულარული რწმენის საწინააღმდეგოდ, GPT-4 არ იქნება ყველაზე დიდი ენობრივი მოდელი. მოდელი უდავოდ უფრო დიდი იქნება, ვიდრე წინა თაობის ნერვული ქსელები, მაგრამ ზომა არ იქნება მისი დამახასიათებელი ნიშანი.

პირველ რიგში, კომპანიებმა გააცნობიერეს, რომ მოდელის ზომის გამოყენება, როგორც ინდიკატორი მუშაობის გასაუმჯობესებლად, არ არის ამის ერთადერთი ან საუკეთესო გზა. 2020 წელს, ჯარედ კაპლანმა და კოლეგებმა OpenAI-ში დაასკვნეს, რომ შესრულება ყველაზე მეტად უმჯობესდება, როდესაც გამოთვლითი ბიუჯეტის ზრდა ძირითადად გამოყოფილია პარამეტრების რაოდენობის გაზრდაზე, ძალაუფლება-კანონის ურთიერთობის შემდეგ. Google-მა, Nvidia-მ, Microsoft-მა, OpenAI-მ, DeepMind-მა და სხვა კომპანიებმა, რომლებიც ავითარებენ ენის მოდელებს, მიიღეს ეს სახელმძღვანელო პრინციპები.

მაგრამ MT-NLG (Megatron-Turing NLG, Nvidia-სა და Microsoft-ის მიერ გასულ წელს აშენებული ნერვული ქსელი 530 მილიარდი პარამეტრით), როგორიც არის შესანიშნავი, არ არის საუკეთესო, როდესაც საქმე ეხება შესრულებას. ფაქტობრივად, ის არ არის საუკეთესოდ შეფასებული არცერთ საორიენტაციო კატეგორიაში. პატარა მოდელები, როგორიცაა Gopher ან Chinchilla (70 მილიარდი პარამეტრი), მათი ზომის მხოლოდ ფრაქცია, ბევრად უკეთესი იქნება, ვიდრე MT-NLG ყველა დავალებაზე. ამრიგად, გაირკვა, რომ მოდელის ზომა არ არის ერთადერთი ფაქტორი, რომელიც განაპირობებს ენის უკეთეს გაგებას.

ალტმანის აზრით, ენის მოდელები განიცდიან კრიტიკულ შეზღუდვას. როდესაც საქმე ოპტიმიზაციას ეხება. ტრენინგი იმდენად ძვირი იქნება, რომ კომპანიებს მოუწევთ კომპრომისზე წასვლა სიზუსტესა და ღირებულებას შორის. ეს ხშირად იწვევს მოდელების ცუდად ოპტიმიზებას.

აღმასრულებელმა დირექტორმა განაცხადა, რომ GPT-3 მხოლოდ ერთხელ გაიარა ტრენინგი, მიუხედავად გარკვეული შეცდომებისა, რომლებიც სხვა შემთხვევებში გამოიწვევდა გადამზადებას. ამის გამო, OpenAI-მ, გავრცელებული ინფორმაციით, უარი თქვა ამის შესახებ მიუწვდომელი ღირებულების გამო, რამაც ხელი შეუშალა მკვლევარებს მოდელისთვის ჰიპერპარამეტრების საუკეთესო ნაკრების პოვნაში.

ტრენინგის მაღალი ხარჯების კიდევ ერთი შედეგია ის, რომ მოდელის ქცევის ანალიზი შეიზღუდება. ერთი მოხსენების თანახმად, როდესაც ხელოვნური ინტელექტის მკვლევარებმა დაასკვნეს, რომ მოდელის ზომა იყო ყველაზე მნიშვნელოვანი ცვლადი შესრულების გასაუმჯობესებლად, მათ არ გაითვალისწინეს ტრენინგის ნიშნების რაოდენობა, ანუ მოდელებისთვის მიწოდებული მონაცემების რაოდენობა. ამას დასჭირდებოდა გამოთვლითი რესურსების არაჩვეულებრივი რაოდენობა. გავრცელებული ინფორმაციით, ტექნიკური კომპანიები მიჰყვებოდნენ მკვლევართა დასკვნებს, რადგან ეს იყო საუკეთესო, რაც მათ ჰქონდათ.

ალტმანი თქვა, რომ GPT-4 გამოიყენებს ბევრად მეტ გამოთვლებს, ვიდრე მისი წინამორბედი. მოსალოდნელია, რომ OpenAI განახორციელებს ოპტიმიზაციასთან დაკავშირებულ იდეებს GPT-4-ში, თუმცა რამდენად შეუძლებელია პროგნოზირება, რადგან მისი ბიუჯეტი უცნობია.

თუმცა, განცხადებები Altman აჩვენებს, რომ OpenAI უნდა ფოკუსირდეს ცვლადების ოპტიმიზაციაზე, გარდა მოდელის ზომისა.. ჰიპერპარამეტრების საუკეთესო ნაკრების, მოდელის ოპტიმალური ზომისა და პარამეტრების რაოდენობის პოვნამ შეიძლება გამოიწვიოს წარმოუდგენელი გაუმჯობესება ყველა კრიტერიუმში.

ანალიტიკოსების აზრით, ენის მოდელების ყველა პროგნოზი იშლება, თუ ეს მიდგომები გაერთიანდება ერთ მოდელში. ალტმანმა ასევე თქვა, რომ ხალხს არ სჯერა, თუ რამდენად უკეთესი მოდელები შეიძლება იყოს უფრო დიდის გარეშე. ეს შეიძლება მიუთითებდეს იმაზე, რომ მასშტაბის მცდელობები ამ დროისთვის დასრულდა.

გავრცელებული ინფორმაციით, OpenAI-მ დიდი ძალისხმევა მოახდინა ხელოვნური ინტელექტის გასწორების პრობლემის გადასაჭრელად: როგორ ვაიძულოთ ენის მოდელები ადამიანის განზრახვებს მიჰყვეს და დაიცვან ადამიანური ღირებულებები?

ანალიტიკოსები ამბობენ, რომ ეს არ არის მხოლოდ რთული მათემატიკური პრობლემა (როგორ გავაგებინოთ ხელოვნური ინტელექტი ზუსტად რა გვინდა?), არამედ ფილოსოფიურიც (არ არსებობს ხელოვნური ინტელექტის ადამიანებთან შესწორების უნივერსალური გზა, რადგანაც ადამიანური ღირებულებები ჯგუფიდან ჯგუფამდე უზარმაზარი და ხშირად წინააღმდეგობრივია).

საბოლოოდ თუ გაინტერესებთ ამის შესახებ მეტი იცოდეთშეგიძლიათ იხილოთ ორიგინალური პოსტი შემდეგ ბმულზე.


სტატიის შინაარსი იცავს ჩვენს პრინციპებს სარედაქციო ეთიკა. შეცდომის შესატყობინებლად დააჭირეთ ღილაკს აქ.

იყავი პირველი კომენტარი

დატოვე კომენტარი

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო. აუცილებელი ველები აღნიშნულია *

*

*

  1. მონაცემებზე პასუხისმგებელი: მიგელ ანგელ გატონი
  2. მონაცემთა მიზანი: სპამის კონტროლი, კომენტარების მართვა.
  3. ლეგიტიმაცია: თქვენი თანხმობა
  4. მონაცემთა კომუნიკაცია: მონაცემები არ გადაეცემა მესამე პირებს, გარდა სამართლებრივი ვალდებულებისა.
  5. მონაცემთა შენახვა: მონაცემთა ბაზა, რომელსაც უმასპინძლა Occentus Networks (EU)
  6. უფლებები: ნებისმიერ დროს შეგიძლიათ შეზღუდოთ, აღადგინოთ და წაშალოთ თქვენი ინფორმაცია.