GPT-4: AI pemprosesan bahasa semula jadi OpenAI boleh tiba pada penghujung semester ini

Pada Mei 2020, OpenAI, syarikat AI yang diasaskan bersama oleh Elon Musk dan Sam Altman, menerbitkan GPT-3, kemudian dibentangkan sebagai rangkaian neural yang hebat pada masa ini. Model bahasa yang canggih, GPT-3 termasuk 175 bilion parameter berbanding dengan 1,5 bilion parameter GPT-2 pendahulunya.

GPT-3 mengalahkan model NLG Turing (Turing Natural Language Generation) daripada Microsoft dengan 17 bilion parameter yang sebelum ini memegang rekod rangkaian saraf terbesar. Model bahasa telah dikagumi, dikritik dan juga tertakluk kepada penelitian; ia juga telah menemui aplikasi baharu dan menarik.

Dan sekarang khabar angin telah dikeluarkan bahawa pelepasan GPT-4, versi seterusnya model bahasa OpenAI, mungkin akan datang tidak lama lagi.

Walaupun tiada tarikh keluaran telah diumumkan lagi, OpenAI telah memberikan beberapa petunjuk tentang ciri-ciri pengganti GPT-3, yang mungkin dijangkakan ramai, bahawa GPT-4 seharusnya tidak lebih besar daripada GPT-3, tetapi harus menggunakan lebih banyak sumber pengiraan, yang akan mengehadkan kesan alam sekitarnya.

Semasa sesi itu, Altman membayangkan itu, bertentangan dengan kepercayaan popular, GPT-4 tidak akan menjadi model bahasa terbesar. Model ini sudah pasti lebih besar daripada rangkaian saraf generasi sebelumnya, tetapi saiznya tidak akan menjadi ciri khasnya.

Pertama, syarikat telah menyedari bahawa menggunakan saiz model sebagai penunjuk untuk meningkatkan prestasi bukanlah satu-satunya atau cara terbaik untuk melakukannya. Pada tahun 2020, Jared Kaplan dan rakan sekerja di OpenAI dilaporkan menyimpulkan bahawa prestasi paling banyak bertambah baik apabila peningkatan dalam belanjawan pengiraan diperuntukkan terutamanya untuk meningkatkan bilangan parameter, berikutan perhubungan undang-undang kuasa. Google, Nvidia, Microsoft, OpenAI, DeepMind dan syarikat lain yang membangunkan model bahasa telah mengambil garis panduan ini pada nilai muka.

Tetapi MT-NLG (Megatron-Turing NLG, rangkaian saraf yang dibina oleh Nvidia dan Microsoft tahun lepas dengan 530 bilion parameter), walaupun hebat, bukanlah yang terbaik dalam hal prestasi. Malah, ia tidak dinilai terbaik dalam mana-mana kategori penanda aras. Model yang lebih kecil seperti Gopher atau Chinchilla (70 bilion parameter), hanya sebahagian kecil daripada saiznya, akan menjadi lebih baik daripada MT-NLG dalam semua tugas. Oleh itu, menjadi jelas bahawa saiz model bukanlah satu-satunya faktor yang membawa kepada pemahaman bahasa yang lebih baik.

Menurut Altman, model bahasa mengalami batasan kritikal. apabila ia datang kepada pengoptimuman. Latihan itu akan menjadi sangat mahal sehingga syarikat terpaksa berkompromi antara ketepatan dan kos. Ini selalunya mengakibatkan model tidak dioptimumkan dengan baik.

Ketua Pegawai Eksekutif melaporkan bahawa GPT-3 dilatih sekali sahaja, walaupun terdapat beberapa kesilapan yang dalam kes lain akan membawa kepada latihan semula. Oleh sebab itu, OpenAI dilaporkan memutuskan untuk menentangnya kerana kos yang tidak berpatutan, yang menghalang penyelidik daripada mencari set hiperparameter terbaik untuk model tersebut.

Akibat lain dari kos latihan yang tinggi ialah analisis tingkah laku model akan dihadkan. Menurut satu laporan, apabila penyelidik AI menyimpulkan bahawa saiz model adalah pembolehubah yang paling relevan untuk meningkatkan prestasi, mereka tidak mempertimbangkan bilangan token latihan, iaitu jumlah data yang diberikan kepada model. Ini memerlukan jumlah sumber pengkomputeran yang luar biasa. Syarikat teknologi dilaporkan mengikuti penemuan penyelidik kerana ia adalah yang terbaik yang mereka miliki.

Altman berkata bahawa GPT-4 akan menggunakan lebih banyak pengiraan daripada pendahulunya. OpenAI dijangka akan melaksanakan idea berkaitan pengoptimuman dalam GPT-4, walaupun sejauh mana tidak dapat diramalkan kerana bajetnya tidak diketahui.

Walau bagaimanapun, kenyataan daripada Altman menunjukkan bahawa OpenAI harus menumpukan pada mengoptimumkan pembolehubah selain daripada saiz model.. Mencari set hiperparameter terbaik, saiz model optimum dan bilangan parameter boleh membawa kepada peningkatan yang luar biasa merentas semua penanda aras.

Menurut penganalisis, semua ramalan untuk model bahasa akan runtuh jika pendekatan ini digabungkan menjadi satu model. Altman juga berkata bahawa orang tidak akan percaya betapa model yang lebih baik boleh menjadi tanpa semestinya lebih besar. Ia mungkin mencadangkan bahawa usaha penskalaan telah berakhir buat masa ini.

OpenAI dilaporkan melakukan banyak usaha untuk menyelesaikan masalah penjajaran AI: bagaimana untuk menjadikan model bahasa mengikut niat manusia dan mematuhi nilai manusia?

Penganalisis mengatakan bahawa ini bukan sahaja masalah matematik yang sukar (bagaimana kita membuat AI memahami apa yang kita mahukan?), tetapi juga falsafah (tiada cara universal untuk menyelaraskan AI dengan manusia, kerana kebolehubahan nilai kemanusiaan dari kumpulan ke kumpulan adalah besar dan sering bercanggah).

Akhirnya sekiranya anda berminat untuk mengetahui lebih lanjut mengenainyaboleh rujuk post asal Dalam pautan berikut.

DesdeLinux

GPT-4: AI pemprosesan bahasa semula jadi OpenAI boleh tiba lewat semester ini

Tinggalkan komen anda Batal balasan