GPT-4: AI xử lý ngôn ngữ tự nhiên của OpenAI có thể ra mắt vào cuối học kỳ này

Vào tháng 2020 năm 3, OpenAI, công ty AI do Elon Musk và Sam Altman đồng sáng lập, đã xuất bản GPT-XNUMX, sau đó được coi là mạng nơ-ron tuyệt vời ở thời điểm hiện tại. Một mô hình ngôn ngữ hiện đại, GPT-3 bao gồm 175 tỷ thông số so với 1,5 tỷ thông số của người tiền nhiệm GPT-2.

GPT-3 đánh bại mô hình Turing NLG (Turing Natural Language Generation) của Microsoft với 17 tỷ tham số trước đó đã giữ kỷ lục về mạng nơ-ron lớn nhất. Mô hình ngôn ngữ đã bị kinh ngạc, bị chỉ trích và thậm chí bị xem xét kỹ lưỡng; nó cũng đã tìm thấy các ứng dụng mới và thú vị.

Và bây giờ tin đồn đã được đưa ra rằng việc phát hành GPT-4, phiên bản tiếp theo của mô hình ngôn ngữ OpenAI, có thể sẽ sớm ra mắt.

Mặc dù chưa có ngày phát hành nào được công bố, OpenAI đã đưa ra một số chỉ dẫn về các đặc điểm của người kế nhiệm GPT-3, mà nhiều người có thể mong đợi, rằng GPT-4 không nên lớn hơn GPT-3, nhưng nên sử dụng nhiều tài nguyên tính toán hơn, điều này sẽ hạn chế tác động đến môi trường của nó.

Trong phiên, Altman gợi ý rằng, trái với niềm tin phổ biến, GPT-4 sẽ không phải là mô hình ngôn ngữ lớn nhất. Không nghi ngờ gì nữa, mô hình này sẽ lớn hơn các thế hệ mạng nơ-ron trước đó, nhưng kích thước sẽ không phải là dấu hiệu nổi bật của nó.

Đầu tiên, các công ty đã nhận ra rằng việc sử dụng kích thước mô hình như một chỉ số để cải thiện hiệu suất không phải là cách duy nhất hoặc tốt nhất để làm điều đó. Vào năm 2020, Jared Kaplan và các đồng nghiệp OpenAI của anh ấy đã kết luận rằng hiệu suất được cải thiện hầu hết khi việc tăng ngân sách máy tính chủ yếu được phân bổ để tăng số lượng tham số, tuân theo mối quan hệ quyền lực-luật. Google, Nvidia, Microsoft, OpenAI, DeepMind và các công ty khác phát triển các mô hình ngôn ngữ đã áp dụng các nguyên tắc này ở mức giá trị.

Nhưng MT-NLG (Megatron-Turing NLG, một mạng nơ-ron do Nvidia và Microsoft xây dựng vào năm ngoái với 530 tỷ tham số), tuyệt vời như vậy, không phải là tốt nhất khi nói đến hiệu suất. Trên thực tế, nó không được đánh giá là tốt nhất trong bất kỳ loại điểm chuẩn nào. Các mô hình nhỏ hơn như Gopher hoặc Chinchilla (70 tỷ thông số), chỉ bằng một phần nhỏ kích thước của chúng, sẽ tốt hơn nhiều so với MT-NLG trong mọi tác vụ. Do đó, rõ ràng là kích thước của mô hình không phải là yếu tố duy nhất giúp bạn hiểu rõ hơn về ngôn ngữ.

Theo Altman, các mô hình ngôn ngữ gặp phải một hạn chế nghiêm trọng. khi nói đến tối ưu hóa. Việc đào tạo sẽ tốn kém đến mức các công ty sẽ phải thỏa hiệp giữa độ chính xác và chi phí. Điều này thường dẫn đến việc các mô hình được tối ưu hóa kém.

Giám đốc điều hành báo cáo rằng GPT-3 chỉ được đào tạo một lần, mặc dù có một số lỗi mà trong các trường hợp khác có thể phải đào tạo lại. Vì điều này, OpenAI được cho là đã quyết định chống lại nó do chi phí không thể chi trả được, điều này đã ngăn cản các nhà nghiên cứu tìm ra bộ siêu tham số tốt nhất cho mô hình.

Một hệ quả khác của chi phí đào tạo cao là các phân tích về hành vi của người mẫu sẽ bị hạn chế. Theo một báo cáo, khi các nhà nghiên cứu AI kết luận rằng kích thước mô hình là biến số có liên quan nhất để cải thiện hiệu suất, họ đã không xem xét số lượng mã thông báo đào tạo, tức là lượng dữ liệu được cung cấp cho các mô hình. Điều này sẽ đòi hỏi một lượng lớn tài nguyên máy tính. Các công ty công nghệ được cho là đã theo dõi kết quả nghiên cứu của các nhà nghiên cứu vì đó là kết quả tốt nhất mà họ có.

Altman cho biết GPT-4 sẽ sử dụng nhiều phép tính hơn so với người tiền nhiệm của nó. OpenAI dự kiến ​​sẽ triển khai các ý tưởng liên quan đến tối ưu hóa trong GPT-4, mặc dù không thể dự đoán được ở mức độ nào vì chưa rõ ngân sách của nó.

Tuy nhiên, các tuyên bố của Altman cho thấy rằng OpenAI nên tập trung vào việc tối ưu hóa các biến khác ngoài kích thước mô hình.. Tìm bộ siêu tham số tốt nhất, kích thước mô hình tối ưu và số lượng thông số có thể dẫn đến những cải tiến đáng kinh ngạc trên tất cả các điểm chuẩn.

Theo các nhà phân tích, mọi dự đoán về mô hình ngôn ngữ sẽ sụp đổ nếu các cách tiếp cận này được kết hợp thành một mô hình duy nhất. Altman cũng nói rằng mọi người sẽ không tin rằng các mô hình tốt hơn có thể đến mức nào mà không nhất thiết phải lớn hơn. Nó có thể cho thấy rằng những nỗ lực mở rộng quy mô đã kết thúc.

OpenAI được cho là đã nỗ lực rất nhiều để giải quyết vấn đề liên kết AI: làm thế nào để làm cho các mô hình ngôn ngữ tuân theo ý định của con người và tuân thủ các giá trị của con người?

Các nhà phân tích cho rằng đây không chỉ là một bài toán khó (làm cách nào để AI hiểu chính xác những gì chúng ta muốn?), Mà còn là một bài toán triết học (không có cách phổ biến nào để gắn AI với con người, vì sự biến đổi của các giá trị con người Từ nhóm này sang nhóm khác là rất lớn và thường xung đột).

Cuối cùng nếu bạn muốn biết thêm về nóbạn có thể tham khảo bài gốc Trong liên kết sau đây.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.