Chiến lược tiếp tục tăng kích thước mô hình sẽ không giúp cải thiện các AI tạo sinh văn bản và hình ảnh, theo dự đoán của Sam Altman. Ảnh: MIT Technology Review. |
Trong nhiều năm, OpenAI liên tục tạo ra các AI hoạt động tốt hơn bằng cách tăng kích thước mô hình lên hàng chục lần. GPT-3, nền tảng của ChatGPT, có 175 tỷ tham số và được đào tạo dựa trên 570 GB dữ liệu văn bản, so với 1,5 tỷ tham số và 40 GB dữ liệu văn bản của GPT-2.
OpenAI không tiết lộ chi tiết về GPT-4, nhưng theo Semafor mô hình mới lớn gấp 6 lần GPT-3. Medium thì cho rằng mô hình thế hệ mới lớn gấp 10 lần, với 1,8 triệu tỷ tham số và được đào tạo trên 1 petabyte dữ liệu.
Sam Altman, Giám đốc điều hành của OpenAI, chỉ tiết lộ rằng công ty đã tiêu tốn hơn 100 triệu USD để đào tạo GPT-4, nhưng lưu ý rằng tiếp tục tăng kích thước hơn nữa cũng sẽ không giúp cải thiện AI.
“Chúng ta đang ở cuối kỷ nguyên của những mô hình khổng lồ, và sẽ phải làm cho mô hình hoạt động tốt hơn theo những cách khác", Altman nói tại một hội nghị ngành được tổ chức tại MIT.
Tuyên bố này gây bất ngờ cho những người theo dõi cuộc đua AI. Nhiều công ty khởi nghiệp với nguồn tài trợ lớn, bao gồm Anthropic, AI21, Cohere và Character.AI, đang dồn nguồn lực xây dựng các thuật toán lớn hơn bao giờ hết nhằm bắt kịp OpenAI.
Quan điểm của Altman cho thấy GPT-4 có thể là thế hệ sản phẩm cuối cùng mà công ty đi theo chiếc lược tạo ra mô hình càng to càng tốt bằng nhiều nhiều tham số, dữ liệu và sức mạnh tính toán hơn.
Trong bài báo mô tả GPT-4, OpenAI cũng cho rằng mức độ cải thiện hiệu suất giảm dần khi tiếp tục tăng kích thước mô hình. Nói cách khác, mô hình càng lớn thì chi phí bỏ ra để tăng lượng dữ liệu và sức mạnh tính toán càng đem lại ít cải thiện. Ngoài ra còn có những giới hạn vật lý đối với tốc độ và khả năng xây dựng các trung tâm dữ liệu.
GPT-4 có thể là sản phẩm cuối cùng mà OpenAI đi theo chiến lược liên tục tăng kích thước mô hình. Ảnh: Shutterstock. |
Altman không tiết lộ chiến lược hay kỹ thuật nghiên cứu thay thế có thể tiếp tục cải thiện AI trong tương lai.
Nick Frosst, đồng sáng lập Cohere và từng là nhà nghiên cứu AI tại Google, cho rằng đánh giá của Altman là đúng. Frost tin rằng việc cải thiện Transformer, kiến trúc cốt lõi của các thế hệ GPT và cả các đối thủ cạnh tranh, không nằm ở mở rộng quy mô. Transformer là kiến trúc xử lý ngôn ngữ mà Google phát triển năm 2017, cho phép các mô hình AI chọn ra các từ quan trọng trong văn bản đầu vào, và tạo ra văn bản tiếp nối dựa trên các từ đó.
“Có rất nhiều cách để tạo ra Transformer tốt hơn và hữu ích hơn mà không liên quan đến việc thêm các tham số vào mô hình", Frosst nói, tiết lộ thêm rằng các phương án khả thi là cải thiện kiến trúc và điều chỉnh dựa trên phản hồi của con người.
Mặc dù OpenAI đang giữ bí mật về kích thước và các cơ chế hoạt động của GPT-4, nhưng có khả năng mô hình này đã được cải tiến nhiều hơn là chỉ tăng kích thước. Theo Wired, có khả năng mô hình này đã sử dụng kỹ thuật Học tăng cường với phản hồi của con người, từng được sử dụng để nâng cấp ChatGPT.
Nhân loại sẽ đối đầu với trí tuệ nhân tạo như thế nào
Trong cuốn sách "Framers - Nhân loại đối đầu nhân tạo", các tác giả nhận định con người vẫn có lợi thế trong thời đại công nghệ.