Công chúng đều biết ChatGPT có một kho tàng kiến thức khổng lồ nhưng không có cách nào để biết làm thế nào GPT-4 (phiên bản mới nhất của ChatGPT) biết những gì. Đầu não bên trong các mô hình ngôn ngữ lớn này là một hộp đen và các bộ dữ liệu mà chúng được phát triển rất quan trọng và được những nhà sáng tạo coi là bí mật độc quyền.
Vì vậy, có một nhóm nghiên cứu của David Bamman, nhà khoa học thông tin tại Đại học Berkeley, đã quyết định tìm hiểu về nguồn dữ liệu đầu vào của ChatGPT. Bamman và nhóm của ông lấy những đoạn văn ngắn từ hàng trăm cuốn tiểu thuyết, có tác phẩm ra đời từ năm 1749, loại bỏ tên nhân vật và mọi manh mối liên quan, sau đó yêu cầu các phiên bản ChatGPT mới nhất trả lời các câu hỏi về đoạn văn.
Họ đã đặt ra rất nhiều câu hỏi, như thể nó là một học sinh trung học. Và dựa trên câu trả lời, họ cho điểm về sự hiểu của biết ChatGPT đối với từng cuốn. Điểm càng cao thì càng có khả năng cuốn sách là một phần trong bộ dữ liệu của chatbot này.
Sau quá trình đánh giá, nhóm nghiên cứu đã chia sẻ những phát hiện của mình, với hàng loạt tác phẩm kinh điển như Cá voi trắng, Chùm nho thịnh nộ, The Scarlet Letter, Kiêu hãnh và định kiến, Harry Potter, Sherlock Holmes, Mật mã Da Vinci hay 50 sắc thái.
Nhưng điểm đáng ngạc nhiên nhất là số lượng các tác phẩm khoa học viễn tưởng được sử dụng để “đào tạo” GPT-4, với những tác giả như J.R.R Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, George R.R. Martin hay Douglas Adams (The Hitchhiker's Guide to the Galaxy).
15 tác phẩm đầu tiên trong danh sách 50 cuốn sách ChatGPT sử dụng. Ảnh: The Insider. |
Câu hỏi về danh sách đọc của GPT-4 không chỉ mang tính học thuật. Mọi người muốn tìm ra điều này để xác định xem các chatbot có vi phạm bản quyền của những tài liệu cơ bản đó hay không. Như một số vụ kiện tranh luận, vấn đề xoay quanh việc liệu các chatbot này có sử dụng nguồn tài liệu gốc hợp lý bằng cách chuyển đổi chúng thành một thứ gì đó mới hay liệu chúng chỉ ghi nhớ toàn bộ và sử dụng nó mà không cần trích dẫn hoặc cho phép.
Tầm quan trọng của dữ liệu đầu vào đối với ChatGPT
Cơ sở dữ liệu của GPT-4 rất lớn, có thể lên đến hàng petabyte. Vì vậy, không một cuốn tiểu thuyết nào có thể đưa ra đáp án cho một vấn đề cụ thể. Chưa kể, đại dương dữ liệu đó tràn ngập những hòn đảo hư cấu. Ted Underwood, một nhà khoa học thông tin tại Đại học Illinois, cho biết: “Bộ dữ liệu được sử dụng trong quá trình tạo nguồn trước tiên phải đủ lớn".
Sự hiện diện của một số cuốn sách cụ thể trong bộ nhớ của GPT-4 có thể chỉ phản ánh rằng chúng nằm trong số những dữ liệu bị thu thập. Nhóm của Bamman cũng phát hiện ra rằng các chatbot này không tự chọn nguồn để lấy thông tin, mà nó dựa trên dữ liệu phổ quát trên Internet.
Do đó, chắc chắn rằng những nội dung khoa học viễn tưởng chatbot này tiếp thu, cùng những thành kiến ngẫu nhiên trong các tác phẩm này sẽ len lỏi vào câu trả lời của chatbot. Đôi khi chúng đưa ra những đáp án phân biệt chủng tộc hoặc thông tin sai lệch (như nguồn chúng có được trên trực tuyến). Đây là điều ông chủ của OpenAI Sam Altman gần đây đề cập tới.
Câu trả lời ChatGPT đưa ra có thể sai lệch hoặc có những định kiến tiềm ẩn. Ảnh: Shutterstock. |
Ông Bamman nói: “Nguồn dữ liệu các mô hình này sử dụng sẽ ảnh hưởng đến giá trị mà chúng thể hiện”. Ví dụ, nếu chúng chỉ đọc sách của Cormac McCarthy, có lẽ chúng sẽ đưa ra nhiều điều ảm đạm và tàn bạo về thế giới. Vậy điều gì sẽ xảy ra khi một con bot tiếp thu rất nhiều câu chuyện hư cấu về đủ loại thế giới đen tối với đầy rẫy những trò chơi đói khát, nghi lễ chọn lọc hay những sinh vật kỳ lạ?
Những cuốn sách con người chúng ta đọc thay đổi những gì chúng ta nghĩ về thế giới. Nhưng về mặt kỹ thuật, chatbot không có suy nghĩ riêng, chúng đưa ra đáp án dựa trên sự phân tích dữ liệu và mối liên hệ giữa các từ ngữ liên quan chúng có.
Ellie Pavlick, nhà khoa học máy tính tại Đại học Brown, đồng thời là nhà nghiên cứu tại Google AI, cho biết: “Câu hỏi đặt ra là thế giới quan của các chatbot là gì? Nói một cách đơn giản, đó là mối liên hệ giữa từ ngữ và khái niệm chúng có".
Cho đến khi OpenAI và những người tạo ra chatbot khác mở bộ dữ liệu đào tạo của họ để công chúng xem xét kỹ lưỡng, thì sẽ khó biết danh sách đọc của các chatbot này ảnh hưởng ra sao đến câu trả lời chúng cung cấp. Bamman cũng đánh giá: “Nếu bạn có một chatbot chứa nhiều nội dung khoa học viễn tưởng và bạn có một mô hình khác ghi nhớ rất nhiều nội dung của hội thảo nhà văn Iowa, bạn có thể giao cho mỗi chatbot một nhiệm vụ khác nhau”.
Với tình cảnh hiện tại, Bamman gợi ý một cách khai thác ChatGPT tích cực hơn là hỏi chúng về những tác phẩm văn học ít được biết đến hơn, những cuốn sách có thể không xuất hiện trong dữ liệu đào tạo. Như vậy, độc giả có thể tìm hiểu thêm về những cuốn sách này với cách tiếp cận mới mẻ.