Điểm yếu 'chí tử' của ChatGPT

Thứ hai, 22/1/2024 09:12 (GMT+7)
09:12 22/1/2024

Tình trạng ghi nhớ và trích nguyên văn dữ liệu có thể khiến các AI tạo sinh như ChatGPT rơi vào tranh chấp không hồi kết về bản quyền.

Trong hồ sơ nộp lên Quốc hội Anh vào giữa tháng 1, OpenAI - công ty đứng sau ChatGPT - thừa nhận "các mô hình AI hàng đầu" không thể tồn tại nếu không được tự do truy cập nội dung sách báo có bản quyền.

Theo The Atlantic, một số sản phẩm AI được huấn luyện bằng dữ liệu lấy từ thư viện sách "lậu". Đa số công ty lập luận rằng AI chỉ "đọc" hoặc "học hỏi" nội dung sách, không sao chép nguyên văn. Do đó, họ không có trách nhiệm trả phí tác quyền.

Trong lúc bản quyền dữ liệu là chủ đề tranh cãi và chưa có phán quyết rõ ràng, các công ty AI đang đặt canh bạc lớn khi phát triển sản phẩm theo cách này. Nếu tòa án không ủng hộ, những công cụ như ChatGPT có thể gặp rắc rối lớn.

Bản quyền có thể "giết chết" AI

2 vụ kiện do Universal Music Group và The New York Times lần lượt đệ trình vào tháng 10 và 12/2023 lập luận rằng các mô hình ngôn ngữ lớn (LLM) - nền tảng của ChatGPT và nhiều AI tạo sinh phổ biến - có thể "ghi nhớ" (memorize) một số phần trong văn bản huấn luyện, và trích nguyên văn khi nhận câu lệnh cụ thể.

Các nguyên đơn cho rằng điều này không phù hợp nguyên tắc "sử dụng hợp lý" (fair use) mà OpenAI đưa ra, liên quan đến sử dụng tác phẩm mà không cần sự cho phép của tác giả hay chủ sở hữu bản quyền trong một số trường hợp.

Tòa soạn The New York Times kiện OpenAI và Microsoft vào tháng 12/2023 với cáo buộc dùng hàng triệu bài báo để đào tạo chatbot mà không xin phép. Ảnh: New York Times.

Theo hồ sơ gửi lên Văn phòng Bản quyền Mỹ, công ty đầu tư mạo hiểm Andreessen Horowitz cho rằng viễn cảnh các công ty AI phải bồi thường cho tác giả hàng triệu sách báo có thể "giết chết hoặc cản trở đáng kể" toàn bộ công nghệ.

Nếu điều đó xảy ra, các LLM hiện tại có thể phải loại bỏ, thay bằng mô hình đào tạo bằng nội dung mã nguồn mở hoặc bản quyền phù hợp. Chi phí sẽ tăng đáng kể, và mô hình có thể hoạt động kém linh hoạt hơn.

Năm ngoái, nhóm tác giả gồm John Grisham, George Saunders và Sarah Silverman, đã đệ trình một số vụ kiện tập thể nhắm đến các công ty AI. Họ cho rằng một số cuốn sách bị dùng để đào tạo AI "bất hợp pháp".

Trong khi đó, các công ty AI cho rằng sử dụng tác phẩm để đào tạo LLM tương tự trích dẫn sách khi nói chuyện, hoặc tạo tác phẩm nhại (parody) với nhân vật, cốt truyện từ tác phẩm gốc.

Chính lập luận này đã mang đến lợi thế cho Thung lũng Silicon trong 20 năm qua, khi các trang tìm kiếm lấy ảnh từ website làm thumbnail kết quả, hay gần hơn là công cụ kiểm tra đạo văn.

Tuy nhiên, chúng không dính tranh chấp bản quyền bởi nội dung được lấy để nhận diện sự trùng lặp, không phải biểu đạt. Tương tự, Google Books cho phép tìm kiếm nguyên văn trích đoạn sách và chỉ giới hạn phần nội dung ấy, không ảnh hưởng đến doanh thu của tác giả.

Trang chủ OpenAI. Ảnh: Bloomberg.

OpenAI và nhiều công ty cho rằng việc sao chép trung gian nội dung bản quyền trong quá trình đào tạo AI cũng không mang tính biểu đạt. Tuy nhiên, một số vụ kiện gần đây chỉ ra hành động ngược lại của các mô hình.

Cụ thể, đơn kiện của The New York Times cho rằng ChatGPT trích những đoạn văn dài (hàng trăm từ) của một số bài viết khi nhập câu lệnh cụ thể. Ví dụ, nếu yêu cầu xem bài báo cần trả phí, ChatGPT có thể trích một số đoạn từ bài báo ấy.

Trong khi đó, đơn kiện của Universal Music Group tập trung vào LLM có tên Claude, do Anthropic tạo ra. Khi được yêu cầu viết bài hát về chủ đề nhất định, Claude phản hồi với câu chữ rất giống những bài đã phát hành và không trích nguồn.

Chưa có giải pháp rõ ràng

Tất nhiên, các công ty AI không muốn dính kiện tụng chỉ vì khả năng ghi nhớ của LLM. Mới đây, OpenAI thừa nhận đó là "lỗi hiếm gặp" và đang khắc phục. Dù vậy, giới nghiên cứu đã chứng minh các LLM đều có khả năng này.

Cụ thể, một bài nghiên cứu đăng vào năm 2021 cho thấy mô hình GPT-2 có thể trích dẫn các văn bản dài 1.000 từ. Trong khi đó, nghiên cứu khác chứng minh mô hình GPT-J của EleutherAI ghi nhớ ít nhất 1% văn bản đào tạo.

Các mô hình càng lớn có xu hướng ghi nhớ nhiều hơn. Tháng 11/2023, các nhà nghiên cứu cho thấy trong một số trường hợp, ChatGPT (mô hình GPT-3.5-Turbo) có tỷ lệ "xả" nguyên văn dữ liệu đào tạo cao hơn những LLM khác.

Ứng dụng ChatGPT trên di động. Ảnh: MobileSyrup.

Khả năng ghi nhớ là một phần giúp các LLM hữu ích hơn. Ví dụ, chatbot AI có thể phản hồi mạch lạc nhờ khả năng nhớ từ, cụm từ và mẫu câu ngữ pháp. Nếu không thể ghi nhớ, LLM sẽ chỉ nói những câu vô nghĩa.

Tuy nhiên, ghi nhớ cũng là con dao 2 lưỡi. Nhiều người muốn LLM tóm tắt bài viết được đào tạo, nhưng đoạn tóm tắt chứa trích dẫn nguyên văn, không ghi nguồn có thể vi phạm bản quyền.

Theo nhà nghiên cứu bảo mật AI Florian Tramèr, hiện chưa có giải pháp rõ ràng để ngăn chặn khả năng này bởi về cơ bản, các LLM không tự nhận biết khi chúng trích nguyên văn dữ liệu đào tạo.

"Đây là vấn đề cực kỳ khó nghiên cứu. Rất, rất khó đưa ra định nghĩa chính xác về khả năng ghi nhớ", Tramèr cho biết. Ông cũng lo ngại rằng nếu loại bỏ khả năng ghi nhớ, các mô hình có thể không còn hữu ích như trước.

Có thể tranh chấp dai dẳng

Còn quá sớm để khẳng định tương lai của AI tạo sinh nếu pháp luật không ủng hộ. Trang The Atlantic đặt ra giải pháp che giấu việc ghi nhớ, một trong số đó yêu cầu người dùng đánh giá câu trả lời của LLM là tốt hay xấu, giúp mô hình tránh lặp lại hành vi hoặc thái độ nhất định.

Trong quá trình nghiên cứu trên ChatGPT, Tramèr cho thấy giải pháp này hiệu quả với những tương tác thông thường. Tuy nhiên, tình trạng không thể biến mất hoàn toàn.

Cuộc chiến tác quyền với các công ty AI có thể kéo dài. Ảnh: SCMP.

Giải pháp khác có tên RAG (retrieval-augmented generation), sử dụng nguồn ngoài để tìm câu trả lời thay vì dữ liệu đào tạo. Ví dụ, Google Bard có thể tìm một số dữ liệu trên Internet, sau đó cung cấp danh sách "tài nguyên bổ sung" cuối câu trả lời.

Dù không giải quyết hoàn toàn vấn đề, RAG có thể giảm khả năng LLM đưa thông tin sai, tránh vi phạm bản quyền bởi nguồn bài viết được trích đầy đủ.

Về phán quyết của tòa án, một số luật sư dự đoán các AI tạo sinh sẽ được đánh giá theo từng trường hợp, đặc biệt là phản hồi do chúng tạo ra. Nếu chứng minh LLM không ghi nhớ hoặc không trích nguyên dữ liệu, các công ty AI có thể nắm lợi thế.

Tất nhiên, người ủng hộ tác quyền vẫn có khả năng đặt thêm lý do để kéo dài kiện tụng. Điều đó có thể khiến OpenAI và các công ty rơi vào tranh chấp không hồi kết về bản quyền.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

Phúc Thịnh

ChatGPT vi phạm bản quyền AI ChatGPT OpenAI Microsoft New York Times GPT LLM mô hình ngôn ngữ trí tuệ nhân tạo kiện tụng bản quyền tác giả đào tạo huấn luyện

Điểm yếu 'chí tử' của ChatGPT

Bản quyền có thể "giết chết" AI

Chưa có giải pháp rõ ràng

Có thể tranh chấp dai dẳng

Người Trung Quốc nhờ AI chơi xổ số

Hành trình tạo AI giải toán ngang thí sinh Olympic của tiến sĩ Việt

Làm sao để 'trò chuyện' với ChatGPT tốt hơn?

Điều không ai nói với bạn khi ra rạp IMAX xem The Odyssey

Phạt đến 1,5 tỷ đồng với cá nhân làm lộ dữ liệu trọng yếu

Sắp định danh tài sản số ở Việt Nam

Bạn có thể quan tâm