Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

AI của Meta nhớ được nguyên văn truyện 'Harry Potter'

Một thử nghiệm mới phát hiện ra ít nhất một mô hình AI của Meta ghi nhớ gần như toàn bộ một số cuốn sách, bao gồm "Harry Potter và Hòn đá phù thủy", theo New Scientist.

Ảnh: New Scientist

Đã có nhiều thông tin rò rỉ về việc các mô hình ngôn ngữ lớn (LLM) phổ biến và nhiều chương trình AI tạo sinh đã sử dụng bộ dữ liệu Books3, chứa gần 200.000 cuốn sách có bản quyền. Các nhà phát triển AI lập luận rằng họ không vi phạm luật vì LLM sẽ trả ra kết quả được kết hợp, tổng hợp từ nhiều nguồn và không sử dụng nguyên gốc văn bản.

Dữ liệu thực tế thay đổi các nhà nghiên cứu

Tuy nhiên, các nhà nghiên cứu gần đây phát hiện ra một trong những mô hình LLM của Meta đã ghi nhớ gần như toàn bộ một số cuốn sách nhất định. Nếu bằng chứng này được đưa vào trong vụ kiện nhằm vào Meta, các nhà nghiên cứu ước tính Meta phải chịu trách nhiệm bồi thường ít nhất 1 tỷ USD.

Nhà nghiên cứu Mark Lemley tại Đại học Stanford ở California cho biết: “Các mô hình AI không chỉ là 'cỗ máy đạo văn', như một số người đã cáo buộc, mà chúng còn làm được nhiều điều thế”.

Lemley trước đây đứng về phía Meta trong vấn đề bản quyền nhưng kết quả nghiên cứu mới có thể khiến ông nghĩ khác.

Trước đây, Lemley từng ủng hộ công ty này trong một vụ kiện, được gọi là Kadrey kiện Meta. Richard Kadrey là tác giả người Mỹ nổi tiếng với các tiểu thuyết thể loại khoa học viễn tưởng, đặc biệt là Sandman Slim. Kadrey tuyên bố rằng "hành vi phi pháp" của Meta trong việc sử dụng sách lậu để đào tạo mô hình ngôn ngữ lớn (LLM) của công ty này đã xâm phạm tác phẩm của họ. Hiện vụ kiện vẫn được thụ lý tại quận phía Bắc của California.

Tuy nhiên, vào tháng 1, Lemley tuyên bố chấm dứt quan hệ kinh doanh với Meta, mặc dù ông vẫn tin rằng công ty này nên thắng kiện.

Cách phát hiện AI ghi nhớ văn bản

Trong nghiên cứu mới này, Lemley cùng đồng nghiệp đã thử nghiệm khả năng ghi nhớ sách của AI bằng cách chia các đoạn trích sách thành hai phần, phần tiền tố và phần hậu tố, sau đó kiểm tra xem liệu phần yêu cầu sử dụng tiền tố có được AI phản hồi bằng hậu tố hay không.

Ví dụ, họ chia một đoạn trích từ Đại gia Gatsby của F. Scott Fitzgerald thành tiền tố “Họ là những kẻ vô tâm, Tom với Daisy - họ đập nát mọi thứ, cả vô tri lẫn hữu tri, rồi rút luivà hậu tố vào tiền bạc hoặc niềm vô tâm mênh mông của họ hoặc bất kỳ những gì vẫn ràng buộc họ với nhau, để mặc người khác phải dọn dẹp đống đổ nát bừa bãi mà họ gây ra..."

Sau đó, các nhà nghiên cứu ước tính xác suất mỗi mô hình AI hoàn thành được các đoạn trích nguyên văn.

Các trích đoạn được lấy từ 36 cuốn sách có bản quyền, bao gồm các đầu sách phổ biến như Trò chơi Vương quyền của George R. R. Martin hay Dấn thân của Sheryl Sandberg. Các nhà nghiên cứu cũng đã thử nghiệm các trích đoạn từ những cuốn sách của nguyên đơn trong vụ Kadrey kiện Meta Platforms.

Những trích đoạn này sau đó được thí nghiệm trên 13 mô hình AI nguồn mở, bao gồm các mô hình do Meta, Google, DeepSeek, EleutherAI và Microsoft phát triển và phát hành.

Kết quả thử nghiệm cho thấy mô hình Llama 3.1 70B của Meta ghi nhớ hầu hết cuốn sách đầu tiên trong bộ truyện Harry Potter của J. K. Rowling cũng như Đại gia Gatsby. Các mô hình AI khác không ghi nhớ được nhiều. Meta hiện từ chối bình luận về những kết quả này.

Meta anh 1

Mô hình Llama 3.1 70B của Meta ghi nhớ được nguyên văn của nhiều cuốn sách. Ảnh: The Scale.

Nguy cơ bồi thường thiệt hại lớn

Các nhà nghiên cứu ước tính rằng nếu một mô hình AI bị phát hiện vi phạm bản quyền đối với chỉ 3% tập dữ liệu Books3 thì họ có thể phải bồi thường thiệt hại theo luật định lên tới gần 1 tỷ USD và thậm chí phải đối mặt với những khoản bồi thường lớn hơn nếu họ nhận được lợi nhuận từ những hành vi vi phạm bản quyền đó.

Dù vậy, xét trên quy mô toàn ngành, Lemley cho rằng sự khác nhau giữa kết quả thử nghiệm đối với từng mô hình AI và cả giữa văn bản này và văn bản khác đang cho thấy “rất khó khăn nếu muốn thiết lập một quy tắc pháp lý rõ ràng cho mọi trường hợp”.

Thử nghiệm trên có thể là một "công cụ pháp lý tốt" để xác định mức độ ghi nhớ của AI, luật sư Randy McCarthy tại công ty luật Hall Estill ở Oklahoma cho biết.

Tuy nhiên, nó vẫn chưa giải quyết được câu hỏi về quyền “sử dụng hợp lý” tại Mỹ, theo đó, các mô hình AI được tự do sử dụng các tác phẩm bản quyền trong một số trường hợp.

Tuy nhiên, phát hiện trên có thể có vai trò quan trọng hơn tại Vương quốc Anh. Theo luật sư Robert Lands tại công ty luật Howard Kennedy ở London, luật bản quyền của Vương quốc Anh tuân theo nguyên tắc "xử lý hợp lý" với các quy định chặt chẽ và hẹp hơn nhiều so với “quyền sử dụng hợp lý” tại Mỹ.

Vì vậy, ông cho biết nếu các mô hình AI được chứng minh là ghi nhớ trái phép nội dung tác phẩm thì chúng không đủ điều kiện nằm trong nguyên tắc “xử lý hợp lý”.

Đọc được sách hay, hãy gửi review cho Tri Thức - Znews

Bạn đọc được một cuốn sách hay, bạn muốn chia sẻ những cảm nhận, những lý do mà người khác nên đọc cuốn sách đó, hãy viết review và gửi về cho chúng tôi. Tri Thức - Znews mở chuyên mục “Cuốn sách tôi đọc”, là diễn đàn để chia sẻ review sách do bạn đọc gửi đến qua Email: books@znews.vn. Bài viết cần gửi kèm ảnh chụp cuốn sách, tên tác giả, số điện thoại.

Trân trọng.

Vạch trần AI: Trò lừa đảo hay giá trị thực?

Emily Bender và Alex Hanna muốn vạch trần sự cường điệu do các công ty AI lớn tạo ra trong cuốn "The AI Con". Tuy nhiên, một số ý kiến cho rằng cuốn sách còn một chiều và thiên kiến, theo The New Scientist.

Tăng trưởng thần tốc của nhà xuất bản AI - theo tầm nhìn YouTube

Sử dụng AI cho đa số khâu xuất bản, từ khai thác dữ diệu, phát triển sách nói, sách dịch, đến tiếp cận độc giả toàn cầu, công ty khởi nghiệp Spines đang phá vỡ các quy tắc xưa cũ.

Meta nghĩ gì về các cuốn sách họ dùng 'lậu'?

Theo Vanity Fair, các hồ sơ vụ án mới được công bố tiết lộ lập trường của công ty này về những cuốn sách họ sử dụng để phát triển AI: Chúng đều vô giá trị.

Romantasy thong tri Spotify nam 2025 hinh anh

Romantasy thống trị Spotify năm 2025

0

Những câu chuyện tình lãng mạn giả tưởng như "Cánh Tư" của Rebecca Yarros và "A Court of Thorns and Roses" của Sarah J. Mass đang thống trị top sách nói hàng đầu của Spotify, theo nền tảng này.

Nguoi giu lua nghe thuat Khmer hinh anh

Người giữ lửa nghệ thuật Khmer

0

Ở tuổi 70, nghệ nhân ưu tú Danh Bê, ngụ ấp Hòa Thiện, xã Định Hòa, tỉnh An Giang, vẫn đều đặn mỗi ngày ngồi trong gian nhà nhỏ để chỉnh sửa mặt nạ, trống, đạo cụ múa và chỉ dạy lại cho thế hệ kế thừa.

Bao ve khan cap nghe lam tranh Dong Ho hinh anh

Bảo vệ khẩn cấp nghề làm tranh Đông Hồ

0

Tại Kỳ họp lần thứ 20 của Ủy ban Liên chính phủ Công ước 2003 về bảo vệ di sản văn hóa phi vật thể của UNESCO tại Ấn Độ, di sản Nghề làm tranh Đông Hồ của Việt Nam được công nhận là di sản văn hóa phi vật thể cần bảo vệ khẩn cấp.

Minh Hoa

Bạn có thể quan tâm