Tham vọng mua, quét hàng triệu đầu sách của một công ty AI

Chủ nhật, 1/2/2026 10:32 (GMT+7)
10:32 1/2/2026

Hơn 4.000 trang tài liệu được tòa án tiết lộ cách các công ty AI lên kế hoạch mua, quét hàng triệu đầu sách, theo The Washington Post.

Ảnh: Unsplash.

Đầu năm 2024, các giám đốc tại công ty AI Anthropic đã đẩy mạnh một dự án bí mật và đầy tham vọng. "Dự án Panama hướng đến quét và tiêu hủy tất cả sách trên thế giới. Chúng tôi không muốn mọi người biết chúng tôi đang thực hiện dự án này", theo một tài liệu nội bộ được lưu trong hồ sơ pháp lý.

Bí mật phía sau AI Claude

Theo những văn bản này, trong vòng khoảng một năm, họ đã chi hàng chục triệu USD để mua và cắt bỏ gáy của hàng triệu cuốn sách, trước khi quét các trang sách để cung cấp nội dung cho mô hình AI nổi tiếng Claude.

Chi tiết về dự án Panama, với nhiều thông tin chưa từng được công bố, đã xuất hiện trong vụ kiện bản quyền của các tác giả sách nhằm vào Anthropic.

Các tài liệu mới này, cùng nhiều vụ kiện bản quyền trước đó cho thấy các công ty AI, với những cái tên lớn như Anthropic, Meta, Google và OpenAI, đã làm mọi cách để có được lượng dữ liệu khổng lồ nhằm "huấn luyện" AI.

Theo hồ sơ tòa án, sách được các công ty AI coi là loại dữ liệu quan trọng. Một trong những người đồng sáng lập Anthropic cho rằng việc huấn luyện AI bằng sách có thể dạy chúng "cách viết tốt" thay vì bắt chước "ngôn ngữ Internet chất lượng thấp".

Một email nội bộ của Meta năm 2024 cũng nói cần tiếp cận kho sách số để cạnh tranh với các đối thủ AI khác.

Tuy nhiên, những công ty này cho rằng việc xin phép các nhà xuất bản và tác giả là không khả thi. Do đó. Anthropic, Meta và các công ty khác đã tìm cách thu thập sách với số lượng lớn mà không có sự cho phép của tác giả.

Với Anthropic, hồ sơ tiết lộ người đồng sáng lập Ben Mann đã đích thân tải xuống một lượng lớn sách hư cấu và phi hư cấu từ "thư viện ngầm" LibGen trong khoảng thời gian 11 ngày vào tháng 6/2021.trình duyệt web của ông được đính kèm trong hồ sơ.

CEO công ty AI Anthropic Dario Amodei tại một sự kiện tháng 5/2025. Ảnh: New York Post.

Một năm sau, Mann cũng hoan nghênh sự ra mắt của một trang web mới có tên Pirate Library Mirror. Trang web này tuyên bố sở hữu cơ sở dữ liệu sách khổng lồ. Mann đã gửi liên kết trang web này cho các nhân viên của Anthropic với thông điệp "vừa kịp lúc!!!"

Trong khi Anthropic tuyên bố họ không sử dụng LibGen và Pirate Library Mirror, họ tìm đến những cuốn sách in có sẵn, quét nội dung lên không gian số và sau đó tiêu hủy những cuốn sách đã quét xong. Họ đã thuê Tom Turvey. Turvey từng là Giám đốc cấp cao tại Google và có vai trò đáng kể trong dự án gây tranh cãi hướng đến lập thư viện số khổng lồ của Google hai thập kỷ trước.

Anthropic ban đầu cân nhắc mua sách từ thư viện hoặc các hiệu sách cũ như hiệu sách nổi tiếng Strand ở thành phố New York.

Các nhân viên của Anthropic cũng đã thảo luận về việc tiếp cận các thư viện ở Mỹ, bao gồm thư viện công cộng New York hoặc "một thư viện mới nào đó đang thiếu kinh phí trầm trọng".

Hiện chưa rõ Anthropic thực hiện theo hướng nào. Khi được liên hệ qua email, người phát ngôn của Strand cho biết họ không bán sách cho Anthropic. Thư viện công cộng New York không trả lời yêu cầu bình luận.

Theo hồ sơ, Anthropic đã mua được hàng triệu cuốn sách, thường là theo lô, mỗi lô hàng chục nghìn cuốn. Họ dựa vào các nhà bán sách, bao gồm các nhà bán lẻ sách cũ Better World Books và World of Books có trụ sở tại Anh. Chưa rõ số lượng sách họ quét thành công nhưng một bản đề xuất cho biết Anthropic "tìm kiếm một nhà cung cấp dịch vụ quét tài liệu có kinh nghiệm để quét 500.000 - hai triệu cuốn sách trong sáu tháng".

Các trang sách sẽ được "quét trên máy tốc độ cao, chất lượng cao với cường độ lớn". Công ty quét sau đó “lên lịch với công ty tái chế để thu gom những cuốn sách đã quét xong".

Tranh cãi về hành vi vi phạm bản quyền của AI

Ed Newton-Rex, nhà soạn nhạc hiện điều hành một tổ chức phi lợi nhuận bảo vệ quyền của người sáng tạo, cho biết những tiết lộ trên cho thấy các công ty AI nợ người sáng tạo một món nợ lớn hơn.

Google, Microsoft và OpenAI, nhà sản xuất ChatGPT, cũng đang phải đối mặt với các vụ kiện bản quyền từ giới tác giả với những cáo buộc tương tự.

James Grimmelmann, Giáo sư luật về thế giới thông tin số tại Đại học công nghệ Cornell, cho biết những câu hỏi pháp lý trong các vụ kiện vẫn chưa được giải quyết.

Tuy nhiên, trong 2 phán quyết ban đầu, các thẩm phán cho rằng việc các công ty công nghệ sử dụng sách để đào tạo AI khi không xin phép tác giả hoặc nhà xuất bản có thể được coi là hợp pháp nếu xét theo luật "sử dụng hợp lý".

Vào tháng 6, Thẩm phán quận William Alsup phán quyết Anthropic có quyền sử dụng sách để phát triển AI vì họ đã điều chỉnh nội dung. Ông ví quá trình huấn luyện AI giống như việc giáo viên “dạy học sinh viết tốt".

Cùng tháng đó, trong vụ kiện Meta, Thẩm phán quận Vince Chhabria phán quyết các tác giả sách chưa chứng minh được AI có thể gây hại đến doanh số bán sách của họ.

Tuy nhiên, trong trường hợp của Anthropic, giới pháp lý nhận thấy công ty có thể đã vi phạm bản quyền của các tác giả khi tải xuống hàng triệu cuốn sách lậu trước khi khởi động dự án Panama.

Công ty đã đồng ý trả 1,5 tỷ USD cho giới xuất bản. Các tác giả có sách bị tải xuống trái phép có thể nhận được phần tiền bồi thường, ước tính khoảng 3.000 USD mỗi đầu sách.

Tuy nhiên, phán quyết liên quan đến phát triển AI đang nghiêng về các công ty. Theo Aparna Sridhar, Phó cố vấn pháp lý của Anthropic, thẩm phán cho rằng AI mang tính chuyển đổi. "Mô hình AI của Anthropic không sao chép hoặc thay thế sách mà hướng đến tạo ra một bước ngoặt và một cái gì đó khác biệt. Vấn đề của chúng tôi chỉ là về cách thức thu thập một số tài liệu".

Đọc được sách hay, hãy gửi review cho Tri Thức - Znews

Bạn đọc được một cuốn sách hay, bạn muốn chia sẻ những cảm nhận, những lý do mà người khác nên đọc cuốn sách đó, hãy viết review và gửi về cho chúng tôi. Tri Thức - Znews mở chuyên mục “Cuốn sách tôi đọc”, là diễn đàn để chia sẻ review sách do bạn đọc gửi đến qua Email: books@znews.vn. Bài viết cần gửi kèm ảnh chụp cuốn sách, tên tác giả, số điện thoại.

Trân trọng.

Tranh cãi về AI tương tác trong sách điện tử và sách nói

Các nhà xuất bản đang chịu thiệt hại khi kênh bán lẻ và phân phối sách cung cấp các tính năng AI tương tác với sách điện tử và sách nói, theo Publishers Weekly.

18:35 18/1/2026

Loạt nhà xuất bản AI lừa đảo giới nhà văn quốc tế

Nhiều trang web xuất bản sách ở Australia, Anh và New Zealand đang sử dụng AI để lừa tiền của các nhà văn nghiệp dư, theo The Guardian.

06:16 18/11/2025

Văn đàn đấu tranh với viễn cảnh AI khiến giới tác giả 'về vườn'

Lo ngại về AI tác động tới văn chương; các tác giả và chuyên gia quốc tế đã có những hành động để bảo vệ sự sáng tạo của con người, theo Financial Times.

12:08 7/8/2025

Sở thích nếm chất độc của nhà khoa học tìm ra 8 nguyên tố

12 giờ trước 17:16 14/3/2026

Một tính cách đặc biệt của Scheele là ông luôn đòi nếm mọi chất mà ông nghiên cứu, bao gồm cả những chất có tiếng độc hại như thủy ngân axit hidroxianic.

Cận cảnh hòm phiếu quý hiếm của ngày Tổng tuyển cử đầu tiên

13 giờ trước 16:24 14/3/2026

Chiếc hòm phiếu bầu cử đầu tiên được làm bằng gỗ, hình chữ nhật, để mộc, dài 37 cm. Đây vốn là chiếc hòm đựng tiền và đồ đạc quý, được nhân dân địa phương sử dụng làm hòm phiếu trong ngày Tổng tuyển cử 6/1/1946, trong điều kiện vật chất còn nhiều thiếu thốn.

Lý do chưa đưa bản gốc nhật ký Đặng Thùy Trâm về Việt Nam

13 giờ trước 16:18 14/3/2026

Gia đình liệt sĩ, bác sĩ Đặng Thùy Trâm muốn để lại bản gốc cuốn nhật ký tại Mỹ như một chứng tích về hiện thực chiến tranh, để thế giới biết về một người Việt Nam thật, từ một cuộc chiến thật.

Minh Hoa

Công ty AI AI bản quyền