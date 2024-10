New York Times đang phân tích từng dòng mã nguồn để tìm hiểu cách OpenAI huấn luyện mô hình trí tuệ nhân tạo.

OpenAI đang đối mặt với vụ kiện về vi phạm bản quyền giữa các nhà xuất bản, điển hình là New York Times. Ảnh: Shutterstock.

Trong một căn phòng an ninh nghiêm ngặt giữa nước Mỹ, một chiếc máy tính không kết nối Internet đang lưu trữ mã nguồn của ChatGPT. Tại đây, các luật sư của New York Times đang phân tích từng dòng mã để tìm hiểu cách OpenAI huấn luyện mô hình trí tuệ nhân tạo của mình.

New York Times tố OpenAI vi phạm bản quyền 10 triệu bài báo

Vụ việc bắt nguồn từ cuộc chiến pháp lý giữa các nhà xuất bản, tác giả và các công ty AI. Là công ty phát triển ChatGPT, OpenAI trở thành bia ngắm cho nhiều vụ kiện tụng. Start-up AI này bị cáo buộc vi phạm bản quyền khi huấn luyện mô hình AI của mình dựa trên các tác phẩm mà không trả tiền cho chủ sở hữu. New York Times là một trong những đơn vị đi đầu trong vụ kiện này.

Theo phán quyết của tòa án, các luật sư chỉ có thể vào phòng kiểm tra sau khi trình thẻ ID do chính phủ cấp. Họ không được mang điện thoại, không có ổ đĩa flash, không mang theo thiết bị điện tử cá nhân nào.

Tại đây, họ được cung cấp một máy tính không kết nối với Internet, chỉ có chương trình xử lý văn bản để ghi chú. Sau mỗi phiên làm việc, họ có thể tải xuống các ghi chép của mình vào một máy tính khác. Sau đó, máy tính ban đầu sẽ bị xóa dữ liệu.

Những ghi chú này chỉ có thể được chia sẻ với 5 chuyên gia bên ngoài để hỗ trợ phân tích mã nguồn và dữ liệu huấn luyện của ChatGPT. Nếu một luật sư muốn trình bày một đoạn mã cho CEO Sam Altman của OpenAI để hỏi ý kiến trong buổi thẩm vấn, bản sao của đoạn mã đó sẽ bị hủy ngay sau khi hoàn tất.

Vụ kiện này có thể tạo tiền lệ cho toàn bộ ngành công nghiệp AI tạo sinh. Ảnh: Shutterstock.

New York Times tố OpenAI đã vi phạm bản quyền hàng triệu bài viết của họ, sử dụng chúng mà không trả bất kỳ khoản phí nào để huấn luyện mô hình ngôn ngữ ChatGPT.

Khi ra mắt vào cuối năm 2022, ChatGPT nhanh chóng trở thành một trong những công cụ AI mạnh mẽ nhất thế giới, giúp OpenAI đạt mức định giá 157 tỷ USD . Thành công này phần lớn nhờ vào khả năng sử dụng một lượng lớn dữ liệu văn bản từ nhiều nguồn khác nhau để học hỏi và tạo ra nội dung mới.

Tuy nhiên, phần lớn những dữ liệu này, bao gồm các bài báo của New York Times và nhiều tác phẩm khác. Đây là tài sản bản quyền mà OpenAI không trả phí sử dụng.

Điều này dẫn đến hàng loạt vụ kiện từ các nhà xuất bản, nghệ sĩ và tác giả, yêu cầu OpenAI và Microsoft phải chịu trách nhiệm về việc sử dụng các nội dung bản quyền mà không có sự cho phép.

Vụ kiện cho rằng OpenAI đã vi phạm quyền sở hữu trí tuệ của New York Times theo 2 cách. Thứ nhất là bằng cách "huấn luyện" mô hình ChatGPT từ hơn 10 triệu bài viết mà không trả tiền. Thứ 2 là tạo ra các bài viết gần như tương tự với những gì tờ báo sản xuất. Đây là những sản phẩm mà độc giả thường phải trả tiền để đọc.

Trong một tài liệu đệ trình lên tòa án, tờ báo còn đính kèm hàng chục nghìn trang tài liệu, liệt kê chi tiết 10.553.897 bài báo mà họ cho rằng OpenAI và Microsoft đã vi phạm bản quyền.

Phát ngôn viên của New York Times nói với Business Insider: “Các nhà phát triển cần phải trả tiền cho nội dung giá trị mà họ sử dụng để tạo ra và vận hành sản phẩm của mình. Thành công của công nghệ này không nên đến từ thiệt hại của các tổ chức báo chí”.

Đội ngũ pháp lý của New York Times bao gồm những luật sư từ công ty Susman Godfrey, đơn vị đã thắng vụ kiện trị giá 787,5 triệu USD của Dominion với Fox News. Hiện tại, New York Daily News và Mother Jones cũng đã tham gia cùng New York Times trong cuộc chiến pháp lý này.

Đặt tiền lệ pháp lý chưa từng có trong ngành AI

Ngày 12/9, hàng chục luật sư từ các công ty công nghệ và báo chí đã tập trung vào phòng xử án ở Manhattan để tìm ra cách điều tra tốt nhất, chẳng hạn như kiểm tra mã nguồn và dữ liệu đào tạo của ChatGPT. Vụ kiện còn được so sánh với Napster, một dịch vụ chia sẻ nhạc đã bị kiện vì vi phạm bản quyền hàng triệu bài hát vào đầu những năm 2000.

OpenAI bị tố vì huấn luyện mô hình của mình dựa trên khối lượng văn bản khổng lồ mà không trả bất kỳ khoản phí nào. Ảnh: New York Times.

Tòa án đã buộc Napster phải đóng cửa. Nhưng vụ kiện này cũng đã mở cửa cho ngành công nghiệp âm nhạc chấp nhận định dạng MP3 và sau đó là phát triển dịch vụ phát trực tuyến như Spotify. Điều này khiến nhiều chuyên gia tin rằng vụ kiện OpenAI có thể sẽ thiết lập một tiền lệ tương tự cho ngành công nghiệp AI.

"Vụ kiện của New York Times chắc chắn sẽ là tiền lệ, vì quy mô và nguồn lực của họ. New York Times là một ‘gã khổng lồ’ trong ngành báo chí. Họ sở hữu sức mạnh thị trường đứng sau lượng nội dung khổng lồ đang nắm giữ", giáo sư luật trí tuệ sở hữu Kristelia García từ Đại học Georgetown nhận định.

Tại phiên tòa, OpenAI và Microsoft đã cố gắng bảo vệ quy trình huấn luyện mô hình AI bằng cách viện dẫn nguyên tắc "sử dụng hợp lý" (fair use). Tức là sử dụng các tác phẩm có bản quyền trong các trường hợp nhất định mà không cần sự cho phép của chủ sở hữu.

Họ lập luận rằng việc sử dụng các bài viết của New York Times không phải là sao chép một cách trực tiếp, mà là một quá trình "biến đổi" (transformative), tức là tạo ra một sản phẩm mới từ các nguồn tài liệu cũ.

Các trường hợp mà ChatGPT tạo ra các bài viết gần như giống hệt các bài viết của New York Times chỉ là những trường hợp "hiếm hoi" và "không đại diện" cho cách hoạt động của chatbot này.

Tuy nhiên, các chuyên gia pháp lý cho rằng quyết định điều này không hề dễ dàng. "Các thẩm phán trên khắp cả nước đang có những phán quyết rất khác nhau trong các vụ kiện về quyền sử dụng công bằng”, theo lời của Christa Laser, giáo sư luật sở hữu trí tuệ tại Đại học Cleveland State.

Vụ kiện đặt câu hỏi về việc mô hình ngôn ngữ lớn thực sự làm gì khi "học" một cuốn sách hay một bài báo. Quá trình này có tạo ra một bản sao của tác phẩm không? Hay dữ liệu huấn luyện chỉ là một phần của một tập hợp khổng lồ các số 1 và số 0, không còn mang tính đặc trưng của bất kỳ tác phẩm cụ thể nào?

Các luật sư đang nghiên cứu mã nguồn của ChatGPT và dữ liệu huấn luyện của mô hình. Họ cũng dự định thẩm vấn các giám đốc điều hành và lập trình viên chính của OpenAI để làm rõ cách mô hình AI này hoạt động.