Giọng điệu giả tạo của các nhà phát triển AI

Thứ hai, 5/6/2023 18:50 (GMT+7)
18:50 5/6/2023

OpenAI, Google và Anthropic cấm dùng dữ liệu của mình vào mục đích huấn luyện các mô hình AI khác, nhưng họ lại sử dụng trái phép nội dung của bên thứ 3.

Giám đốc điều hành của OpenAI, Sam Altman tuyên thệ trước Thượng viện Mỹ. Ảnh: Reuters.

Trong kỉ nguyên mới của trí tuệ nhân tạo AI, các ông lớn công nghệ lớn đang thực hiện phương châm "làm như tôi nói, đừng như tôi làm" khi đề cập đến việc sử dụng nội dung trực tuyến.

Trong nhiều năm, OpenAI, Google và Anthropic sử dụng dữ liệu của công ty khác để huấn luyện mô hình AI của họ. Hoạt động không được cấp phép này trở thành một phần trong cuộc chiến pháp lý đang diễn ra. Kết quả của nó sẽ quyết định tương lai nội dung trên nền tảng web và cách thực thi quy định bản quyền trong thời đại ngày nay.

Nói một đằng, làm một nẻo

"Bạn không thể truy cập hoặc sử dụng dịch vụ theo các cách sau: Để phát triển bất kỳ sản phẩm hoặc dịch vụ nào cạnh tranh với dịch vụ của chúng tôi, bao gồm cả việc phát triển hoặc huấn luyện bất kỳ thuật toán, mô hình trí tuệ nhân tạo hoặc máy học nào", thỏa thuận sử dụng dịch vụ Claude, một trợ lý AI của Anthropic nêu rõ.

"Bạn không được sử dụng dịch vụ để phát triển các mô hình máy học hoặc công nghệ liên quan", điều khoản sử dụng dịch vụ AI tạo sinh của Google cho biết.

"Bạn không được sử dụng đầu ra từ dịch vụ để phát triển các mô hình cạnh tranh với OpenAI", công ty đứng sau ChatGPT đặt ra yêu cầu.

OpenAI không cho phép dùng dữ liệu đầu ra của ChatGPT để huấn luyện AI. Ảnh: Phương Lâm.

Các ông lớn công nghệ đều cấm sử dụng nội dung của họ để huấn luyện mô hình AI bên ngoài. Vậy, tại sao họ được phép làm điều này với dữ liệu của người khác?

Theo nhận định của Business Insider, các công ty này không ngớ ngẩn. Họ biết rằng nội dung chất lượng là yếu tố sống còn để huấn luyện các mô hình AI mới. Vì vậy, họ không cho phép dùng kết quả của mình vào việc đó.

Vấn đề là Google, OpenAI, Anthropic đều âm thầm sử dụng lượng nội dung khổng lồ trên Internet mà không gặp bất kỳ cản trở nào. Và tất cả họ đều im lặng khi Business Insider đề nghị bình luận.

Reddit và các nhà sản xuất nội dung sực tỉnh

Các công ty khác bắt đầu nhận thấy điều đang xảy ra. Reddit - một trong những cộng đồng trực tuyến lớn mạnh nhất thế giới, sở hữu kho nội dung khổng lồ, được các công ty sử dụng trong nhiều năm để huấn luyện mô hình AI - có kế hoạch tính phí truy cập vào dữ liệu của họ.

"Khối dữ liệu Reddit thực sự có giá trị. Nhưng chúng tôi không cần cung cấp miễn phí tất cả giá trị đó cho một số công ty lớn nhất trên thế giới", Steve Huffman, CEO Reddit cho biết.

Reddit và các nhà xuất bản nội dung nhận ra giá trị của họ trong việc huấn luyện AI. Ảnh: Reuters.

Vào tháng 4, Elon Musk cáo buộc Microsoft, nhà tài trợ chính của OpenAI, sử dụng trái phép dữ liệu của Twitter để huấn luyện các mô hình AI. "Họ đã huấn luyện AI bằng cách sử dụng trái phép dữ liệu của Twitter. Đã đến lúc ra toà", CEO Elon Musk đăng trên trang cá nhân và nhận được hơn 198.000 lượt thích.

"Có quá nhiều sai lầm với giả thuyết này, tôi thậm chí không biết bắt đầu từ đâu", một phát ngôn viên Microsoft viết trong email phản hồi đề nghị bình luận của Business Insider.

Trong khi đó, dường như CEO OpenAI, Sam Altman, đang cố gắng suy nghĩ thấu đáo hơn bằng cách phát triển các mô hình AI mới, hướng đến tôn trọng bản quyền.

"Chúng tôi đang cố gắng làm việc trên các mô hình mới, trong đó, nếu hệ thống AI sử dụng nội dung của bạn thì bạn sẽ được trả tiền", ông phát biểu trong sự kiện gần đây.

Các nhà sản xuất nội dung sẽ được hưởng lợi nhất định. Một số đơn vị xuất bản, bao gồm tập đoàn truyền thông News Corp, bắt đầu khuyến khích các công ty công nghệ trả tiền để sử dụng nội dung của họ vào huấn luyện mô hình AI .

Tuy nhiên, vẫn còn một mối nguy khác. Cựu lãnh đạo cấp cao của Microsoft, Steven Sinofsky cho rằng cách huấn luyện các mô hình AI hiện tại sẽ "phá vỡ" web.

"Việc thu thập dữ liệu từng được cho phép để đổi lấy các nhấp chuột. Nhưng giờ đây, việc thu thập dữ liệu chỉ đơn giản là huấn luyện một mô hình và không có giá trị nào được chuyển đến những người sáng tạo/chủ sở hữu bản quyền", ông nêu ý kiến trên trang cá nhân.

Nhân loại sẽ đối đầu với trí tuệ nhân tạo như thế nào

Trong cuốn sách "Framers - Nhân loại đối đầu nhân tạo", các tác giả nhận định con người vẫn có lợi thế trong thời đại công nghệ.

Nguyễn Hiếu

Theo Business Insider

dữ liệu huấn luyện AI huấn luyện AI ChatGPT bản quyền

Giọng điệu giả tạo của các nhà phát triển AI

Nói một đằng, làm một nẻo

Reddit và các nhà sản xuất nội dung sực tỉnh

Bị mất việc vì ChatGPT, người viết thuê chuyển sang dắt chó đi dạo

Đánh mất sự nghiệp luật sư 30 năm vì tin vào ChatGPT

Cựu CEO Google cảnh báo về AI

Apple sắp gia nhập cuộc đua mà ChatGPT khơi mào

Apple cấm nhân viên sử dụng AI

ChatGPT khiến cả lớp bị giữ bằng tốt nghiệp

Bạn có thể quan tâm