Mô hình GPT-2 của OpenAI có một bộ dữ liệu bao gồm 40 GB dữ liệu văn bản. GPT-3 được đào tạo trên 570 GB dữ liệu. OpenAI giữ bí mật độ lớn của bộ dữ liệu cho mô hình mới nhất, GPT-4, nhưng mô hình này có khả năng xử lý mạnh hơn GPT-3 và gần như chắc chắn lượng dữ liệu lớn hơn so với thế hệ trước. Bây giờ, công ty AI này sắp phải trả giá cho "cơn đói" dữ liệu của các mô hình.
Các cơ quan quản lý châu Âu tin rằng OpenAI đã thu thập dữ liệu cá nhân của mọi người, chẳng hạn như tên hoặc địa chỉ email, và sử dụng các dữ liệu này mà không có sự đồng thuận của chủ sở hữu. Chính quyền Italy đã cấm ChatGPT, và các cơ quan quản lý dữ liệu của Pháp, Đức, Ireland và Canada cũng đang điều tra cách công ty AI thu thập và sử dụng dữ liệu.
Công ty có nguy cơ đối mặt với những khoản tiền phạt nặng và thậm chí có thể bị buộc phải xóa các mô hình và dữ liệu sử dụng để đào tạo mô hình, Alexis Leautier, chuyên gia AI tại cơ quan bảo vệ dữ liệu của Pháp, cho biết.
2 lựa chọn cho OpenAI
Để hoạt động hợp pháp theo các quy định dữ liệu của châu Âu, OpenAI sẽ phải có sự đồng thuận cho phép thu thập dữ liệu từ người dân hoặc chứng minh rằng công ty đang đem lại lợi ích cho xã hội bằng cách thu thập dữ liệu.
Dữ liệu cá nhân công khai trên mạng có thể bị các công ty AI thu thập để đào tạo mô hình mà chưa có sự đồng thuận của chủ sở hữu. Ảnh: Hoàng Nam. |
Nếu OpenAI không thể thuyết phục các nhà chức trách rằng họ sử dụng dữ liệu một cách hợp pháp, họ sẽ không chỉ lãnh các án phạt mà còn bị cấm ở một số quốc gia hoặc toàn bộ Liên minh châu Âu.
Quy định bảo vệ dữ liệu chung của EU (GPDR) thuộc hàng nghiêm ngặt nhất thế giới và đã được nhiều nước sao chép. Các cơ quan quản lý ở khắp mọi nơi sẽ chú ý đến những diễn biến tiếp theo và kết quả ở EU có thể thay đổi cách các công ty AI thu thập dữ liệu.
OpenAI gần như không thể lập luận rằng tất cả người dân EU đã đồng thuận cho công ty này thu thập dữ liệu của họ, vì vậy họ chỉ còn lập luận lợi ích xã hội, theo Lilian Edwards, giáo sư luật Internet tại Đại học Newcastle. Có nghĩa là công ty phải thuyết phục được các cơ quan quản lý rằng ChatGPT là thiết yếu đến mức được phép thu thập dữ liệu mà không có sự đồng thuận.
Công ty nói rằng các mô hình của họ được đào tạo bằng nội dung có sẵn trên mạng, nhưng đối với GDPR, như vậy là chưa đủ. “Đối với Mỹ, khi dữ liệu ở nơi công cộng thì nó không còn là riêng tư nữa. Đó không phải là cách thức hoạt động của luật châu Âu", Edwards nói với MIT Technology Review.
GDPR coi mọi người là các "chủ thể dữ liệu", và có quyền được thông báo về cách dữ liệu của họ được thu thập và sử dụng, cũng như quyền xóa dữ liệu của họ khỏi hệ thống, ngay cả khi dữ liệu đó vốn là công khai.
Vì sao các công ty AI khó tuân thủ quy định dữ liệu
Chính quyền Italy còn cho rằng OpenAI không minh bạch về cách nó thu thập dữ liệu của người dùng trong giai đoạn sau đào tạo, chẳng hạn như trong nhật ký trò chuyện giữa người dùng với ChatGPT.
Khi đào tạo mô hình, các công ty AI thường tìm cách thu thập càng nhiều dữ liệu càng tốt, thay vì sắp xếp cẩn thận các hạng mục dữ liệu ngay từ đầu. Ảnh: Bloomberg. |
Leautier cho biết người dùng có xu hướng chia sẻ thông tin thân mật, riêng tư với chatbot, ví dụ như trạng thái tinh thần, sức khỏe hoặc ý kiến cá nhân. Và theo luật châu Âu, người dùng có quyền được xóa dữ liệu nhật ký trò chuyện này.
Trong khi đó, OpenAI gần như không có khả năng xác định dữ liệu của các cá nhân và xóa dữ liệu đó khỏi các mô hình, theo Margaret Mitchell, nhà nghiên cứu AI tại công ty khởi nghiệp Hugging Face, người từng đứng đầu bộ phận đạo đức nghiên cứu của Google.
Giải thích kỹ hơn, Mitchell cho biết ngành công nghiệp AI thường xây dựng các bộ dữ liệu bằng cách vơ vét bừa bãi trên Internet, sau đó "làm sạch" các điểm trùng lặp, điểm lỗi hoặc các yếu tố không mong muốn. Phương pháp này, cùng với kích thước khổng lồ của dữ liệu, khiến cho các công ty cũng không biết rõ những gì đã đi vào đào tạo mô hình của họ.
Các công ty công nghệ không ghi lại cách họ thu thập hoặc chú thích dữ liệu đào tạo AI, và thậm chí không biết có những gì trong bộ dữ liệu, Nithya Sambasivan, nhà nghiên cứu từng làm việc tại Google, nhận định tương tự.
“Công nghệ xung quanh việc thu thập dữ liệu còn rất non nớt và gần như không thay đổi trong 10 năm qua, vì phần lớn nỗ lực là dành cho các kỹ thuật xây dựng mô hình", Mitchell cho biết.
Nhân loại sẽ đối đầu với trí tuệ nhân tạo như thế nào
Trong cuốn sách "Framers - Nhân loại đối đầu nhân tạo", các tác giả nhận định con người vẫn có lợi thế trong thời đại công nghệ.