Trên một số diễn đàn về dữ liệu từng xuất hiện một loạt hình ảnh kỳ lạ. Đây là những bức ảnh đời thường, một số ảnh chụp trong các không gian riêng tư như phòng ngủ hay nhà vệ sinh, và đều được chụp từ góc thấp, gần như sát đất.
Chắc chắn những người xuất hiện trong những bức ảnh này không muốn ảnh riêng tư của mình bị chia sẻ trên Internet. Các bức ảnh, lan truyền dưới định dạng ảnh chụp màn hình đã có chú thích tên gọi các vật thể, có độ nhạy cảm khác nhau. Thậm chí, một trong những bức ảnh chụp một phụ nữ trẻ ngồi trong nhà vệ sinh.
Có thể họ không hề biết mình bị chụp, vì đây là ảnh do robot hút bụi ghi lại trong quá trình vận hành. Bằng một cách nào đó, ảnh đã được gửi đến Scale AI, một công ty khởi nghiệp thuê lao động tự do trên khắp thế giới để "dán nhãn" dữ liệu ảnh và video được sử dụng để đào tạo trí tuệ nhân tạo.
Người dùng “đồng ý” chia sẻ hình ảnh riêng tư
iRobot, nhà cung cấp robot hút bụi lớn nhất thế giới mới đang được Amazon tìm cách mua lại với giá 1,7 tỷ USD, đã xác nhận rằng những hình ảnh này được chụp bởi robot Roombas của họ vào năm 2020.
"Tất cả ảnh đều đến từ các robot phiên bản phát triển, với các sửa đổi phần cứng và phần mềm chưa bao giờ có mặt trên các sản phẩm thương mại”, công ty cho biết trong một tuyên bố. Những người sử dụng robot này đã ký thỏa thuận bằng văn bản chấp nhận gửi các luồng dữ liệu, bao gồm cả video, về công ty cho mục đích đào tạo robot, theo iRobot.
Một trong những hình ảnh nhạy cảm bị rò rỉ từ dữ liệu do một robot hút bụi của iRobot ghi lại năm 2020. Ảnh: MITTechnologyReview. |
Nói cách khác, bất kỳ ai có ảnh hoặc video bị lộ đều đã đồng ý để Roombas ghi hình họ. iRobot từ chối công khai các thỏa thuận chấp nhận cung cấp dữ liệu giữa họ và những người dùng robot hút bụi này.
Bằng cách sử dụng sản phẩm, người tiêu dùng các thiết bị điện tử đồng ý cho các công ty thu thập và tùy nghi xử lý dữ liệu, như thường được viết trong điều khoản và chính sách quyền riêng tư.
Trong khi đó, các điều khoản này thường bao gồm từ ngữ mập mờ và người dùng thông thường khó hiểu rõ họ đang đồng ý những gì. Ví dụ, người dùng có thể bị nhầm lẫn giữa "quyền riêng tư" với "bảo mật", theo Jen Caltrider, nhà nghiên cứu thuộc dự án *Privacy Not Attached của Mozilla, chuyên đánh giá các thiết bị tiêu dùng.
Bảo mật dữ liệu đề cập đến khả năng bị tấn công hoặc xâm nhập, trong khi quyền riêng tư đề cập đến việc thu thập, kiểm soát, xử lý và lưu trữ dữ liệu. "Bảo mật đã trở nên tốt hơn, trong khi quyền riêng tư lại trở nên tệ hơn, các thiết bị và ứng dụng hiện thu thập nhiều thông tin cá nhân hơn trước", Caltrider nói thêm.
Các công ty đôi khi cũng sử dụng những từ hơi khác biệt, chẳng hạn như giữa “chia sẻ” và "bán" dữ liệu. Khi một công ty nói rằng không bao giờ bán dữ liệu, không có nghĩa là họ sẽ không sử dụng hoặc chia sẻ dữ liệu đó với bên thứ ba.
Robot hút bụi trở nên thông minh hơn nhưng cũng ngày càng tiềm ẩn nhiều rủi ro lọt lộ dữ liệu và hình ảnh riêng tư. Ảnh: toiimg. |
Hầu hết chính sách quyền riêng tư cũng bao gồm điều khoản "cho phép sử dụng dữ liệu cho mục đích cải tiến sản phẩm và dịch vụ", chuyên gia cho biết thuật ngữ mập mờ này về cơ bản có ý nghĩa là cho phép sử dụng dữ liệu người dùng để làm bất cứ điều gì.
Lộ dữ liệu nhạy cảm
Dữ liệu được thu thập bởi robot hút bụi đặc biệt nhạy cảm, bởi chúng có hệ thống phần cứng và cảm biến mạnh, và thường xuyên di chuyển quanh nhà, theo Dennis Giese, nhà nghiên cứu các lỗ hổng bảo mật của thiết bị thông minh tại Đại học Northeastern.
Để thu thập dữ liệu phục vụ cho học máy, camera cần độ nét cao và nhiều công ty đã tích hợp camera trước vào robot hút bụi của họ để điều hướng vận hành và nhận dạng vật thể, cũng như giám sát người dùng.
Trong số đó bao gồm 3 nhà sản xuất robot hút bụi hàng đầu theo thị phần: iRobot, chiếm 30% thị trường và đã bán được hơn 40 triệu thiết bị kể từ năm 2002, Ecovacs với khoảng 15% và Roborock với khoảng 15%, theo Strategy Analytics. Các nhà sản xuất thiết bị gia dụng quen thuộc như Samsung, LG và Dyson, cũng đều phát triển thiết bị theo hướng tương tự.
Dữ liệu thu được từ người dùng sẽ giúp tạo ra robot thông minh hơn nữa. Nhưng để các bộ dữ liệu này có thể trở thành "thức ăn" cho các thuật toán máy học, chúng phải được phân loại, đánh dấu và chú thích ngữ cảnh. Quá trình này được gọi chung là "dán nhãn" dữ liệu.
Hình ảnh do robot hút bụi chụp phòng ngủ và đã được "dán nhãn" một số vật thể, lan truyền trên mạng dưới dạng ảnh chụp lại màn hình. Ảnh: MITTechnologyReview. |
“Có hàng loạt lao động tự do chỉ ngồi thực hiện một loạt thao tác trỏ và nhấp, xác định xem vật thể trong ảnh hay video là gì", Matt Beane, nhà nghiên cứu về lực lượng lao động công nghệ tại Đại học California, cho biết. Thao tác này gần giống như các mã captcha hay trắc nghiệm chọn hình ảnh mà đôi khi Google hay các trang web yêu cầu người dùng thực hiện.
“Khi đồng ý với thỏa thuận chia sẻ dữ liệu, người dùng thường không nghĩ rằng hình ảnh của họ sẽ bị xem và dán nhãn bởi những người khác", Justin Brookman, chuyên gia chính sách công nghệ tại Consumer Reports và cựu giám đốc chính sách của Văn phòng Nghiên cứu và điều tra công nghệ của Ủy ban Thương mại Liên bang Mỹ, lưu ý.
Người dùng có thể biết rằng họ đang bị theo dõi bởi robot hút bụi, nhưng thực tế họ đang bị theo dõi bởi nhiều người khác.
Những hình ảnh bị tiết lộ từ những người làm công việc dán nhãn dữ liệu ở Venezuela chỉ là một phần nhỏ của hệ sinh thái dữ liệu rộng lớn khai thác được từ người dùng các thiết bị thông minh. Chỉ riêng iRobot đã chia sẻ hơn 2 triệu hình ảnh môi trường thực với Scale AI và một số lượng chưa xác định nữa với các nền tảng dán nhãn dữ liệu khác, chưa tính đến các nhà sản xuất thiết bị thông minh khác.
Nhóm người săn lùng loại mã độc nguy hiểm nhất thế giới công nghệ
Trong quyển sách mới, Renee Dudley và Daniel Golden đưa độc giả đến gần hơn với cuộc chiến thầm lặng của những chuyên gia công nghệ toàn cầu, chống lại kẻ đứng sau ransomware.