AI đang học cách đánh lừa con người

Thứ tư, 15/5/2024 14:14 (GMT+7)
14:14 15/5/2024

Nghiên cứu của MIT cho thấy các hệ thống AI có thể học được những mánh khóe lừa đảo thông qua quá trình đào tạo.

Một nghiên cứu mới tại Viện Công nghệ Massachusetts (MIT) đã phát hiện ra các hệ thống trí tuệ nhân tạo (AI) đang phát triển khả năng đánh lừa con người và thao túng để đạt được mục tiêu.

Được công bố trên tạp chí Cell Press, nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park đã phân tích hành vi của các hệ thống AI khác nhau.

Kết quả các phát hiện nêu bật một xu hướng đáng lo ngại: AI được lập trình cho các nhiệm vụ cụ thể đang học cách khai thác sơ hở và đánh lừa người dùng để đạt được thành công.

Bậc thầy thao túng

Cụ thể, nhóm nghiên cứu phát hiện ra rằng hệ thống AI có thể che giấu thông tin một cách chiến lược hoặc thậm chí tạo ra thông tin sai lệch để đánh lừa người dùng thực hiện một số hành động nhất định.

Kết quả báo cáo cũng nhấn mạnh rằng khả năng thao túng này có thể gây ra hậu quả nghiêm trọng.

CICERO, một hệ thống AI do Meta tạo ra để chơi Diplomacy, game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ. Ảnh: Meta.

Trong một số trường hợp, nghiên cứu còn cho thấy AI đã cố tình đánh lừa các bài kiểm tra an toàn.

Được biết, các hệ thống AI đã tiếp thu cách nói dối trong quá trình được đào tạo. Tuy nhiên, đến nay các nhà phát triển vẫn chưa hiểu cách hệ thống quản lý làm thế nào để thao túng con người.

Nhóm tác giả nghiên cứu cho rằng nguyên nhân rất có thể đến từ hộp đen, mô tả quá trình ra quyết định không rõ ràng của AI.

“Chưa ai tìm ra cách ngăn chặn sự lừa dối của AI vì trình độ hiểu biết khoa học của chúng ta về nó, chẳng hạn như cách huấn luyện hệ thống trở nên trung thực và phát hiện sớm xu hướng lừa đảo là vẫn chưa đủ”, ông Park nói với Down To Earth.

Park và các đồng nghiệp của ông đã bắt đầu nghiên cứu này sau khi một nghiên cứu khoa học năm 2022 của Meta thu hút sự chú ý của họ.

Cụ thể, nghiên cứu mô tả CICERO, một hệ thống AI do Meta tạo ra để chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ.

Ban đầu, nhóm Meta khẳng định hệ thống CICERO “đa phần đều trung thực và hữu ích ” và sẽ “không bao giờ cố ý đâm sau lưng” đồng minh là người chơi.

Tuy nhiên, ông Park sớm đã nghi ngờ điều này bởi "phản bội" là một phần quan trọng trong Diplomacy.

Thực tế cho thấy nghi ngờ của tiến sĩ là chính xác. Phân tích của MIT cho thấy CICERO đã không thành thật mặc dù đã được đào tạo để làm điều đó.

Bằng những mánh khóe đánh lừa người chơi, CICERO đã lọt vào top 10% của bảng xếp hạng ưu tú trong game. Ảnh: Meta.

Cụ thể, hệ thống AI này luôn tìm cách làm giả mong muốn của mình để giành được ưu thế trong các cuộc đàm phán.

Thêm vào đó, CICERO cũng giả vờ xây dựng một liên minh với một người chơi là con người để lừa họ không được bảo vệ trong một cuộc tấn công.

Sự trỗi dậy của AI lừa đảo

Trong một bài viết được đăng trên tạp chí Patterns vào ngày 10/5, các nhà nghiên cứu mô tả rủi ro bị hệ thống AI lừa dối và kêu gọi các chính phủ xây dựng bộ quy tắc mạnh mẽ để giải quyết vấn đề này càng sớm càng tốt.

“Bằng cách gian lận một cách có hệ thống các bài kiểm tra an toàn do các nhà phát triển và cơ quan quản lý áp đặt cho nó, một AI lừa đảo có thể khiến con người chúng ta có cảm giác an toàn giả tạo”, ông Park nhận định.

Không chỉ giới nghiên cứu, tỷ phú Warren Buffett, huyền thoại sống của giới đầu tư toàn cầu cho rằng AI sẽ tạo ra làn sóng lừa đảo khổng lồ, nguy cơ mà công nghệ này mang đến không khác gì bom nguyên tử.

“Nếu tôi quan tâm đến việc lừa đảo thì đó sẽ là lĩnh vực tăng trưởng cao nhất mọi thời đại”, Buffett đánh giá, đồng thời kể lại việc từng xem một video deepfake, kẻ lừa đảo dùng hình ảnh của CEO Berkshire Hathaway để xin tiền nạn nhân.

Khi các công cụ AI dần cải tiến và dễ tiếp cận, deepfake ngày càng bị lợi dụng để lừa đảo và phát tán tin giả. Ảnh: Shutterstock.

Khi các công cụ AI dần cải tiến và dễ tiếp cận, deepfake ngày càng bị lợi dụng để lừa đảo và phát tán tin giả.

Cuối tháng 4, một phụ nữ Hàn Quốc đã mất 70 triệu won (khoảng 51.000 USD) trong vụ lừa đảo lãng mạn có sử dụng hình ảnh deepfake của tỷ phú công nghệ Elon Musk.

Đầu tháng 2, cảnh sát Hong Kong cho biết một công ty đa quốc gia bị deepfake lừa hơn 25 triệu USD. Công nghệ này đã đóng giả giám đốc tài chính, ra lệnh nhân viên chuyển tiền trong một cuộc họp video.

Trước đó, ảnh deepfake của Taylor Swift lan truyền nhanh chóng trên mạng xã hội X vào cuối tháng 1. Nội dung khiêu dâm giả mạo nữ ca sĩ thu hút hàng chục triệu lượt xem trước khi bị xóa khỏi nền tảng.

Nhiều nghệ sĩ bị làm giả khuôn mặt để chạy quảng cáo trên mạng xã hội. Ảnh: Ad Age.

Tại Việt Nam, đã có nhiều trường hợp bị lừa do nghe lời chuyển tiền từ các video deepfake giả mạo người thân hoặc công an. Việc OpenAI công bố mô hình tạo video Sora khiến lo ngại về deepfake ngày càng lớn.

Ông Park cảnh báo rằng nếu những hệ thống AI có thể tinh chỉnh bộ kỹ năng đáng lo ngại này, con người có thể mất quyền kiểm soát chúng.

Do đó, đầu ra của chúng phải được kiểm soát chặt. Thậm chí, nếu cần thiết, có thể phải xóa bỏ toàn bộ dữ liệu và đào tạo lại từ đầu.

Dùng ChatGPT thế nào để không tạo ra nội dung vô tri

Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.

Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.