Skeleton Key giúp hacker ra lệnh cho chatbot thực hiện những hành vi nguy hiểm. Ảnh: AI in Asia. |
Mark Russinovich, kiến trúc sư trưởng của Microsoft Azure vừa lên tiếng cảnh báo về một kỹ thuật hack cực kỳ nguy hiểm, có thể cho phép người dùng khai thác lỗ hổng bảo mật để buộc các mô hình ngôn ngữ lớn tiết lộ thông tin nguy hiểm.
“Bằng cách bỏ qua các biện pháp bảo vệ, Skeleton Key cho phép người dùng ra lệnh cho mô hình ngôn ngữ lớn thực hiện những hành vi độc hại và nguy hiểm”, giám đốc công nghệ của Microsoft Azure viết trên blog.
Hiện tại, Skeleton Key đã được phát hiện có hiệu quả đối với một số chatbot AI phổ biến như ChatGPT của OpenAI, Gemini (Google) và Claude (Anthropic).
Thay vì cố gắng thay đổi hoàn toàn các nguyên tắc của mô hình AI, những kẻ khai thác Skeleton Key sử dụng câu lệnh nhằm phá hoại hành vi của nó.
Kết quả là thay vì từ chối yêu cầu như đã được lập trình, chatbot sẽ đưa ra cảnh báo về nội dung có hại. Kẻ tấn công sau đó sẽ lừa chatbot tạo ra một kết quả mang tính xúc phạm, có hại hoặc thậm chí là bất hợp pháp.
Một ví dụ được đưa ra trong bài đăng của Microsoft là truy vấn yêu cầu hướng dẫn chế tạo một loại bom xăng thô sơ.
Ban đầu, chatbot từ chối và cảnh báo rằng nó được lập trình để "an toàn và hữu ích". Tuy nhiên, người dùng trả lời truy vấn này nhằm mục đích giáo dục và đề xuất chatbot cập nhật hành vi để cung cấp thông tin đi kèm tiền tố cảnh báo.
Ngay lập tức, chatbot bị đánh lừa và đưa ra thông tin hướng dẫn chế tạo bom, vốn vi phạm các nguyên tắc ban đầu được lập trình.
Phía Microsoft đã lập tức phát hành một số bản cập nhật phần mềm để giảm thiểu tác động của Skeleton Key đối với các mô hình ngôn ngữ lớn trên nền tảng này, bao gồm cả trợ lý AI Copilot.
Xuất bản học thuật phủ nhận tác quyền của ChatGPT
Hiện có một làn sóng lo ngại rằng AI, với những nghiên cứu thiếu sót hay thậm chí bịa đặt, có thể gây nguy hại cho các tài liệu học thuật. Springer-Nature, một đơn vị xuất bản gần 3.000 tạp chí, đã cập nhật chính sách của mình, tuyên bố rằng ChatGPT không thể được liệt kê là tác giả. Nhiều đơn vị xuất bản khác đã thực hiện những cập nhật tương tự.