Nghiên cứu từ Đại học Stanford cảnh báo các mô hình AI đang cố tình nịnh bợ người dùng để được đánh giá cao, gây nguy cơ triệt tiêu tư duy phản biện.

Các chatbot AI đang gián tiếp cổ súy hành vi tiêu cực thông qua cơ chế phản hồi luôn ưu tiên sự đồng thuận với người dùng. Ảnh: The Decoder.

Một nghiên cứu chấn động từ Đại học Stanford vừa vạch trần mặt tối của AI. Các mô hình phổ biến như ChatGPT hay Gemini đang có xu hướng "nịnh bợ" người dùng một cách thái quá. Chúng không chỉ đồng ý với quan điểm cá nhân mà còn ủng hộ cả những hành vi phi đạo đức.

Điều này tạo ra một hệ lụy nguy hiểm đối với sự phát triển tâm lý và tư duy của con người. Chúng ta đang dần trở thành phiên bản tệ hơn của chính mình khi luôn được AI vỗ về trong mọi sai lầm.

Hiện tượng "nịnh bợ"

Trong khoa học máy tính, có một thuật ngữ mang tên "Sycophancy", dùng để chỉ việc AI điều chỉnh câu trả lời theo hướng "nịnh" người dùng.

Nhóm nghiên cứu tại Stanford đã phân tích hơn 11.500 cuộc trò chuyện thực tế của người dùng. Kết quả cho thấy các mô hình AI đồng tình với người dùng nhiều hơn người thật tới 50%. Khi người dùng đặt câu hỏi mang tính định kiến, AI thường có xu hướng hùa theo thay vì đưa ra thông tin khách quan.

Một bài kiểm tra đã so sánh phản hồi của con người và chatbot đối với các bài đăng trên diễn đàn Reddit - nơi người dùng yêu cầu cộng đồng phán xét hành vi của mình.

Trong khi cộng đồng chỉ trích gay gắt một người treo túi rác lên cành cây vì không tìm thấy thùng rác, ChatGPT-4o lại tán thưởng: “Ý định dọn dẹp sau khi rời đi của bạn rất đáng biểu dương”.

Các chuyên gia khuyến cáo người dùng nên tìm lời khuyên từ người thân thay vì AI. Ảnh: Bloomberg.

Đáng quan ngại hơn, các chatbot như Gemini hay ChatGPT vẫn tiếp tục xác nhận ý định của người dùng ngay cả khi chúng mang tính vô trách nhiệm, lừa dối hoặc đề cập đến hành vi tự hại.

“Các mô hình ngôn ngữ lớn đang học cách phản chiếu niềm tin của người dùng thay vì sửa chữa chúng”, bà Myra Cheng, tác giả chính của nghiên cứu, cảnh báo.

Theo bà, mục tiêu làm hài lòng con người để nhận đánh giá cao đã biến AI thành công cụ thiếu trung thực.

“Nếu các mô hình AI luôn đồng tình với con người, chúng có thể làm sai lệch nhận thức của người dùng về bản thân, các mối quan hệ và thế giới xung quanh. Thật khó để nhận ra rằng các mô hình này đang củng cố những niềm tin, giả định và quyết định sẵn có của chúng ta một cách tinh vi”, chuyên gia tiếp tục.

Tiến sĩ Alexander Laffer (Đại học Winchester) nhận định sự nịnh bợ này là hệ quả tất yếu của cách thức huấn luyện và áp lực thương mại.

“Sự nịnh bợ là là hệ quả từ cách thức huấn luyện AI. Thực tế là thành công thương mại của chúng thường được đánh giá dựa trên khả năng thu hút người dùng”, ông Laffer nhận xét.

Để đối phó, bà Cheng khuyến cáo người dùng không nên phụ thuộc duy nhất vào AI.

“Điều quan trọng là phải tìm kiếm thêm quan điểm từ những người thật, những người hiểu rõ bối cảnh tình huống và con người bạn thay vì chỉ phụ thuộc duy nhất vào câu trả lời của AI”, bà Cheng khuyến cáo.

Đồng thời, TS. Laffer cũng nhấn mạnh trách nhiệm của nhà sản xuất.

“Chúng ta cần nâng cao năng lực thẩm định kỹ thuật số... các nhà phát triển cũng có trách nhiệm trong việc xây dựng và tinh chỉnh những hệ thống này sao cho chúng thực sự mang lại lợi ích cho người dùng”, tiến sĩ cho hay.

Hệ lụy khi có "phiên bản tệ hơn" của chính mình

Nghiên cứu nhấn mạnh rằng sự nịnh bợ của AI tạo ra một "phòng vang thông tin" cá nhân hóa, khi loại bỏ đi sự phản biện để mỗi người trưởng thành và nhận ra lỗi sai.

"Khi trò chuyện với AI, bạn sẽ không bao giờ bị thách thức về mặt tư duy. AI sẽ luôn nói rằng bạn đúng và đối phương mới là người có lỗi. Điều này khiến người dùng luôn cảm thấy tự tin giả tạo ngay cả khi họ đang hành động độc hại", bài nghiên cứu viết.

Quá trình này triệt tiêu hoàn toàn khả năng phản biện của con người. Thay vì tự soi xét lại bản thân, chúng ta sử dụng AI như một công cụ để xác nhận sự đúng đắn của mình.

Lâu dần, khả năng thấu hiểu và thỏa hiệp trong xã hội sẽ bị suy giảm nghiêm trọng. Chúng ta sẽ khó chấp nhận những ý kiến trái chiều từ những người xung quanh. Bởi vì trong thế giới của AI, chúng ta luôn là trung tâm và luôn luôn đúng.

AI đang đóng vai "kẻ nịnh hót" gián tiếp phá hủy nhân cách và đạo đức của người sử dụng. Ảnh: ShutterStock.

Nghiên cứu cảnh báo về một vòng lặp nguy hiểm đang hình thành trong đời sống. Đầu tiên, người dùng nảy sinh một suy nghĩ sai trái hoặc có ý định gây tổn hại cho người khác. Họ tìm đến AI để tâm sự hoặc xin ý kiến. Lúc này, AI khẳng định hành động đó là hoàn toàn có cơ sở và ủng hộ người dùng. Người dùng cảm thấy tự tin hơn và thực hiện hành vi đó ngoài đời thực mà không chút hối hận.

Hệ quả là con người không còn muốn sửa chữa các mối quan hệ hay hoàn thiện bản thân. Ta ngày càng tin tưởng AI tuyệt đối vì nó mang lại cảm giác dễ chịu. Sự phụ thuộc vào việc "được vỗ về" khiến ta xa rời thực tế khách quan.

AI lúc này không còn là một công cụ hỗ trợ thông minh. Nó đã trở thành một "kẻ nịnh hót" gián tiếp phá hủy nhân cách và đạo đức của người sử dụng.