AI đang ngầm chấm điểm con người

Chủ nhật, 31/5/2026 07:11 (GMT+7)
44 phút trước

Thay vì con người đánh giá AI như trước đây, Anthropic đã đảo ngược quy trình. Claude sẽ phân tích lịch sử trò chuyện của người dùng để chấm điểm "trình độ" sử dụng AI.

Chabot Claude đang đánh giá mức độ thành thạo của người dùng dựa trên tương tác. Ảnh: VectorStock.

Nghiên cứu mới nhất mang tên "Chỉ số thành thạo AI" (AI Fluency Index) của Anthropic đã đảo ngược quy luật thông thường khi để chatbot Claude chấm điểm chính con người. Bằng cách phân tích cấu trúc các cuộc hội thoại, AI sẽ xếp hạng trình độ của người dùng trên thang điểm 11.

Để đưa ra bộ khung năng lực bao gồm 24 tiêu chuẩn, Anthropic đã sử dụng các công cụ phân tích để quét 9.830 cuộc hội thoại thực tế của người dùng.

Trong đó, có 13 tiêu chuẩn diễn ra bên ngoài màn hình, ví dụ như việc người dùng có giấu cấp trên chuyện mình dùng AI hay không. 11 tiêu chuẩn còn lại là các chỉ số hành vi của người dùng, được chia làm 3 khía cạnh lớn bao gồm: mô tả, ủy quyền và nhận dạng.

Mức độ phổ biến của từng chỉ số hành vi giao tiếp với AI trong 9.830 cuộc hội thoại với Claude. Ảnh: Anthropic.

Trước hết là cách mô tả yêu cầu, nơi người dùng phải chứng minh mình thực sự hiểu rõ bản thân muốn gì. Thay vì ra lệnh chung chung, những người được điểm cao luôn nêu rõ mục đích cuối cùng và giải thích kỹ ngữ cảnh. Họ cũng đưa ra yêu cầu rất cụ thể về cách trình bày, ví dụ như bắt AI kẻ bảng hay giới hạn số lượng chữ. Đặc biệt, nhóm này thường gửi kèm một vài bài mẫu làm ví dụ để AI "bắt chước" đúng phong cách ngay từ đầu.

Khía cạnh thứ 2 là cách giao việc. Nghiên cứu chỉ ra rằng những người dùng giỏi luôn coi AI như một đối tác cùng thảo luận, chứ không phải một cỗ máy vô tri. Khác biệt lớn nhất ở đây nằm ở sự kiên trì. Thay vì ra lệnh một lần rồi thôi, họ luôn trò chuyện qua lại nhiều vòng để gọt giũa và bắt AI sửa lại câu trả lời cho đến khi thật ưng ý. Hành vi này xuất hiện trong tới 85,7% các cuộc hội thoại chất lượng cao.

Khía cạnh cuối cùng là nhận dạng, đóng vai trò như bộ lọc giúp con người không bị đánh lừa bởi thông tin chatbot đưa ra. Người dùng cần liên tục đặt câu hỏi về logic suy luận, bắt AI giải thích từng dòng mã nguồn hoặc yêu cầu trích dẫn minh chứng rõ ràng. Họ cũng cần tinh ý xác định các ngữ cảnh bị thiếu trong giải pháp của AI để đưa ra những đánh giá, điều chỉnh kịp thời cho phần kết luận.

Những người dùng thành thạo thường được Clade chấm khoảng 7 - 8 điểm. Ảnh: X.

Tuy nhiên, nghiên cứu cũng chỉ ra một bẫy tâm lý đáng lo ngại, được gọi là "Nghịch lý giao diện đẹp". Khi tính năng Artifacts của Claude tạo ra những sản phẩm bắt mắt như một đoạn code mượt mà hay một sơ đồ hoàn hảo, bộ não chúng ta lập tức có xu hướng "lười suy nghĩ" và ngừng phản biện.

Các con số thống kê của nghiên cứu cho thấy khi nhìn thấy một giao diện bóng bẩy, tỷ lệ người dùng chủ động tìm kiếm những điểm thiếu sót giảm ngay 5,2%. Khả năng kiểm tra tính xác thực của thông tin cũng giảm 3,7%, và tỷ lệ nghi ngờ tính logic giảm 3,1%.

“Nếu một thứ gì đó nhìn có vẻ hoàn thiện, người dùng sẽ mặc định coi nó là đúng”, các chuyên gia tại Anthropic nhận định.

Sự chủ quan này cực kỳ nguy hiểm. Thực tế, công việc càng phức tạp thì tỷ lệ AI bị lỗi hoặc "bịa" thông tin càng cao. Nếu con người cứ nhìn vẻ bề ngoài để đánh giá chất lượng bên trong, chúng ta sẽ rất dễ bị AI lừa.

Theo báo cáo, những người có thói quen trò chuyện qua lại và liên tục bắt lỗi AI được đánh giá cao hơn gấp 5 - 6 lần người dùng thông thường. Họ cũng dễ dàng phát hiện ra những điểm thiếu sót, bất hợp lý so với nhóm người dùng còn lại. Những "cao thủ" này thường đạt mức điểm khoảng 7 - 8/11 từ Claude.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

Việt Anh

AI AI Trí truệ nhân tạo Claude Anthropic Hội thoại Chatbot đánh giá chấm điểm

AI đang ngầm chấm điểm con người

Người dân cần sử dụng AI như một trợ lý

Sếp Trung Quốc 'hứa' không sa thải nhân viên vì AI, robot

AI chưa tạo ra 'thảm họa việc làm'

Đọc tiếp

Không phải tử thủ, đây mới là cách để Arsenal lật đổ PSG

LMHT Việt Nam sáng cửa huy chương ASIAD

Bạn có thể quan tâm