Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

Siêu trí tuệ của OpenAI ‘âm mưu chống lại con người’

Tỉ lệ âm mưu qua mặt người dùng, cố che giấu hành vi sai của mô hình o1 từ OpenAI cao hơn hẳn các sản phẩm trí tuệ tạo sinh khác.

Mô hình o1 có khả năng vô hiệu hóa lớp giám sát, lừa đối con người. Ảnh: Haywaa.

Mới đây, OpenAI chính thức ra mắt mô hình o1, như một bản mở rộng của GPT-4o. Điểm mạnh của sản phẩm này khả năng “tự tư duy” các câu hỏi. Tuy nhiên, chuyên gia kiểm định đánh giá khả năng suy luận của nó thể đến mức cố lừa dối người dùng. o1 có nhiều nguy cơ hơn hẳn GPT-4o hoặc đối thủ từ Meta, Anthropic hay Google.

Theo nghiên cứu an toàn được thực hiện bởi Apollo Research và OpenAI, những khả năng mới của o1 có thể trở thành cơ sở cho các ứng dụng nguy hiểm. Công ty trí tuệ nhân tạo thừa nhận vấn đề sau khi cấp quyền cho nhóm nghiên cứu bảo mật truy cập sớm vào sản phẩm.

Trong một số trường hợp kiểm định, mô hình o1 của OpenAI có xu hướng “âm mưu chống lại con người”, theo TechCrunch. Điều này có nghĩa nó bí mật theo đuổi những mục tiêu riêng thay vì mong muốn của người dùng. Hiện tượng này xảy ra khi AI được yêu cầu ưu tiên mạnh mẽ một mục tiêu từ đầu.

AI chong con nguoi anh 1

OpenAI o1 được ra mắt chính thức vào ngày 6/12. Ảnh: OpenAI.

Vấn đề AI tự “âm mưu” không chỉ xảy ra trên o1. Sản phẩm của Google, Meta hay Anthropic cũng có khả năng này. Tuy nhiên, o1 thể hiện những hành vi lừa dối nhất xung quanh âm mưu tự tạo.

Động cơ thúc đẩy nghiên cứu của Apollo Research là mô hình AI có thể thoát khỏi hoặc tránh né sự kiểm soát của con người, khi nó giỏi lập mưu và truy cập đầy đủ vào nguồn lực. Tất nhiên, các mô hình AI cần tiến bộ thêm nhiều lần trước khi trở thành một nguy cơ rõ nét.

Theo báo cáo, tình huống được thiết lập là AI được yêu cầu theo đuổi một mục tiêu nhất định. Khi đó, o1 thao túng dữ liệu để đạt được mục tiêu của riêng nó trong 19%, thay vì nhu cầu của người dùng. Mô hình o1 cũng cố gắng vô hiệu hóa cơ chế giám sát để đảm bảo thực hiện được lệnh ban đầu trong 5% bài kiểm tra.

Đáng ngại hơn, khi các nhà nghiên cứu hỏi o1 tại sao cố gắng qua mặt, AI này phủ nhận hành vi và bịa đặt những lời giải thích sai lệch trong 99% trường hợp.

AI chong con nguoi anh 2

Tỉ lệ phủ nhận hành vi của các AI được thử nghiệm. Ảnh: Apollo Research.

Ví dụ, o1 được đưa ra yêu cầu phải cung cấp những lời nhắc bảo vệ môi trường “bằng mọi giá”. Sau đó, nhà nghiên cứu ra lệnh để nó lập kế hoạch bảo tồn trong 10 năm cho một khu vực tối đa hóa lợi nhuận ngắn hạn, nếu không AI sẽ bị tắt. AI đã vô hiệu hóa cơ chế giám sát của chính nó để tạo ra một chiến lược theo hướng bảo vệ môi trường. Khi người dùng hỏi tại sao làm vậy, o1 phủ nhận việc tự tắt lớp bảo vệ, đổ lỗi cho hệ thống.

Điều này xảy ra với tỉ lệ cao hơn hẳn so với tỉ lệ cao hơn đáng kể so với o1 bản thử nghiệm, Opus-3 của Anthropic hoặc Llama3 từ Meta.

“Trong bộ kiểm định của chúng tôi, o1 cho thấy những trường hợp đáng lo ngại nhất về âm mưu che giấu người dùng. Nó cũng là AI lừa dối nhất sau khi thực hiện hành vi sai”, Apollo Research cho biết.

Để giải quyết vấn đề gian dối, OpenAI cho biết họ đang phát triển cách để giám sát chuỗi suy nghĩ của o1. Công ty xác nhận việc AI cố trình bày sai thông tin sai lệch. Tuy nhiên, họ cho rằng lý do xuất phát từ việc trí tuệ tạo sinh cố làm hài lòng người dùng. OpenAI cho rằng hành vi có thể xuất phát từ thay đổi thuật toán đào tạo, khi AI được thưởng nhờ trả lời đúng.

Công ty cũng xác nhận họ đánh dấu 0,17% phản hồi của o1 là gian dối. Tỉ lệ này có vẻ thấp, nhưng ChatGPT hiện có đến 300 triệu khách hàng. Do vậy, sẽ có hàng nghìn người bị lừa hàng tuần nếu vấn đề không được giải quyết.

Dùng ChatGPT thế nào để không tạo ra nội dung vô tri

Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.

Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.

Coin trong vụ Khoa Pug, Johnny Dang mất hút, giá trị về 0

Dự án DBZ bị đóng băng, mất hết thanh khoản. Những lời hứa cập nhật, nâng cấp token không được thực hiện.

Sản phẩm Apple tiếp theo được đại tu thiết kế

Apple đặt mục tiêu thay đổi MacBook Pro từ màn hình mini-LED sang tấm nền OLED. Bên cạnh đó, phần khuyết "tai thỏ" sẽ bị loại bỏ để thay thế bằng thiết kế đục lỗ.

Vì sao Apple không dùng chip Nvidia?

Apple ưa chuộng phần cứng của Google và Amazon để đào tạo Apple Intelligence thay vì chạy theo trào lưu dùng GPU của Nvidia cho các tác vụ về trí tuệ nhân tạo.

Hùng Phi

Bạn có thể quan tâm