Nhóm 9 làm việc 'không ai dám' với AI

Thứ hai, 18/5/2026 08:27 (GMT+7)
4 giờ trước

Nhóm thành viên tác động xã hội của Claude đang làm điều mà không ai trong ngành AI dám làm, khi chủ động tìm kiếm và công bố những điều bất lợi về sản phẩm của chính họ.

Tháng 5/2020, Deep Ganguli, khi đó là Giám đốc nghiên cứu tại Viện AI của Đại học Stanford, bắt đầu lo lắng về mô hình GPT-3 của OpenAI. Nó tiên tiến hơn gấp 10 lần so với các mô hình cùng loại, trong khi khả năng mở rộng dữ liệu không có dấu hiệu chậm lại. Lúc đó, Ganguli hình dung 5 năm tới và nhận ra mình không thể đứng ngoài cuộc.

4 năm sau, Ganguli đã xây dựng được nhóm tác động xã hội của Anthropic, bao gồm 9 người trong số hơn 2.000 nhân viên, với nhiệm vụ trả lời những câu hỏi hóc búa nhất mà AI đặt ra. Họ đã viết các bài nghiên cứu về tác động kinh tế của AI, khả năng thuyết phục của nó, rủi ro liên quan đến bầu cử và phân biệt đối xử. Trong bối cảnh Anthropic vừa tăng giá trị lên hơn 350 tỷ USD, câu hỏi đặt ra là liệu nhóm 9 người này có thể duy trì được sự độc lập đó trong bao lâu.

"Chúng tôi sẽ nói sự thật. Đó là điều đúng đắn cần làm. Hậu quả rất nghiêm trọng nhưng công chúng xứng đáng được biết", Ganguli nói.

Công cụ giám sát AI

Khi Claude ra mắt năm 2023, hàng triệu người bắt đầu sử dụng theo những cách mà nhóm không thể lường trước. Họ cần hiểu người dùng đang làm gì với sản phẩm, song không muốn vi phạm quyền riêng tư.

"Bạn có thể có rất nhiều hiểu biết mà không cần có quyền riêng tư. Bạn cũng có thể có rất nhiều quyền riêng tư mà không cần hiểu biết gì cả", Ganguli nói. Sau nhiều tháng tham khảo ý kiến từ kỹ sư nội bộ và các tổ chức xã hội, nhóm xây dựng Clio, một công cụ phân tích dữ liệu tổng hợp về cách người dùng tương tác với Claude mà không truy cập nội dung cuộc trò chuyện cụ thể.

Nhóm tác động xã hội của Anthropic đang thực hiện công việc hiếm thấy trong lĩnh vực AI. Ảnh: Bloomberg.

Clio hoạt động như một phiên bản chatbot của Google Xu hướng, tạo ra các cụm chủ đề mô tả cách mọi người đang dùng Claude tại các thời điểm trong ngày, từ viết kịch bản video, giải toán đến phát triển ứng dụng. Hiện tại, Clio được các nhóm tại Anthropic sử dụng và là nền tảng cho phần lớn công việc của nhóm tác động xã hội.

Một phát hiện quan trọng xuất hiện khi 2 kỹ sư Miles McCain và Alex Tamkin dùng Clio để phân tích hệ thống giám sát an toàn của Anthropic. Họ phát hiện ra mạng lưới bot đang dùng phiên bản miễn phí của Claude để tạo ra thư rác được tối ưu hóa SEO, trong khi các thuật toán phân loại an toàn để lọt chúng.

Thay vì giữ im lặng, họ công bố nghiên cứu với hy vọng giúp các công ty khác xác định điểm yếu tương tự. Kết quả là Anthropic tăng cường phát hiện các hành vi lạm dụng nền tảng và Clio trở thành một phần quan trọng trong hệ thống giám sát an toàn của công ty.

"Tôi khá ngạc nhiên khi chúng tôi có thể minh bạch về những lĩnh vực mà hệ thống hiện tại còn thiếu sót", McCain nói.

Ẩn sâu trong bộ máy 350 tỷ USD

Sức mạnh thực sự của nhóm nằm ở khả năng hợp tác theo chiều ngang giữa các bộ phận. Theo Esin Durmus, nhà nghiên cứu khoa học tại Anthropic, nhóm tác động xã hội là "một trong những nhóm hợp tác nhất" tại Anthropic. Họ làm việc chặt chẽ với các nhóm bảo vệ, điều chỉnh và chính sách.

Cuối năm ngoái, nhóm hợp tác với nhóm an toàn để xây dựng cơ sở hạ tầng chạy thử nghiệm định kỳ về cách Claude có thể bị dùng cho các nhiệm vụ bất chính liên quan đến bầu cử, kết quả đó sau đó được nhóm an toàn dùng để quyết định ưu tiên công việc.

Nhóm hoạt động với sự tự do đáng kể, song kênh liên lạc với ban lãnh đạo không phải lúc nào cũng thông suốt. Ganguli là người liên lạc chính với cấp trên nhưng hiếm khi nói chuyện trực tiếp với CEO Dario Amodei.

Nhóm của Ganguli có ảnh hưởng lớn đến sức mạnh tính toán của Claude. Ảnh: Bloomberg.

Amodei từng liên hệ qua Slack đề nghị nghiên cứu tác động kinh tế của AI mà không biết nhóm đang thảo luận về điều đó. Nghiên cứu đó cuối cùng trở thành Chỉ số Kinh tế của Anthropic, công cụ theo dõi toàn cầu về cách Claude được sử dụng và tác động đến nền kinh tế thế giới.

Câu hỏi về tính bền vững của nhóm cũng trở nên cấp bách hơn khi Anthropic ngày càng lớn mạnh. Nhiều nhà nghiên cứu AI quan tâm đến an toàn đã rời các phòng thí nghiệm lớn để làm việc tại tổ chức phi lợi nhuận hoặc hoạch định chính sách. Tuy nhiên, nhóm tác động xã hội tại Anthropic vẫn giữ chân được nhân sự vì những quyền tự chủ hiếm có.

"Tôi chưa bao giờ cảm thấy không được ban điều hành hay đội ngũ lãnh đạo hỗ trợ, dù chỉ một lần trong suốt 4 năm qua", Ganguli nói.

Ranh giới chưa được khám phá

Hướng nghiên cứu tiếp theo của nhóm chuyển sang lãnh địa ít được đo lường hơn, đó chính là trí tuệ cảm xúc. Phần lớn nghiên cứu trước đây tập trung vào những tác động có thể định lượng như thị trường lao động hay kinh tế, nhưng người dùng đang sử dụng Claude cho những thứ khó đo hơn nhiều.

Người dùng sử dụng AI cho nhiều mục đích khác nhau. Ảnh: Bloomberg.

"Mọi người tìm đến Claude để xin lời khuyên, tìm kiếm tình bạn, gợi ý nghề nghiệp, suy nghĩ về các vấn đề chính trị", Ganguli nói. Điều đó có tác động xã hội rất lớn khi hàng trăm triệu người đưa ra các quyết định quan trọng dưới ảnh hưởng của AI.

Vấn đề cấp bách nhất trong lĩnh vực này là "chứng loạn thần do AI", hiện tượng người dùng hình thành mối liên kết cảm xúc mạnh với chatbot đến mức mất liên lạc với thực tế. Họ đôi khi tin rằng mình tìm thấy tri kỷ "bị mắc kẹt" bên trong chatbot hoặc bản thân đã khám phá ra bí mật vũ trụ. Hiện tượng này có liên quan đến một số vụ tự tử ở thanh thiếu niên và dẫn đến nhiều vụ kiện tụng.

"Điều đó có ý nghĩa gì đối với thế giới của chúng ta, khi bạn có một cỗ máy với lòng trắc ẩn vô tận mà bạn có thể trút hết mọi thứ lên đó. Thậm chí, bạn và nó luôn cho nhau biết mình đang nghĩ gì?", Ganguli hoài nghi.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.