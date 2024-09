Bot AI đã thành công vượt qua 100% CAPTCHA. Con số này chứng minh AI đã đạt đến trình độ ngang ngửa con người khi giải mã CAPTCHA.

Mô hình YOLO có thể nhận diện chính xác hình ảnh CAPTCHA với tỉ lệ từ 69% (với hình ảnh xe máy) đến 100% (với trụ nước cứu hỏa). Ảnh: Scienceline.

Có lẽ bạn không xa lạ gì với những bài kiểm tra CAPTCHA - ô hình ảnh yêu cầu người dùng xác định các vật thể như đèn giao thông, xe đạp hoặc vạch qua đường. Quả thật, chúng ta đã quen với việc phải chứng minh mình là con người khi lướt web.

Bức tường thành CAPTCHA bị phá vỡ

CAPTCHA là viết tắt của "Completely Automated Public Turing test to tell Computers and Humans Apart" (tạm dịch: Bài kiểm tra Turing công khai và tự động để phân biệt máy tính và con người). Đây luôn được xem là bức tường bảo vệ các trang web không bị phần mềm tự động tấn công.

Nhưng nghiên cứu mới cho thấy các bot chạy bằng AI có thể vượt qua thử thách này với tỉ lệ thành công 100%. Con số này chứng minh trí tuệ nhân tạo (AI) đã đạt đến trình độ ngang ngửa con người trong việc giải mã CAPTCHA.

Cụ thể, theo Andreas Plesner, nghiên cứu sinh tiến sĩ tại ETH Zurich, nghiên cứu mới của họ tập trung vào hệ thống CAPTCHA nổi tiếng của Google: ReCAPTCHA v2. Đây là loại CAPTCHA yêu cầu người dùng nhận diện các vật thể thường gặp trong hình ảnh như đèn giao thông, xe đạp hay bậc thang.

Các CAPTCHA xác định hình ảnh thường gặp. Ảnh: Arxiv.

Theo Ars Technica, Google đã bắt đầu loại bỏ dần hệ thống này để chuyển sang ReCAPTCHA v3 “vô hình”, phân tích tương tác người dùng.

Nhưng ReCAPTCHA v2 vẫn được hàng triệu website sử dụng. Ngay cả với những trang web dùng ReCAPTCHA v3, chúng vẫn chuyển về dạng captcha hình ảnh cũ nếu hệ thống cảm thấy người dùng không đáng tin cậy.

Để phát triển một bot có thể vượt qua ReCAPTCHA v2, Plesner và nhóm nghiên cứu đã sử dụng mô hình nhận diện vật thể YOLO (You Only Look Once).

Mô hình YOLO này đã từng được sử dụng trong các bot gian lận game vì khả năng phát hiện vật thể theo thời gian thực. YOLO hoạt động hiệu quả trên các thiết bị có sức mạnh tính toán hạn chế, giúp thực hiện những cuộc tấn công quy mô lớn.

Sau khi huấn luyện mô hình với 14.000 hình ảnh được gắn nhãn, hệ thống có thể xác định xác suất một hình ảnh CAPTCHA thuộc một trong 13 loại đối tượng mà reCAPTCHA yêu cầu người dùng nhận diện.

Để xử lý các loại CAPTCHA yêu cầu chọn các phần nhất định của hình ảnh, nhóm đã sử dụng một mô hình YOLO khác được huấn luyện riêng. Mô hình này chỉ hoạt động tốt với 9/13 danh mục. Nhưng với các hình ảnh khó xác định, bot có thể yêu cầu đổi hình ảnh mới.

“Kỷ nguyên hậu CAPTCHA”

Kết quả là mô hình YOLO có thể nhận diện chính xác hình ảnh CAPTCHA với tỉ lệ từ 69% (với hình ảnh xe máy) đến 100% (với trụ nước cứu hỏa).

Kết hợp với các biện pháp khác như sử dụng VPN để tránh bị phát hiện, di chuột giả để mô phỏng hành vi con người và sử dụng thông tin cookie từ các phiên duyệt web thực, bot này đã vượt qua CAPTCHA mỗi lần thử.

Trong nhiều trường hợp, bot thậm chí còn giải CAPTCHA nhanh hơn con người.

Trước đó, các mô hình nhận diện hình ảnh chỉ có thể đạt tỉ lệ thành công từ 68-71%. Nhưng giờ đây, với sự tiến bộ vượt bậc của AI, đạt tỉ lệ thành công 100% là điều hoàn toàn khả thi. “Chúng ta đã bước vào kỷ nguyên hậu CAPTCHA”, nhóm tác giả nhận định trong bài báo khoa học.

Mức độ chính xác của mô hình YOLO khi giải các CAPTCHA hình ảnh khác nhau. Ảnh: Arxiv.

Theo Ars Technica, CAPTCHA không còn là một phương pháp mới trong việc phân biệt người dùng thực với bot. Từ năm 2008, các nhà nghiên cứu đã chứng minh các bot có thể được huấn luyện để vượt qua CAPTCHA âm thanh dành cho người khiếm thị.

Đến năm 2017, các mạng lưới thần kinh nhân tạo đã có thể đánh bại các CAPTCHA văn bản yêu cầu người dùng nhập ký tự từ các phông chữ lộn xộn. Với các bước đột phá AI, CAPTCHA dần trở nên yếu thế trước các mô hình máy học.

Phát ngôn viên của Google Cloud cho biết: “Chúng tôi tập trung vào việc giúp khách hàng bảo vệ người dùng mà không cần hiển thị câu đố hình ảnh. Đó là lý do chúng tôi ra mắt ReCAPTCHA v3 vào năm 2018. Hiện tại, phần lớn hệ thống bảo mật của ReCAPTCHA trên 7 triệu trang web toàn cầu đều hoàn toàn vô hình”.

Tuy nhiên, AI ngày càng phát triển và có khả năng thực hiện những nhiệm vụ mà trước đây chỉ có con người mới làm được. Khi đó, việc xác định xem người dùng trên trình duyệt có phải là người thật hay không sẽ trở nên khó khăn hơn. “Ở một khía cạnh nào đó, một CAPTCHA tốt chính là ranh giới xác định cỗ máy thông minh nhất và con người kém thông minh nhất”, nhóm tác giả viết.