Theo The Verge, DeepMind vừa công bố một cột mốc mới đối với trí tuệ nhân tạo mà công ty này đã dày công huấn luyện để chơi game StarCraft 2 do hãng Blizzard Entertainment phát triển.
Phần mềm mới, tinh vi hơn của DeepMind – vốn là một phòng thí nghiệm chuyên về AI thuộc sở hữu của Google – vẫn được gọi là AlphaStar, đã đạt đến đẳng cấp "đại sư phụ" (grandmaster) trong game chiến lược thời gian thực với khả năng đánh bại đến 99,8% các game thủ con người trong các trận đấu.
Không dừng lại ở đó, DeepMind nói rằng họ thậm chí còn thiết lập để phiên bản AlphaStar mới được cải tiến chơi một cách công bằng trước các đối thủ con người hồi mùa hè vừa qua.
Cụ thể, họ đã huấn luyện AlphaStar sử dụng cả ba chủng tộc chơi được của game, đưa độ phức tạp của game lên trên mức chuyên nghiệp, giới hạn chỉ cho AlphaStar xem được một phần của cả bản đồ mà game thủ con người có thể thấy được, và hạn chế số lượng nhấp chuột ở mức 22 hành động không trùng lặp mỗi 5 giây trong trận đấu, tất cả là nhằm khiến AI này có tốc độ phản ứng gần với chuyển động bình thường của con người.
Dù bị "kìm kẹp", AI vẫn đủ khả năng đạt mức "đại sư phụ", mức xếp hạng cao nhất có thể khi đấu mạng, trở thành hệ thống đầu tiên từng làm được điều đó trong StarCraft 2.
DeepMind nhìn nhận những tiến triển đó như một bằng chứng cho thấy thuật toán học tăng cường (reinforcement learning) với mục đích đại trà – vốn là kỹ thuật học máy dùng để huấn luyện AlphaStar – một ngày nào đó sẽ có thể được dùng vào việc huấn luyện các robot tự học, xe tự lái, và tạo nên các hệ thống nhận dạng hình ảnh và vật thể tiên tiến hơn nữa.
"Tiến trình phát triển của trí tuệ nhân tạo đã và đang được đánh dấu bằng những thành quả quan trọng trong game. Từ khi máy tính phá giải được trò cờ vây, cờ vua và bài poker, StarCraft được xem là thách thức lớn tiếp theo. Độ phức tạp của game này cao hơn nhiều so với cờ vua, bởi người chơi điều khiển hàng trăm đơn vị lính; phức tạp hơn so với cờ vây và người chơi nắm được ít thông tin hơn về các đối thủ so với trò bài poker" – David Silver, một nhà khoa học của DeepMind, hiện làm việc trong nhóm AlphaStar, cho biết.
Hồi tháng 1, DeepMind từng công bố rằng hệ thống AlphaStar của họ đã đánh bại những game thủ chuyên nghiệp hàng đầu 10 trận liên tục trong một buổi thi đấu thử, nhưng thất bại trước game thủ chuyên nghiệp Grzegorz "MaNa" Komincz trong trận đấu cuối được stream trực tiếp trên mạng. Từ đó đến tháng 6, công ty liên tục cải tiến hệ thống sau khi tuyên bố sẽ chấp nhận lời mời thi đấu của những game thủ con người hay nhất trên toàn thế giới. DeepMind cho biết một số trận đấu tiếp đó đã diễn ra trong tháng 7 và tháng 8.
Kết quả của chúng thế nào? Cực kỳ ấn tượng: AlphaStar đã nhanh chóng trở thành một trong những game thủ StarCraft 2 với lối chơi tinh vi nhất hành tinh, nhưng vẫn chưa đạt đến tầm "siêu nhân". Có khoảng 0,2% game thủ có thể đánh bại nó, nhưng chỉ là vấn đề thời gian trước khi hệ thống này được cải tiến để đưa con số nhỏ bé kia về zero.
Cột mốc nghiên cứu mà DeepMind vừa đạt được khá tương đồng với một nghiên cứu khác của công ty nghiên cứu AI trụ sở ở San Francisco là OpenAI – đây là công ty chuyên huấn luyện AI bằng thuật toán học tăng cường để chơi tựa game multiplayer 5 vs 5 tinh vi không kém StarCraft 2: Dota 2.
Hồi tháng 4, phiên bản tinh vi nhất của phần mềm OpenAI Five đã đánh bại đội vô địch Dota 2 thế giới sau khi thua sát nút 2 đội e-sports yếu hơn vào mùa hè năm ngoái. Sự tiến bộ của OpenAI Five cũng giống như AlphaStar, và cả hai đều là những ví dụ rõ nét cho thấy phương hướng huấn luyện AI này có thể tạo ra những kỹ năng chơi game ở mức độ chưa từng có tiền lệ.
Tương tự những con bot Dota 2 của Open AI và các AI chơi game khác, mục tiêu của loại hình nghiên cứu AI này không chỉ là đánh bại con người trong các tựa game nhằm chứng minh đó là điều hoàn toàn có thể, mà còn nhằm chứng minh rằng, với đủ thời gian, nỗ lực, và tài nguyên, các phần mềm AI tinh vi có thể đánh bại con người trong hầu như bất kỳ thử thách nào, dù là board game hay video game hiện đại.
Nó còn nhằm cho thấy những lợi ích của học tăng cường - một nhánh đặc biệt ở học máy, đã đạt được những thành công to lớn trong vài năm trở lại đây khi kết hợp với sức mạnh xử lý siêu việt và những phương thức huấn luyện như giả lập môi trường ảo.
Giống OpenAI, DeepMind huấn luyện các bot AI của họ chống lại những phiên bản của chính chúng và ở tốc độ cao, nhờ đó các con bot có thể đạt được hàng trăm năm giờ chơi chỉ trong vài tháng. Điều đó cho phép loại phần mềm này có thể đứng ngang hàng với một vài trong số những game thủ tài năng bậc nhất trong lĩnh vực cờ vây, và hiện nay, trong những tựa game tinh vi hơn nữa như StarCraft và Dota.
Tuy thế nhưng phần mềm vẫn bị giới hạn trong khuôn khổ những thứ nó được thiết kế để giải quyết. AI chơi cờ vậy không thể chơi Dota, và ngược lại. (DeepMind thực ra từng cho một phiên bản với mục đích khái quát hơn của AI chơi cờ vây thử chơi cờ vua, và nó đã lên mức chuyên nghiệp chỉ trong 8 tiếng). Đó là bởi phần mềm không được lập trình với những bộ quy tắc hay phương hướng dễ dàng để thay thế.
Thay vào đó, DeepMind và các viện nghiên cứu khác sử dụng học tăng cường để cho phép các AI tự tìm hiểu cách chơi, đó là lý do tại sao phần mềm thường phát triển được những phong cách chơi kỳ lạ và khó có thể dự báo trước được, và hiện được nhiều game thủ con người có trình độ cao sao chép.
"AlphaStar là một game thủ đầy mưu kế và không chính thống – một game thủ với phản xạ và tốc độ của những chuyên gia giỏi nhất, nhưng có chiến lược và lối chơi hoàn toàn của riêng nó. Cách AlphaStar được huấn luyện, với các bot tự đấu với chính chúng trong một giải đấu, đã dẫn đến sự hình thành gameplay bất thường không tưởng tượng nổi; nó thực sự khiến bạn tự hỏi có bao nhiêu khả năng trong StarCraft mà các người chơi chuyên nghiệp đã thực sự khám phá ra" – Diego "Kelazhur" Schwimer, một game thủ chuyên nghiệp của đội Panda Global, nói. "Dù một vài chiến thuật của AlphaStar mới nhìn qua có vẻ lạ, tôi không thể không tự hỏi liệu kết hợp tất cả những phong cách chơi khác biệt mà nó từng trình diễn có thể cho ra cách hay nhất để chơi tựa game này hay không".
DeepMind hi vọng những cải tiến trong học tăng cường mà phòng thí nghiệm của họ và các nhà nghiên cứu AI khác đạt được sẽ được mang ra ứng dụng rộng rãi hơn trong tương lai. Ứng dụng thực tế nhất của những phần mềm như thế này là robotics, nơi những kỹ thuật tương tự có thể được dùng để huấn luyện các AI cách thực hiện những tác vụ trong thế giới thực, như hoạt động của những cánh tay robot, trong môi trường giả lập ảo.
Và sau nhiều năm giải lập điều khiển mô-tơ, AI có thể đảm nhiệm một cánh tay robot thực sự, và có thể một ngày nào đó điều khiển toàn bộ một con robot. Nhưng DeepMind cũng hình dung ra những chiếc xe hơi tự lái tinh vi hơn và an toàn hơn – một viễn cảnh khác mà hướng tiếp cận học máy của họ có thể mang lại.