|
|
Biểu tượng của Google Gemini. Ảnh: Bloomberg. |
Google ra mắt mô hình Gemini 3 vào cuối tháng 11. Hãng mang đến loạt nâng cấp đáng chú ý như cải thiện khả năng viết mã, tạo ảnh trực quan và tác nhân (agent), thay mặt người dùng thực hiện một số tác vụ nhất định.
Khi giới thiệu Gemini 3, Google nhấn mạnh đây là “mô hình thông minh nhất” của công ty. Trải nghiệm thực tế cho thấy mô hình xử lý nhanh, khả năng lập luận tốt hơn dù còn một số yếu tố cần cải thiện.
Tạo giao diện tương tác nhanh chóng
Một trong những nâng cấp lớn trên Gemini 3 xoay quanh Canvas. Đây là không gian làm việc tương tác trong Gemini, cho phép yêu cầu chatbot viết mã, trực quan hóa kết quả và chỉnh sửa nội dung.
Khi yêu cầu Gemini 3 tạo mô hình 3D về sự khác biệt giữa kích thước quả bóng đá, Trái Đất, Mặt Trời và Dải Ngân hà, công cụ sẽ kích hoạt giao diện viết mã, xử lý và tạo môi trường tương tác, cho phép chọn và so sánh kích thước các vật thể.
|
| Khả năng tạo không gian tương tác của tính năng Canvas trong Gemini 3. |
So sánh với bản demo của Google, kết quả có phần kém hơn đôi chút về chất lượng ảnh. Bù lại, thông tin các vật thể được cung cấp rõ ràng, dễ hiểu. Thời gian xử lý mất khoảng 2 phút. Trong giao diện Canvas, người dùng có thể trực tiếp sửa mã, sao chép hoặc chia sẻ nội dung.
Với câu lệnh khác, Gemini 3 được yêu cầu tạo mô hình đại bàng đậu trên cành cây theo phong cách khối lập phương 3D (voxel). Công cụ cho kết quả sau khoảng 45 giây, người dùng có thể phóng to, xoay góc nhìn bằng chuột. Tuy vậy, một số chi tiết trong ảnh gặp lỗi đồ họa, không hiển thị ổn định.
Cũng với đại bàng đậu trên cành cây nhưng yêu cầu khó hơn (mô hình 3D). Trong lần đầu tiên, mã tạo bởi Gemini 3 bị lỗi và không thể chạy. Sau khi yêu cầu chỉnh sửa, hình ảnh xuất hiện và có thể tương tác.
|
| Khả năng tạo môi trường tương tác của Gemini 3. |
Tuy còn một số vấn đề, việc chuyển đổi từ mô hình hỏi-đáp sang cùng làm việc, chỉnh sửa là hướng đi thú vị, giúp Gemini 3 trở nên hữu dụng trong những tác vụ phức tạp, dài hơi.
Tất nhiên, Gemini 3 không chỉ dùng để tạo đồ họa hay mô hình trực quan. Google đang thử nghiệm tính năng “giao diện người dùng tạo sinh” (Generative UI) cho người dùng gói AI Pro. Với một số câu lệnh, mô hình có thể tạo giao diện tương tác kiểu tạp chí, hoặc trang web trực quan.
Google cho biết tính năng này đang phát hành theo từng giai đoạn. Theo trải nghiệm của The Verge, người dùng cần chọn tính năng Visual layout, sau đó nhập câu lệnh như “Lập kế hoạch cho tôi trong chuyến đi Rome 3 ngày”.
Sau khi xử lý, Gemini 3 tạo kết quả giống website du lịch với lịch trình, hình ảnh chi tiết, bên cạnh một số câu hỏi về sở thích du lịch, phong cách ăn uống. Từ đó, mô hình sẽ điều chỉnh câu trả lời cho phù hợp. Tính năng này cũng khá hữu ích cho các chủ đề như cách lắp máy tính, dựng hồ cá...
Suy luận, phân tích hiệu quả hơn
Theo Google, Gemini 3 có khả năng suy luận tốt hơn phiên bản trước. Hãng tuyên bố năng lực lập luận của Gemini 3 Pro đạt trình độ tiến sĩ với điểm 37,5% trên bài thi Humanity’s Last Exam, và 91,9% với bài thi GPQA Diamond.
Tất nhiên, người dùng chỉ có thể cảm nhận sự khác biệt khi trực tiếp tương tác với mô hình. Khi được yêu cầu giải một bài toán lấy từ bộ đề tham khảo GPQA Diamond (tập trung vào trình độ tiến sĩ), Gemini 3 Pro mất khoảng 30 giây để đưa ra lời giải chi tiết, gồm từng bước giải đề và ảnh minh họa.
|
| Gemini 3 có thể trả lời các câu hỏi phức tạp, khả năng tư duy tương đương trình độ tiến sĩ. |
Theo đánh giá, bài giải khá chi tiết và đúng quy trình. Để so sánh, GPT-5.1 cũng mất khoảng 30 giây, trả lời đúng nhưng lời giải kém chi tiết hơn. Tương tự, Claude 4.5 Sonnet trả lời đúng, nhanh hơn Gemini 3 nhưng kém chi tiết hơn.
Google cho biết Gemini 3 có thể trích xuất tài liệu cùng lúc từ nhiều nguồn, chẳng hạn như văn bản, hình ảnh và video. Những tác vụ chưa từng đào tạo trước đây cũng được xử lý tốt hơn trên Gemini 3.
|
| Khả năng phân tích video của Gemini 3. |
Ví dụ, khi được yêu cầu phân tích chủ đề chính của một video dài khoảng 57 phút, Gemini 3 chỉ mất khoảng một phút để trả kết quả gồm các lập luận theo yêu cầu, cùng dấu thời gian đến đoạn tương ứng trong video. Tương tự, mô hình xác định đúng một video về môn tennis, phân tích các trận đấu và cách chơi từng vận động viên.
Người dùng có thể yêu cầu Gemini 3 vừa xem video vừa tham khảo thêm nguồn bên ngoài, thậm chí đặt câu hỏi để phân tích sâu hơn. Nhìn chung, Gemini 3 khá nhạy bén trong tác vụ phân tích và tham khảo tài liệu, một phần nhờ kết nối với kho dữ liệu Google Search.
Agent hữu ích nhưng còn vấn đề
Tác nhân (agent) cũng là nâng cấp đáng chú ý trên Gemini 3. Dành cho người dùng gói AI Ultra (hiện chỉ hỗ trợ thị trường Mỹ), chế độ này có thể thay mặt người dùng thực hiện các quy trình phức tạp như phân loại và sắp xếp email, tìm kiếm thông tin, đặt vé du lịch...
Khi ra mắt Gemini 3, Google lấy ví dụ với khả năng sắp xếp hộp thư đến trong Gmail. Theo trải nghiệm của The Verge, tính năng này hoạt động đúng theo yêu cầu: lập danh sách đầy đủ email chưa đọc trong một tuần.
Tương tự tính năng Canvas, danh sách email và hành động đề xuất được hiển thị trong khu vực riêng. Gemini cung cấp một số tùy chọn như đặt lời nhắc cho email quan trọng, lưu trữ email quảng cáo...
|
| Tính năng agent của Gemini 3 hỗ trợ quản lý hộp thư Gmail. Ảnh: The Verge. |
Khi được yêu cầu tạo lời nhắc thanh toán hóa đơn, Gemini nhanh chóng đưa thông tin tương ứng vào Google Tasks. Với tác vụ trả tiền, agent tự động điều hướng và sẽ dừng lại khi cần người dùng nhập thông tin thanh toán.
Nhìn chung, agent của Gemini 3 khá hữu ích khi có thể phát hiện các email mà người dùng dễ quên. Công cụ cũng có thể tìm và hủy nhận email từ các địa chỉ quảng cáo, không còn hữu ích.
Trên thực tế, agent của một số chatbot như Perplexity, ChatGPT đã hỗ trợ liên kết với Gmail. Tuy nhiên, khả năng tích hợp của Gemini đa dạng nhất. Ví dụ, người dùng Perplexity phải nhập cụ thể các email muốn giữ hay xóa, trong khi những thao tác trên Gemini có thể thực hiện qua nút bấm.
|
| Tính năng tạo giao diện tương tác của Gemini 3. Ảnh: The Verge. |
Tính năng sắp xếp email trên ChatGPT cũng không ổn định. Tuy vậy, tốc độ gửi email của Gemini chậm hơn so với Perplexity. Một số tác vụ như đặt chỗ nhà hàng đôi lúc gặp vấn đề.
Dù luôn yêu cầu người dùng xác nhận trước khi thực hiện hành động nhạy cảm như thanh toán hay gửi email, việc giao phó một số công việc cho AI vẫn khiến người dùng e ngại. Chế độ agent trên Gemini 3 khá hữu ích, song người dùng vẫn phải giám sát kết quả đầu ra.
Những câu hỏi chúng ta phải đối mặt trong thế giới AI
Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.
Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.