Đúng như dự đoán, Google gần như dành toàn bộ thời lượng của I/O 2024 cho AI. Những thông tin thú vị nhất là cách Gemini được tối ưu hóa, chia nhỏ để ứng dụng sâu hơn vào các công cụ có hàng tỷ người dùng như Workspace, Android, Chrome.
Tuy nhiên, công bố mới từ Google có thể trở nên mờ nhạt khi đặt cạnh GPT-4o mà OpenAI ra mắt trước đó một ngày.
"Google đi sau OpenAI khoảng 6 tháng, nhưng đi trước mọi người khác khoảng 5 năm. Những gì họ cho thấy hôm nay đều có tiềm năng tạo ra thay đổi lớn, nhưng phần trình diễn hầu hết là phát lại thay vì làm trực tiếp như OpenAI. Google đã cho thấy những bước tiến lớn ở lĩnh vực AI tạo sinh và AI chủ động", nhà phân tích Gene Munster của Deepwater Management nhận xét.
“Sora của Google”
Tương tự Sora, Veo từ Google cũng là một mô hình AI có thể tạo các video độ phân giải FullHD, dài tối đa một phút từ đầu vào ký tự. Theo mô tả, giải pháp này có thể thêm phong cách điện ảnh vào thước phim và hỗ trợ chỉnh sửa với những đoạn clip có sẵn.
Trước đó, Google đã cung cấp bản demo của một giải pháp tạo video loop (lặp lại) qua mô hình Imagen 2. Công cụ này chỉ cho ra những clip độ phân giải thấp, dài vài giây. Trong khi đó, Veo được định hướng để cạnh tranh với các mô hình tạo video “flagship” như Sora, Pika, Runway.
Giải pháp tạo video của Google tương tự Sora. Ảnh: Google. |
Ra mắt sau, nhưng các video từ Veo mà Google giới thiệu không ấn tượng như cách Sora làm được hồi đầu năm. Sản phẩm của OpenAI được đánh giá cao về mức độ chân thực, phức tạp khung cảnh và giả lập điều kiện vật lý. Ví dụ Google cung cấp vẫn tương đối đơn giản với các cú máy chuyển động.
Theo TechCrunch, Veo được đào tạo từ rất nhiều cảnh quay, trải qua hết ví dụ này đến ví dụ khác về một số dạng dữ liệu. Từ các mẫu có sẵn, nó có thể khởi tạo ra clip mới. Đại diện Google cũng thừa nhận một phần dữ liệu được dùng để huấn luyện Veo được lấy từ YouTube.
“Nguyên mẫu Google dùng có thể được lấy từ một số nội dung trên YouTube. Nhưng chúng tôi luôn tuân theo thỏa thuận với người sáng tạo trên nền tảng”, Douglas Eck, người đứng đầu bộ phận nghiên cứu tạo hình ảnh tại DeepMind trả lời.
Điều Google đảm bảo được là Veo sẽ không bị lạm dụng. Công cụ chặn hoàn toàn các từ khóa bạo lực và tục tĩu. Ngoài ra, hãng dùng giải pháp SynthID để đánh dấu “Do AI tạo” cho các video từ Veo.
OpenAI đã nhanh chân hơn
Một trong những dự án ấn tượng nhất được Google tiết lộ tại sự kiện đêm qua là Astra. Đây là một trợ lý thông minh, có thể nghe, nhìn và tương tác trong thời gian thực với người dùng. Để có được điều này, nó phải là một mô hình AI.
Astra có khả năng quan sát, lắng nghe và phản hồi trong thời gian thực. Ảnh: Google. |
Trong video được chuẩn bị sẵn, Astra được yêu cầu xác định các bộ phận của một chiếc loa, tìm kính bị thất lạc hay nhận xét đoạn code. Tất cả diễn ra trong thời gian thực với phong cách trò chuyện tự nhiên. Ngoài cách tương tác bằng điện thoại, sản phẩm được tích hợp vào nguyên mẫu kính AR để trả lời người dùng trực tiếp.
Tuy nhiên, một thứ tương tự cũng đã được OpenAI giới thiệu trước đó 24 giờ. Mô hình GPT-4o cũng có khả năng tương tác trực tiếp với người dùng bằng cách lắng nghe, quan sát. Công ty tự tin trình diễn giải pháp này ngay trong phiên phát sóng trực tiếp thay vì chia sẻ một đoạn video được chuẩn bị trước
Các ứng dụng được giới thiệu của mô hình này gồm dịch trực tiếp, giải toán, đưa ra thông tin và sửa đoạn code. Ngoài ra, GPT-4o cũng có tốc độ phản hồi nhanh, nhiều cảm xúc hơn khi trả lời.
Hiện phiên bản này đã có sẵn để sử dụng cho một số người dùng. Trong khi đó, cả Gemini Live (một ứng dụng của Astra) vẫn trong giai đoạn thử nghiệm và chưa có thời gian ra mắt chính thức.
Nhúng Gemini vào mọi sản phẩm của Google
Tại sự kiện, Google công bố nâng cấp cho mô hình Gemini Pro lên bản 1.5. Phiên bản này có thể hỗ trợ tối đa 2 triệu token để phân tích những đầu vào nhiều dữ liệu. Mức hỗ trợ từ Google là giải pháp lớn nhất hiện có.
Trong khi đó, bản nano của Gemini cũng được tích hợp vào Chrome. Hãng cho biết nhà phát triển có thể khai thác các tính năng AI chạy trực tiếp trên thiết bị. Hiện mô hình có thể chạy những chức năng đơn giản trong bộ Workspace như tổng hợp Mail, nội dung cuộc họp trên Meet…
AI Gemini được tích hợp vào các sản phẩm của Google. Ảnh: Google. |
Với Android, người dùng được AI bảo vệ với tính năng cảnh báo cuộc gọi lừa đảo. Gemini nano trên máy sẽ nhận diện nội dung hội thoại để kiểm tra những từ khóa bất thường.
Google cập nhật AI cho các giải pháp tìm kiếm của công ty. Lens hiện hỗ trợ thêm cả video. Trong khi đó Gemini trên Photos giúp người dùng tìm ảnh chỉ dựa vào một phần nội dung như biển số. Google Search được bổ sung phần nội dung tóm tắt được tạo bởi LLM của công ty ở phần đầu, trước các kết quả tìm kiếm bình thường.
Cũng tại sự kiện, Google ra mắt LearnLM, một mô hình AI tổng hợp được tinh chỉnh cho học tập. Hãng cho biết giải pháp này được thiết kế để dạy kèm học sinh với nhiều bộ môn. Hiện công cụ nằm trong chương trình Google Classroom.
Công ty mở rộng Gemma, LLM mã nguồn mở cho các lập trình viên lên mô hình 27 tỷ tham số. Thế hệ tiếp theo sẽ ra mắt vào tháng 6, tối ưu hóa cho thế hệ GPU đời mới từ NVIDIA và có thể chạy hiệu quả trên một máy chủ AI đơn lẻ.
Những câu hỏi chúng ta phải đối mặt trong thế giới AI
Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.
Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.