Sora đâu rồi?

Thứ hai, 29/7/2024 10:25 (GMT+7)
10:25 29/7/2024

Hơn nửa năm từ khi được giới thiệu lần đầu, AI chuyên tạo video của OpenAI vẫn chưa ra mắt chính thức. Điều này trái ngược với truyền thống của start-up trí tuệ nhân tạo.

Video người "đầu bóng bay" được tạo từ Sora. Ảnh: Shy Kids.

Kể từ khi Sora xuất hiện hồi đầu năm, nhiều sản phẩm AI tạo video cũng được giới thiệu. Luma phát hành Dream Machine với một đoạn video quảng cáo cấp độ điện ảnh. Trong khi đó, Runway cũng cho người dùng thử miễn phí. Thống kê không chính thức cho thấy chỉ riêng Trung Quốc có ít nhất 20 start-up đang phát triển AI video.

Tuy nhiên sau hơn nửa năm, Sora của OpenAI, sản phẩm gây ấn tượng nhất, vẫn chưa được ra mắt. Điều này trái ngược với phong cách làm việc của công ty này. Họ giới thiệu Chat GPT-4o trong một buổi phát trực tiếp và người dùng có thể sử dụng nó ngay sau sự kiện.

Sora phức tạp hơn ChatGPT hay Midjourney

Có nhiều mô hình AI tạo video được giới thiệu gần đây, nhưng số có thể dùng được rất hạn chế. Sora vẫn trong quá trình thử nghiệm kín, chỉ dành cho nhóm nghệ sĩ, người làm phim được chọn. AI Video của Alibaba và Baidu chỉ được sử dụng nội bộ. Kuaishou Kling dần phổ biến nhưng người dùng cũng phải đăng ký vào hàng chờ dùng thử.

Các giải pháp tạo video hiện tại đều gồm bước nhập yêu cầu, chọn tỉ lệ, phong cách, thời gian. Khó khăn kỹ thuật chính nằm ở độ phân giải và thời lượng đoạn clip thành phẩm. Đây cũng là tâm điểm cạnh tranh giữa các công ty thuộc lĩnh vực này. Để có lợi thế trước đối thủ, start-up phải đầu tư phần cứng mạnh để tăng năng lực xử lý.

Những đoạn video giới thiệu Sora từng gây ấn tượng mạnh. Ảnh: OpenAI.

Nhà nghiên cứu AI Cyrus cho biết các mô hình dùng được hiện tại chỉ có độ phân giải 480/720p. Ngoài năng lực xử lý của phần cứng trí tuệ nhân tạo, việc training model cũng rất phức tạp. Khi một mô hình vốn được đào tạo để xuất video độ phân giải thấp, bị ép lên mức cao, sẽ tạo ra nhiều sai sót về vật lý, logic.

Theo Bloomberg, việc tạo video bằng AI tốn nhiều năng lực tính toán hơn với chạy chatbot hoặc làm ảnh tĩnh. Những thách thức kỹ thuật này có thể ảnh hưởng đến bài toán kinh doanh, khi khách hàng phải trả phần chi phí quá lớn.

Các chương trình tạo video của Trung Quốc hiện chỉ hỗ trợ video ngắn 2-3 giây, dạng di chuyển đơn giản. Phiên bản cao cấp nhất cũng chỉ đến 10-12 giây. Sản phẩm cao cấp nhất từng được giới thiệu là Sora với 60 giây, nhưng vẫn trong vòng thử nghiệm.

Ngoài độ dài, khả năng tạo lập khung cảnh câu chuyện cũng là giới hạn của các AI video. “Về mặt kỹ thuật, có thể tạo video dài cả giờ đồng hồ. Nhưng chúng ta không muốn những cảnh phim như từ camera giám sát, với cảnh lặp lại, không chuyển động”, Zhang Heng, trưởng nhóm nghiên cứu Pomegranate AI nói với Fixed Focus.

Lý do chậm trễ

Tại hội nghị Trí tuệ Nhân tạo Thế giới được tổ chức gần đây, các chuyên gia AI cho rằng tạo sinh video vẫn trong giai đoạn khởi phát, tương tự thời kỳ GPT-3. Do vậy, họ ước tính cần ít nhất nửa năm nữa nó mới tới giai đoạn hoàn thiện. Ngoài ra, mức độ phức tạp của mô hình này so với ngôn ngữ, cũng khiến khả năng thương mại hóa quy mô lớn gặp khó khăn.

Sora có thời gian phát triển kéo dài hơn Midjourney và ChatGPT bởi nó có yếu tố dòng thời gian (timeline).

Ngoài ra, nguồn dữ liệu để huấn luyện trình tạo video AI cũng hạn chế. “Chúng tôi đã cạn kiệt tài nguyên training, đang phải tìm cách mới”, Zhang Heng nói.

Một demo của Kling AI từ Kuaishou, start-up của Trung Quốc. Ảnh: Kuaishou.

Các mô hình AI hiện tại chỉ mạnh ở một mảng nào đó. Ví dụ, Kuaishou Kling làm việc tốt khi người dùng nhập câu lệnh liên quan đến ăn uống hay chương trình phát sóng, bởi lượng lớn dữ liệu được cung cấp từ công ty mẹ.

Sora không có bản thử nghiệm công khai, nhưng ngay cả với những clip OpenAI chọn lọc công bố cũng cho thấy việc tạo ra đối tượng tuân thủ chính xác các định luật vật lý vẫn là thách thức lớn. Trả lời Bloomberg, đội ngũ phát triển cho biết họ chưa đặt ra mốc thời gian ra mắt chính thức cho Sora.

Một giám đốc điều hành tiết lộ thời gian có thể là cuối năm. Nhiều nguồn tin phỏng đoán OpenAI phải lùi ngày ra mắt sau cuộc bầu cử tổng thống Mỹ. Sora làm dấy lên mối lo về việc lan truyền những video giả mạo mà đội ngũ phát triển chưa quản lý được.

Dùng ChatGPT thế nào để không tạo ra nội dung vô tri

Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.

Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.