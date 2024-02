OpenAI liệt kê một số công nghệ nổi bật tạo nên Sora, mô hình chuyển văn bản thành video đang gây chú ý.

Ảnh chụp từ video tạo bởi Sora. Ảnh: OpenAI.

Sora là mô hình chuyển văn bản thành video (text-to-video) mới nhất của OpenAI. Công nghệ này có thể tạo video tối đa một phút dựa trên mô tả được cung cấp.

Theo OpenAI, Sora sẽ hiểu từng yếu tố trong câu lệnh để tạo video phù hợp. Ví dụ, mô hình này có thể tạo khung cảnh người chạy bộ trên đường, không gian xung quanh thay đổi theo tự nhiên.

Trước đây, các mô hình tạo video thường khó khăn trong đồng bộ chất lượng giữa các khung hình. Tuy nhiên, Sora có thể duy trì tính nhất quán nhờ khả năng "thấu hiểu" ngôn ngữ, bối cảnh và lời diễn giải.

Cách huấn luyện dữ liệu mới

Khi giới thiệu Sora, OpenAI nhấn mạnh điểm khác biệt đến từ "spacetime patches", được xây dựng dựa trên nghiên cứu của Google DeepMind về ViT (Vision Transformers) - các mô hình liên quan đến thị giác máy tính và ngôn ngữ tự nhiên.

Thông thường, mô hình ViT chia hình ảnh thành một chuỗi mảng (patch) với kích thước cố định, sau đó xử lý, tổng hợp thông tin để nhận diện và phân loại đối tượng trong ảnh. Giải pháp này nhằm huấn luyện các mô hình transformer để nhận diện ảnh thay vì từ ngữ.

Sora có thể tạo video với tỷ lệ khung hình, độ phân giải khác nhau. Ảnh: OpenAI.

Tuy nhiên, các mô hình ViT khá hạn chế về dữ liệu ảnh, khi độ phân giải và tỷ lệ khung hình phải cố định. Điều đó đòi hỏi xử lý hình ảnh trước khi huấn luyện, khiến các công cụ tạo video chỉ có thể xuất nội dung với độ phân giải mặc định.

Khác với ViT, Sora sử dụng Navigable Vision Transformer (NaViT). Về cơ bản, giải pháp này ghép nhiều mảng từ các hình ảnh thành một chuỗi, nhưng vẫn giữ độ phân giải và tỷ lệ khung hình gốc.

Cách tiếp cận này giúp Sora xử lý hiệu quả dữ liệu, giúp mô hình hiểu biết tốt hơn về thế giới xung quanh, đặc biệt là khả năng mô phỏng vật lý và tính đồng bộ trong không gian 3 chiều giữa các khung hình.

Điều này giúp Sora tạo nội dung động, nhiều chi tiết phức tạp với chất lượng cao. Mô hình của OpenAI cũng tận dụng giải pháp này để tạo video với tỷ lệ khung hình và độ phân giải linh hoạt, tối đa Full HD.

Mô hình khuếch tán (diffusion) cũng là công nghệ nổi bật của Sora. Theo OpenAI, mô hình này sẽ tạo nội dung từ đầu với video nhiễu, độ phân giải thấp, sau đó trải qua giai đoạn khuếch tán để khử nhiễu, tạo ra dữ liệu giống video thực tế.

Quá trình khuếch tán video của Sora. Ảnh: OpenAI.

Thông thường, cần rất nhiều dữ liệu gắn nhãn để đào tạo các mô hình máy học, ví dụ ảnh mèo cần được mô tả "Đây là hình ảnh một con mèo". Tuy nhiên, mô hình diffusion có thể học hỏi từ bộ dữ liệu không có mô tả, cho phép sử dụng lượng lớn nội dung có sẵn trên Internet để tạo ra nhiều video khác nhau.

Nói cách khác, Sora có thể quan sát các video, hình ảnh để tự biết rằng một video thông thường có những chi tiết nào.

Nhờ các kỹ thuật liên quan đến diffusion, bao gồm giải mã video và kết hợp hệ thống transformer, Sora có thể xử lý các mảng hình ảnh hiệu quả hơn, cho phép tạo ra nội dung chất lượng cao, đồng thời sử dụng hiệu quả tài nguyên tính toán.

Dữ liệu huấn luyện đa dạng

Dù không được OpenAI công bố cụ thể, dữ liệu đào tạo Sora được cho nhiều hơn những mô hình khác, bao gồm video, hình ảnh với thời lượng, độ phân giải và tỷ lệ khung hình khác nhau.

Cách tiếp cận này tương tự một số mô hình ngôn ngữ lớn, với bộ dữ liệu huấn luyện đa dạng và phức tạp.

Một đoạn trong video tạo bởi Sora. Ảnh: OpenAI.

Không gian 3D và tính hằng định đối tượng (object permanence) được thể hiện nổi bật trong video mẫu do OpenAI cung cấp. Do được đào tạo trên bộ dữ liệu đa dạng, không qua chỉnh sửa, AI có thể tạo ra thế giới vật lý với độ chính xác cao, do những gì được "học hỏi" đều ở dạng gốc.

Trong video của OpenAI, Sora có thể tạo ra thế giới gồm các vật thể, nhân vật di chuyển và tương tác khá thực. Chúng vẫn duy trì sự tự nhiên kể cả khi bị che khuất hoặc không còn trong khung hình.

Hiện tại, Sora mới chỉ trong giai đoạn thử nghiệm. Dù vậy, những gì được thể hiện cho thấy AI tạo sinh vẫn có thể cải thiện, đặc biệt là AI tạo video với nội dung có độ chân thực ngày càng cao.

