Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) vừa công bố bộ tiêu chuẩn đánh giá kỹ năng suy luận và tương tác của LLM, đồng hành cùng cộng đồng AI Việt hoàn thiện các mô hình LLM bậc cao.

Trí tuệ nhân tạo (AI) đang phát triển bùng nổ và mở ra những cơ hội chưa từng có nhờ bước tiến quan trọng đến từ việc nghiên cứu các mô hình AI, tạo tiền đề thúc đẩy ứng dụng cũng như phát triển các sản phẩm phục vụ nhu cầu thực tế. Tại Việt Nam, ngay sau sự phát triển mạnh mẽ của ChatGPT kéo theo hàng loạt mô hình AI tương tự ra đời trên toàn cầu, các nhóm nghiên cứu trong nước với quy mô và tiềm lực khác nhau đã gia nhập đường đua bằng cách xây dựng các mô hình ngôn ngữ lớn (LLM) tiếng Việt.

Sự nở rộ của các mô hình LLM tiếng Việt đòi hỏi cần có những bộ tiêu chuẩn đánh giá tổng quát, giúp các nhà phát triển đo lường chất lượng mô hình để có chiến lược huấn luyện phù hợp.

TS Nguyễn Trường Sơn - Giám đốc Khoa học tại Zalo AI, đơn vị phát triển nền tảng - đánh giá LLM tiếng Việt VMLU: “Thị trường Việt Nam đang thiếu những bộ tiêu chuẩn đánh giá chất lượng khi so sánh với thế giới”.

Nền tảng đánh giá LLM VMLU được Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) phát triển.

Cũng theo TS Nguyễn Trường Sơn, thực tế này đòi hỏi cộng đồng AI Việt cùng chung sức tạo dựng những bộ tiêu chuẩn chung giúp đánh giá đúng và đủ các mô hình AI tiếng Việt, tạo nền tảng cho sự phát triển các mô hình ngày một chất lượng hơn.

Đẩy mạnh phát triển những bộ tiêu chuẩn mới chất lượng

Tháng 11/2023, Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) hợp tác xây dựng và cung cấp miễn phí cho cộng đồng bộ tiêu chuẩn đánh giá chất lượng các mô hình LLM tiếng Việt mang tên VMLU (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models). Đây là bộ tiêu chuẩn “Make in Việt Nam” đầu tiên được đội ngũ chuyên gia đầu ngành của Việt Nam nghiên cứu và ra mắt cộng đồng.

Thay vì phải tự xây dựng bộ công cụ đánh giá với các chuẩn mực riêng, các nhóm nghiên cứu LLM tiếng Việt đã có thể tiếp cận bộ dữ liệu đánh giá tổng quát và toàn diện.

Bộ tiêu chuẩn VMLU tập trung vào 4 lĩnh vực gồm STEM, khoa học xã hội, khoa học nhân văn và mở rộng với mức độ khó tăng dần: Tiểu học, Trung học cơ sở, Trung học phổ thông và Chuyên nghiệp (bậc đại học & sau đại học). Với 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ, phiên bản 2023 đã giúp đánh giá kiến thức nền tảng của LLM hiệu quả.

Tính tới hết năm 2024, VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức và cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng. Nhiều tổ chức trong và ngoài nước sử dụng bộ tiêu chuẩn VMLU như VinBigData, VNPT AI, Viettel Solutions, trường ĐH Bách Khoa - ĐHQG TP.HCM, UONLP x Ontocord - trường ĐH Oregon (Mỹ), DAMO Academy - Alibaba Group, SDSRV teams - Samsung…

Trong giai đoạn mới, các mô hình LLM được nâng cấp mạnh mẽ, đòi hỏi bộ tiêu chuẩn (benchmark) phải đánh giá sâu hơn những năng lực phức tạp.

“Các mô hình LLM đang trở nên thông minh hơn, gần như đáp ứng đầy đủ về khả năng hiểu và trả lời câu hỏi chính xác. Vì vậy, các nhà phát triển tập trung nhiều hơn vào việc trang bị cho LLM các năng lực đa dạng như đọc hiểu, lập kế hoạch, đối thoại và suy luận tương tự như con người”, GS Nguyễn Lê Minh, Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST), đơn vị đồng hành cùng Zalo AI trong phát triển bộ đánh giá VMLU, cho biết.

Đáp ứng nhu cầu ngày một đa dạng của các nhà phát triển, mới đây, VMLU đã ra mắt bộ tiêu chuẩn mới đánh giá 3 kỹ năng bao gồm (1) Đọc hiểu (ViSQuAD), (2) Suy luận (ViDrop) và (3) Tương tác (ViDialog).

Bộ tiêu chuẩn VMLU 2025.

Bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân và nhóm nghiên cứu thực hiện đánh giá mô hình của mình.

Nỗ lực đồng hành cùng cộng đồng làm chủ AI

Các chuyên gia của VMLU cho biết sẽ tiếp tục nghiên cứu xây dựng các bộ đánh giá đa dạng hơn về lĩnh vực với các mức độ khó khác nhau nhằm đánh giá mô hình ngôn ngữ lớn ngày càng toàn diện và phản ánh chính xác cách thức sử dụng của người dùng.

Ngoài ra, VMLU cũng hướng tới phát triển các bộ tiêu chuẩn đánh giá về tính an toàn và trung thực của mô hình LLM để đảm bảo các LLM tiếng Việt được phát triển một cách có trách nhiệm.

Để thúc đẩy năng lực, tinh thần làm chủ công nghệ mới của người Việt, các bộ tiêu chuẩn đánh giá của VMLU sẽ tiếp tục được cung cấp miễn phí cho cộng đồng nghiên cứu LLM Việt.

Bộ tiêu chuẩn VMLU 2025 đã được cập nhật trên website của VMLU.

Là đơn vị tiên phong trong lĩnh vực Trí tuệ nhân tạo tại Việt Nam, Zalo AI cũng luôn đồng hành cùng cộng đồng trong nghiên cứu và phát triển các giải pháp AI hướng tới người dùng Việt.

Bên cạnh nền tảng đánh giá và xếp hạng năng lực các mô hình ngôn ngữ lớn tiếng Việt, từ năm 2017, Zalo AI cũng tổ chức cuộc thi Zalo AI Challenge và diễn đàn Zalo AI Summit thường niên. Các sự kiện không chỉ gắn kết cộng động AI Việt, mà còn góp phần truyền cảm hứng, thúc đẩy kiến tạo sản phẩm công nghệ AI của người Việt phục vụ cho người Việt.