Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

Câu chuyện đằng sau mô hình ngôn ngữ lớn của Zalo

Việc huấn luyện mô hình ngôn ngữ lớn cho tiếng Việt sẽ thúc đẩy sự phát triển của các ứng dụng tạo sinh. Tuy nhiên, đằng sau quá trình này là những thách thức cần phải vượt qua.

Vào cuối năm 2023, Zalo đã ra mắt mô hình ngôn ngữ lớn (LLM) 7 tỷ tham số sau 6 tháng huấn luyện. Mô hình này đã đạt được thành tích ấn tượng khi vượt qua GPT-3.5 trong thử thách Kahoot do diễn đàn công nghệ Tinhte.vn đặt ra.

Tuy nhiên, trái ngược với những nhận định “bóng bẩy” thường thấy về các cột mốc thành công, anh Nguyễn Bá Đạt – Giám đốc nhóm Sản phẩm AI của Zalo, cho rằng: Nhóm phát triển vẫn cần phải nỗ lực hơn nữa, vì việc phát triển AI cho Việt Nam là một hành trình nhiều thử thách.

mo hinh ngon ngu lon,  tieng Viet,  tri tue nhan tao anh 1

Anh Nguyễn Bá Đạt – Giám đốc nhóm sản phẩm AI của Zalo

Huấn luyện LLM tiếng Việt chỉ trong 6 tháng: Nhiệm vụ tưởng chừng bất khả thi

Làn sóng AI tạo sinh (GenAI) đã mang lại nhiều kỳ vọng về sự phát triển mạnh mẽ của ngành công nghệ Việt Nam. Trong thời gian qua các đơn vị nghiên cứu AI trong nước đã nhanh chóng đầu tư nghiên cứu GenAI. Chỉ 1 năm sau khi OpenAI ra mắt ChatGPT, Việt Nam cũng đã huấn luyện được mô hình ngôn ngữ lớn của riêng mình. Tuy nhiên, với xuất phát điểm muộn hơn và thiếu kinh nghiệm, hành trình này đòi hỏi nỗ lực gấp nhiều lần.

Dự án phát triển mô hình ngôn ngữ lớn của Zalo có tốc độ ấn tượng. Chỉ trong vòng 6 tháng, Zalo đã thần tốc triển khai hạ tầng tính toán, và thành công xây dựng mô hình ngôn ngữ lớn với 7 tỷ tham số tập trung vào tiếng Việt. Đến cuối năm 2023, LLM của Zalo đã đạt 150% năng lực so với GPT-3.5 của OpenAI trên bộ tiêu chuẩn đánh giá năng lực tiêu chuẩn VMLU (Vietnamese Multitask Language Understanding Benchmark Suite), gồm hơn 10.000 câu hỏi thuộc hơn 50 lĩnh vực khác nhau về khoa học tự nhiên, xã hội, STEM...

mo hinh ngon ngu lon,  tieng Viet,  tri tue nhan tao anh 2

LLM của Zalo đã được đánh giá vượt trội so với GPT-3.5, Llama-2 và Qwen trong một thử thách game Kahoot bằng tiếng Việt, diễn ra vào cuối năm 2023.

Nhìn lại hành trình phát triển LLM, anh Đạt nhận định đó là quá trình “lửa thử vàng, gian nan thử sức”. Anh nhấn mạnh rằng nếu không có niềm đam mê lớn, sẽ rất khó để có thể kiên trì theo đuổi đến cùng.

“3 cái thiếu” mà kĩ sư Zalo đã phải vượt qua

Chia sẻ cụ thể hơn về những khó khăn mà các kĩ sư gặp phải khi huấn luyện LLM tiếng Việt, anh Đạt đúc kết thành “3 cái thiếu”: thiếu hạ tầng tính toán, thiếu dữ liệu, và thiếu nguồn lực.

Về hạ tầng tính toán, các kĩ sư Việt Nam phải đối mặt với một “cuộc đua” không cân sức. Trong khi các công ty lớn trên thế giới như OpenAI hay Meta sở hữu hàng nghìn GPU mới nhất từ Nvidia. Thì tại Việt Nam, vào thời điểm bắt đầu huấn luyện LLM, các kĩ sư vẫn chưa được trang bị đầy đủ hạ tầng máy chủ cần thiết.

Về “cái thiếu” thứ hai, anh Đạt chia sẻ rằng tiếng Việt thiệt thòi hơn so với các ngôn ngữ khác như tiếng Anh hay tiếng Trung, vốn có nguồn dữ liệu số hóa phong phú. Tiếng Việt được xếp vào nhóm “low-resource”, với tài nguyên dữ liệu nghèo nàn hơn hàng chục lần. Ngoài ra, khi so với các quốc gia phát triển, Việt Nam còn hạn chế về cả nguồn lực con người lẫn kinh nghiệm trong việc huấn luyện LLM.

Để vượt qua những khó khăn này, đội ngũ kĩ sư đã làm việc nghiêm túc và quyết tâm cao độ. Trước hết, là phải quyết tâm xây dựng hạ tầng tính toán đủ mạnh. Với nỗ lực tối đa, chỉ trong nửa cuối năm 2023, Zalo đã thành công trong việc xây dựng hệ thống gồm 8 máy chủ DGX H100, dòng GPU mới nhất và khan hiếm nhất của Nvidia.

Thậm chí, ngay cả khi chưa mua được GPU từ Nvidia, các kĩ sư Zalo đã tận dụng các GPU dân dụng nhỏ có sẵn để thực hiện một loạt các nghiên cứu trong khả năng của mình. Nhờ vậy, khi có hạ tầng tính toán lớn, đội ngũ kĩ sư đã sẵn sàng về kiến thức và năng lực để tiến hành huấn luyện LLM ngay.

mo hinh ngon ngu lon,  tieng Viet,  tri tue nhan tao anh 3

Cụm máy chủ AI của Zalo là hệ thống có năng lực xử lý mạnh nhất Việt Nam, đạt hiệu suất lên đến 256 petaFLOPS (FLoating-point Operations Per Second)

Ngoài ra, theo anh Đạt, kết quả của dự án không chỉ đến từ sự nghiêm túc chuẩn bị, và sự nhiệt huyết của từng thành viên trong đội ngũ phát triển LLM, mà còn đến từ sự đúng đắn trong chiến lược đầu tư làm dữ liệu huấn luyện chất lượng “instructions” để bù đắp điểm yếu "low-resource" đối với dữ liệu tiếng Việt. Những kinh nghiệm quý giá này được tham khảo sau nhiều buổi trao đổi, tham vấn các nhà nghiên cứu, kĩ sư tại nhiều viện nghiên cứu hàng đầu trên thế giới.

Cơ hội lẫn thách thức đang chờ đón

Anh Đạt chia sẻ rằng việc huấn luyện mô hình LLM chỉ là bước đầu tiên trong một chặng đường dài theo đuổi AI của Zalo. Ngoài việc tiếp tục nghiên cứu, huấn luyện ra những mô hình lớn hơn về lượng, tốt hơn về chất, ứng dụng LLM để tạo giá trị cho người người dùng mới là đích đến sau cùng của đội ngũ phát triển. Ứng dụng đó có thể là những "chatbot thông minh" hỗ trợ chăm sóc khách hàng, hoặc những công cụ giúp mọi người nâng cao hiệu suất công việc, sáng tạo nội dung...

Vừa qua, Zalo cũng đã thử nghiệm ứng dụng Kiki Giao Thông, tích hợp dưới dạng Official Account ngay trên nền tảng Zalo. Ứng dụng được cộng đồng người dùng đánh giá cao bởi nhờ khả năng hỗ trợ hỏi đáp các tình huống lỗi vi phạm luật giao thông Việt Nam, với độ chính xác vượt trội, so với các sản phẩm tương tự trên thế giới.

“Với đội ngũ kĩ sư AI của Zalo, thách thức không phải là khó khăn, mà là cơ hội để thực hiện những điều lớn lao và có ý nghĩa. Nó không chỉ thúc đẩy sự phát triển, mà còn mang lại niềm vui và động lực làm việc mỗi ngày”. Với niềm đam mê và tinh thần không ngại khó, anh Đạt tin rằng đội ngũ kĩ sư Zalo sẽ tiếp tục tạo ra nhiều sản phẩm AI đẳng cấp thế giới và hữu ích hơn nữa cho người dùng.

Việt Nam hiện xếp hạng 59/193 quốc gia trên Báo cáo "Chỉ số sẵn sàng AI của chính phủ" (Government AI Readiness Index) do Oxford Insights (Vương quốc Anh) thực hiện, vượt mức trung bình của thế giới. Tại ASEAN, trong năm 2023 Việt Nam tăng 1 bậc, xếp vị trí số 5/10 quốc gia trong khu vực.

Zalo là đơn vị đi đầu trong lĩnh vực AI tại Việt Nam, từ năm 2017. Hiện tại Zalo sở hữu 4 trung tâm nghiên cứu AI Lab, với hơn 80 nhà nghiên cứu và hạ tầng mạnh mẽ, trong đó có hệ thống máy chủ gồm 8 DGX H100 có năng lực xử lý mạnh nhất Việt Nam với hiệu suất lên đến 256 petaFLOPS (FLoating-point Operations Per Second). Các sản phẩm AI nổi bật của Zalo có thể kể đến: trợ lý giọng nói Kiki, công nghệ nhận dạng tiếng nói (dictation và voice-to-text), công nghệ tổng hợp tiếng nói (text-to-speech), công nghệ nhận dạng khuôn mặt (FaceID), công nghệ định danh điện tử (eKYC), công nghệ AI tạo sinh (AI Avatar, AI Sticker)...

Hậu Huỳnh

Thương Thương

Bạn có thể quan tâm