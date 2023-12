Các doanh nghiệp Việt Nam đã tích cực xây dựng, triển khai các mô hình ngôn ngữ lớn (LLM) và công cụ AI tạo sinh trong năm 2023.

“Xây dựng được LLM tiếng Việt và trợ lý ảo phục vụ người Việt là tác động về mặt nhận thức, có ý nghĩa vô cùng lớn trong nhiều mặt” là chia sẻ của Bộ trưởng Bộ Thông tin & Truyền thông (TTTT) Nguyễn Mạnh Hùng trong cuộc họp triển khai thúc đẩy LLM, trợ lý ảo tiếng Việt hồi tháng 9.

Với khả năng ứng dụng trong nhiều lĩnh vực, nhu cầu phát triển LLM trở thành chủ đề được nhiều quốc gia quan tâm, đặc biệt sau sự bùng nổ của các công cụ AI tạo sinh (Generative AI) như ChatGPT hay DALL-E.

Dù còn nhiều thách thức, các doanh nghiệp công nghệ Việt Nam đã bắt kịp xu hướng, tích cực phát triển mô hình LLM, công cụ AI tạo sinh dành cho tiếng Việt. Những cái tên như PhởGPT, ViGPT hay KiLM là bước đầu trên chặng đường chinh phục AI tạo sinh và LLM trong nước.

ViGPT - “ChatGPT phiên bản Việt”

Ngày 27/12, VinBigdata ra mắt ViGPT, phiên bản “ChatGPT” cho người dùng cuối tại Việt Nam. Điều đó đồng nghĩa ViGPT được phát hành dưới dạng ứng dụng hoàn chỉnh, cho phép người dùng truy cập và sử dụng theo cách tương tự ChatGPT.

Theo nhà phát triển, ViGPT có khả năng sáng tạo nội dung, tìm kiếm, tổng hợp, trích xuất thông tin, giải đáp câu hỏi... Lợi thế của công cụ là có thể đưa ra thông tin đặc thù của Việt Nam như văn bản pháp luật, lịch sử, văn hóa, danh nhân, đặc trưng vùng miền, sức khỏe thường thức...

Giao diện tương tác của ViGPT.

ViGPT được phát triển dựa trên LLM tập trung vào tiếng Việt, với hơn 600 GB dữ liệu tinh chỉnh lấy từ nhiều lĩnh vực khác nhau. Mô hình này đã được VinBigdata công bố xây dựng thành công vào tháng 8.

Bên cạnh phiên bản cho người dùng cá nhân, ViGPT còn có phiên bản doanh nghiệp, tích hợp vào nền tảng VinBase 2.0. Trong tương lai, ViGPT sẽ xuất hiện trên các sản phẩm thuộc nhiều lĩnh vực như vận tải, ngân hàng, tài chính, bảo hiểm...

Mô hình ngôn ngữ lớn của Zalo

Trong sự kiện diễn ra vào giữa tháng 12, Zalo đã trình diễn LLM tự phát triển mang tên KiLM. Mô hình được đào tạo trên kho dữ liệu tiếng Việt chất lượng cao, có khả năng trò chuyện, trả lời các câu hỏi thuộc nhiều lĩnh vực bằng tiếng Việt.

Theo đại diện Zalo, mô hình được xây dựng trên kiến trúc transformer, huấn luyện bằng các kỹ thuật như cơ chế tập trung chớp nhoáng (Flash Attention).

Dù vẫn trong giai đoạn phát triển, Zalo tự tin thể hiện khả năng của KiLM, bằng cách tích hợp vào Kiki tham gia thi đấu kiến thức trên Kahoot. “Đối thủ” của Kiki là mô hình GPT-3.5, GPT-4, Llama22, Qwen-7B, một mô hình tiếng Việt khác và người chơi thật.

Đại diện Zalo chia sẻ quá trình xây dựng LLM tiếng Việt. Ảnh: Quỳnh Danh.

Theo kết quả, Kiki trả lời tốt các câu hỏi thường thức và kiến thức chung, đặc biệt khi cùng GPT-4 trả lời đúng câu hỏi về rượu Bàu Đá, và một câu hỏi âm nhạc. Kết thúc thử thách, các LLM không thể vượt qua người chơi thật. Dù vậy, GPT-4 và Kiki thể hiện tốt hơn những mô hình khác trên bộ câu hỏi tiếng Việt.

Theo đại diện Zalo, phiên bản Kiki được trình diễn sử dụng mô hình huấn luyện với 7 tỷ tham số. Trong tương lai, công ty sẽ tiếp tục hoàn thiện KiLM để tích hợp vào nhiều công cụ khác.

Mô hình nguồn mở PhởGPT

Đầu tháng 12, VinAI công bố PhởGPT - dự án mã nguồn mở về LLM, được xây dựng và chuyên dùng cho tiếng Việt.

PhởGPT sử dụng công nghệ transformer, áp dụng kỹ thuật Flash Attention và ngoại suy độ dài ngữ cảnh ALiBi, giúp hiểu sâu hơn ngữ cảnh và tăng khả năng tương tác tự nhiên với người dùng.

Trang chủ dự án PhởGPT trên GitHub.

Theo trang dự án PhởGPT trên GitHub, lượng dữ liệu dùng để đào tạo mô hình có dung lượng 41 GB, gồm 1 GB văn bản trên Wikipedia, và 40 GB dữ liệu không trùng lặp từ một bộ dữ liệu tin tức (cập nhật đến ngày 21/5/2021).

Bộ dữ liệu huấn luyện được kết hợp từ nhiều nguồn khác nhau, gồm các từ và cặp từ, lời nói tập trung vào cảm xúc (phần lớn bằng tiếng Việt), cặp dữ liệu để trả lời câu hỏi dựa trên ngữ cảnh, viết thơ, viết luận, sửa chính tả và tóm tắt nội dung.

Khác với phần mềm dạng đóng như ChatGPT, PhởGPT là dự án mã nguồn mở, được phát hành công khai cho cộng đồng phát triển. Người dùng có thể tự phát triển ứng dụng AI tùy chỉnh, đặc biệt là những app đòi hỏi bảo mật cao, không phụ thuộc vào các mô hình đóng.

Xây dựng LLM tiếng Việt cho nhiều lĩnh vực

Vào tháng 10, FPT giới thiệu GenAI, nền tảng ứng dụng AI tạo sinh cho doanh nghiệp, có khả năng tương tác tự nhiên với người dùng, hỗ trợ xử lý yêu cầu và tóm tắt văn bản.

Dự án xây dựng LLM, AI tạo sinh của các doanh nghiệp đều phù hợp với kế hoạch của Bộ TTTT, đặt mục tiêu Việt Nam có ít nhất một nền tảng công nghệ LLM tiếng Việt đến năm 2025, có khả năng cung cấp dịch vụ cho nền tảng AI khác. Ngoài ra, đảm bảo 100% cơ quan Nhà nước có trợ lý ảo giúp cán bộ, công chức phục vụ hoạt động.

Quá trình phát triển LLM tiếng Việt cần giải quyết một số thách thức: thu thập, xử lý các nguồn dữ liệu tiếng Việt dạng thô để hình thành bộ dữ liệu tiếng Việt đầy đủ và bộ dữ liệu chỉ dẫn tiếng Việt, cũng như thiết lập hạ tầng tính toán nhằm huấn luyện LLM.

Bộ trưởng Nguyễn Mạnh Hùng trong cuộc họp về thúc đẩy triển khai LLM tiếng Việt. Ảnh: Bộ TTTT.

Trong cuộc họp hồi tháng 9, Bộ TTTT cho biết việc xây dựng, triển khai LLM tiếng Việt phục vụ khối cơ quan hành chính và tư pháp, triển khai trợ lý ảo phục vụ cán bộ công chức, viên chức do Tập đoàn Viettel đảm nhận.

Trong khi đó, Tập đoàn CMC xây dựng, triển khai LLM và trợ lý ảo tiếng Việt phục vụ khối cơ quan lập pháp. Trợ lý ảo giúp cán bộ, công chức khi xây dựng văn bản quy phạm pháp luật có thể phát hiện chồng chéo, mâu thuẫn giữa văn bản hiện hành với dự thảo.

Ngoài ra, Công ty Cổ phần VNG tập trung triển khai LLM và trợ lý ảo tiếng Việt phục vụ người dân, cũng như các vấn đề về dịch vụ công, quyền lợi, trách nhiệm của người dân.

“AI tạo sinh sẽ là công nghệ được quan tâm nhất 2024”

Theo khảo sát Finastra Financial Services State of the Nation Survey 2023, Việt Nam dẫn đầu về mối quan tâm đến AI tạo sinh. Cụ thể, 91% người tham gia bày tỏ sự nhiệt tình với công nghệ, cao nhất trong số các thị trường được khảo sát.

Nhận định về con số này, bà Phạm Thị Thu Diệp, Tổng Giám đốc kiêm Giám đốc khối Công nghệ IBM Việt Nam, cho rằng trí tuệ nhân tạo, cụ thể là AI tạo sinh sẽ trở thành công nghệ được quan tâm nhất năm tới. Các doanh nghiệp sẽ chuyển từ “bổ sung thêm AI” sang “AI là ưu tiên hàng đầu”.

Ông Nguyễn Tuấn Khang, Giám đốc khối Phần mềm của IBM Việt Nam, cho rằng các lĩnh vực càng có nhiều cạnh tranh trong nghiệp vụ, AI sẽ phát triển càng nhanh.

Đại diện của IBM chia sẻ về kỳ vọng ngành AI tạo sinh ở Việt Nam năm 2024. Ảnh: M.S.

“Tại Việt Nam, ứng dụng AI tập trung phần lớn vào các dịch vụ chăm sóc khách hàng, cụ thể là ngành ngân hàng, sắp tới là bảo hiểm và sẽ mở rộng sang lĩnh vực sản xuất, logistics...”, ông Khang nhấn mạnh.

Với nền kinh tế số phát triển nhanh, các chuyên gia IBM nhận định việc ứng dụng AI tạo sinh có thể đưa nền kinh tế số Việt Nam lên tầm cao mới. Dù vậy, thách thức lớn nhất khi triển khai AI tạo sinh là vấn đề niềm tin.

Nhiều người lo sợ AI tạo sinh bị ảnh hưởng bởi thiên kiến từ con người, ví dụ như phân biệt giàu nghèo, giới tính, chủng tộc. Để có thể áp dụng rộng rãi AI tạo sinh, Việt Nam cần thúc đẩy phát triển AI có trách nhiệm, từ đó xây dựng niềm tin với người dùng.