Chia sẻ mở màn sự kiện, ông Nguyễn Minh Tú, Giám đốc Công nghệ Zalo tổng kết những cột mốc đáng nhớ của các công cụ AI tạo sinh, đặc biệt là sự bùng nổ của ChatGPT, với kỷ lục 1 triệu người dùng sau 5 ngày phát hành. Các mô hình ngôn ngữ mới nhất hiện nay gồm GPT-4 của OpenAI, hay Gemini của Google.
Ông Tú liệt kê một số ứng dụng của AI tạo sinh, ví dụ như ứng dụng tổng hợp văn bản, dịch thuật, app tạo ảnh phục vụ trực tiếp cho lĩnh vực thiết kế thời trang, nội thất hay vẽ anime. Ngoài ra, cũng có nhiều mô hình AI tạo sinh phục vụ tạo nhạc, đơn cử như công cụ "sáng tác" nhạc nền cho short video trên YouTube.
Ông Nguyễn Minh Tú, Giám đốc Công nghệ Zalo chia sẻ đầu sự kiện Zalo AI Summit 2023. Ảnh: Quỳnh Danh. |
Về xu hướng AI tạo sinh tại Việt Nam, ông Tú cho biết các công ty như VinAI vừa ra mắt mô hình PhởGPT, riêng Zalo đã nắm bắt xu hướng từ đầu năm. Để đầu tư vào AI cần có con người, dữ liệu, GPU và cơ sở hạ tầng lớn. Sau thời gian đầu tư, một số thành quả mà Zalo đạt được như công trình nghiên cứu VMLU (kết hợp nghiên cứu với JAIST), mô hình ngôn ngữ lớn (LLM), ứng dụng AI làm thơ và AI Avatar trên Zalo.
Một số khó khăn khi phát triển AI gồm vấn đề đạo đức và quyền riêng tư. Theo ông Tú, Zalo đã nắm bắt và lập đội ngũ đánh giá, đảm bảo các trường hợp sử dụng phù hợp với điều kiện thực tế.
"Kiểm soát AI là chặng đường dài. Trước mắt, AI cần được tạo điều kiện phát triển, và các sân chơi để giới trẻ cùng trau dồi kinh nghiệm, đặc biệt là AI tạo sinh", đại diện Zalo chia sẻ.
Tương lai của mô hình ngôn ngữ lớn tác tử
Trong phần chia sẻ đầu tiên, PGS.TS Trần Thanh Long của Đại học Warwick (Anh) đặt câu hỏi liệu các LLM (mô hình ngôn ngữ lớn) có phải tương lai của AI hay không. Theo ông, trong những năm gần đây, AI đã thay đổi rất nhiều mặt của cuộc sống như thay thế con người để tự viết sách, giải toán… Trong đó, cốt lõi của các chatbot AI hiện nay như ChatGPT, Gemini chính là mô hình ngôn ngữ lớn.
“Sử dụng LLM vào giáo dục là một trong những ứng dụng quan trọng nhất của các mô hình này”, PGS.TS Trần Thanh Long khẳng định. Đây cũng là một hướng nghiên cứu mới trong AI, giúp thay đổi hoàn toàn cách giáo dục. Bên cạnh đó, LLM hỗ trợ các doanh nghiệp trong việc giải các bài toán về tối ưu hóa, phát triển các trợ lý ảo. Nhiều người đã sở hữu nhiều ứng dụng trợ lý ảo khác nhau để hỗ trợ tác vụ đời sống, đọc CV, giao tiếp với khách hàng…
PGS.TS Trần Thanh Long chia sẻ về tương lai của LLM Agents. Ảnh: Phúc Thịnh. |
Ông Trần Thanh Long đưa ra một số hướng đi để phát triển các LLM. Thay vì sử dụng thụ động như đưa yêu cầu cho ChatGPT và đợi quá trình xử lý, trong tương lai, các LLM sẽ có thể chủ động tương tác với các kho dữ liệu và người dùng. Các agent model trong tương lai có thể thông minh đến mức tự đưa ra các quyết định để giải quyết vấn đề con người. “Đây là một hướng đi mới nhưng các sân chơi đã bắt đầu được xây dựng để các nhà khoa học đào sâu nghiên cứu”, ông Thanh Long khẳng định.
Nói về tương lai của LLM, ông Trần Thanh Long cho rằng có thể ứng dụng các mô hình này vào smarthome (nhà thông minh). AI sẽ có thể học theo sở thích, thói quen của chủ nhà… để nâng cao chất lượng đời sống con người. Quan trọng hơn, các quốc gia có thể sử dụng LLM để xây dựng thành phố thông minh như điều khiển đèn giao thông, điều tiết lưu lượng xe để giảm ùn tắc…
Tuy nhiên, các mô hình ngôn ngữ lớn cũng phải đối mặt với nhiều thách thức khác nhau. Các LLM có thể bị các nhóm người xấu lợi dụng. Đơn cử như chatbot Tay.ai của Microsoft vào năm 2016 bị thao túng trở thành một cỗ máy phân biệt chủng tộc, xúc phạm người dùng. Điều này đã đặt ra câu hỏi làm thế nào để xây dựng các hệ thống LLM an toàn với con người.
“Bài toán thứ 2 là làm thế nào của LLM học cách tương tác với hệ thống khác và tương tác với cả con người”, PGS.TS chia sẻ. Nhưng nếu nhiều AI hợp tác với nhau, một thách thức mới lại được đặt ra là đảm bảo độ ổn định cho các hệ thống. “LLM agents là một hướng rất khả thi về mặt công nghệ và cả lợi nhuận. Tuy nhiên, để đạt được điều đó không hề dễ dàng”, ông Long chia sẻ.
Thách thức khi xây dựng mô hình ngôn ngữ lớn tiếng Việt
TS Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI, là người chịu trách nhiệm chính mảng mô hình ngôn ngữ lớn và xây dựng hệ thống tự động trả lời câu hỏi cho các sản phẩm AI tạo sinh tại Zalo. Đến với Zalo AI Summit 2023, ông Sơn chia sẻ đề tài “Phát triển của các mô hình ngôn ngữ lớn tại Việt Nam” (The development of Large Language Models in Vietnam).
Theo ông Sơn, mô hình ngôn ngữ đơn giản là tính xác suất để dự đoán từ tiếp theo. Bộ dữ liệu huấn luyện được lấy từ nhiều nguồn như website, Wikipedia, sách, diễn đàn... Khởi đầu với dự đoán từ, mô hình có thể dự đoán câu, đoạn văn, viết sách nếu đủ tốt.
Ông Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI chia sẻ về quá trình phát triển mô hình ngôn ngữ lớn tiếng Việt. Ảnh: Quỳnh Danh. |
Trong khi đó, mô hình ngôn ngữ lớn (LLM) là các mô hình có lượng dữ liệu, chi phí đào tạo lớn. Ví dụ, GPT-1 có dữ liệu huấn luyện 0,7 GB, GPT-3 là 570 GB còn Llama là hơn 5.000 GB. Không chỉ dự đoán đơn thuần, các mô hình LLM có thể viết câu chữ dựa trên ngữ cảnh, cụ thể là yêu cầu do người dùng nhập vào.
Ông Sơn liệt kê 2 ứng dụng tiềm năng chính của các mô hình LLM, đầu tiên là các công cụ như ChatGPT, thứ hai là sử dụng API để xây dựng app trợ lý ảo, sáng tạo nội dung...
Đặt vấn đề về việc phát triển các mô hình ngôn ngữ lớn (LLM) tại Việt Nam, ông Sơn cho biết trên thế giới đã có rất nhiều mô hình LLM từ nhiều tổ chức khác nhau, nhưng chưa có mô hình LLM của một tổ chức tại Việt Nam.
Để so sánh, nhiều mô hình ngôn ngữ chưa được tối ưu cho tiếng Việt. Một vấn đề được nhấn mạnh là lo ngại về quyền riêng tư. Tất cả câu lệnh, dữ liệu của người dùng Việt được lưu trữ tại nước ngoài, gây khó khăn cho pháp luật nếu phát sinh vấn đề quyền riêng tư. Các mô hình như GPT-3 hay GPT-4 có mã nguồn đóng và yêu cầu trả phí nếu muốn sử dụng nhiều. Riêng các mô hình như Llama hay Bloom chưa có nhiều dữ liệu về tiếng Việt.
Theo ông Sơn, việc phát triển mô hình LLM cho tiếng Việt gặp nhiều khó khăn, với 2 thách thức lớn là thiếu nguồn dữ liệu chất lượng và cơ sở hạ tầng phần cứng chưa đầy đủ. Dù vậy, nhiều tổ chức và cộng đồng tại Việt Nam đã có những bước đi đầu tiên nhằm xây dựng mô hình LLM cho tiếng Việt. Ngoài ra, chính phủ cũng có chính sách hỗ trợ, khuyến khích xây dựng mô hình LLM.
Tại Zalo, việc xây dựng mô hình LLM gồm 2 giai đoạn chính, gồm phát triển mô hình tiền huấn luyện, chủ yếu giúp mô hình học càng nhiều kiến thức càng tốt.
Dù vậy, sau giai đoạn tiền huấn luyện, mô hình chưa có khả năng nói chuyện hay tương tác. Do đó, giai đoạn tiếp theo là tinh chỉnh (fine-tuning), bao gồm các dữ liệu giúp mô hình có khả năng tương tác dựa trên câu hỏi truy vấn của người dùng.
Trong những bài đánh giá đầu tiên, mô hình LLM do Zalo huấn luyện cho thấy hiệu quả tăng qua mỗi lần đào tạo. Một số ứng dụng của mô hình được đại diện Zalo nhấn mạnh như viết email, dịch văn bản, trích lọc thông tin...
Phía dự án cho biết sẽ tiếp tục phát triển mô hình LLM, bao gồm cải thiện khả năng lý luận, tăng cường dữ liệu huấn luyện, mở rộng ứng dụng cho các công việc đặc thù, cũng như nghiên cứu các công nghệ mới.
Người chơi chiếm ưu thế trước AI trong trò đố kiến thức tiếng Việt
Đến tham dự Zalo AI Summit 2023, anh Trần Mạnh Hiệp - admin diễn đàn công nghệ Tinh Tế - đã khiến cả khán phòng hào hứng với game đố kiến thức Kahoot. Phần chơi có sự tham gia của mô hình ngôn ngữ lớn tiếng Việt do Zalo nghiên cứu và phát triển, tích hợp lên trợ lý ảo Kiki. Mang tên KiLM, đây là mô hình ngôn ngữ lớn do Zalo phát triển dành riêng cho người Việt. KiLM có khả năng học và có thể trò chuyện, trả lời các câu hỏi người dùng đưa ra về nhiều lĩnh vực khác nhau.
Anh Trần Mạnh Hiệp, admin diễn đàn công nghệ Tinh Tế điều phối trò chơi Kahoot. Ảnh: Quỳnh Danh. |
Tại đây, KiLM “đấu trí” với loạt mô hình ngôn ngữ lớn khác trên thế giới như ChatGPT 3.5, ChatGPT 4.0, LLaMA, PhởGPT và một người chơi thật là chị Huyền Vân, thành viên diễn đàn Tinh Tế. Bộ đề Kahoot bao gồm 20 câu xoay quanh nội dung liên quan đến người Việt.
Đến câu hỏi số 8 về “tốc độ tối đa cho xe 4 bánh khi đi ở khu dân cư”, tất cả chatbot đều trả lời sai. Lần tiếp theo tất cả chatbot trả lời sai là câu hỏi 15 về kiến thức địa lý trong khu vực nội thành TP.HCM, trong khi người chơi thật vẫn đưa ra câu trả lời chính xác. Đến câu thứ 19 về chủ đề lịch sử Ai Cập, tất cả mô hình ngôn ngữ đều trả lời đúng.
Kết thúc trò chơi, vị trí quán quân vẫn thuộc về chị Huyền Vân. Kiki xếp vị trí thứ 3, còn vị trí thứ 2 là của GPT-4. “Các bot rất tuyệt vời nhưng vẫn còn khoảng cách lớn để phát triển về cả ngôn ngữ và nội dung”, admin Tinh tế nhận định. Anh Hiệp cho rằng một trong những lý do khiến các mô hình ngôn ngữ gặp khó khi trả lời là bởi các câu hỏi đều sử dụng tiếng Việt, ít phổ biến trong bộ dữ liệu ban đầu.
Tương lai của AI Tạo sinh
Chia sẻ về chủ đề "AI tạo sinh giai đoạn 2023-2024", TS Ettikan Kandasamy Karuppiah, Giám đốc Công nghệ Nvidia khu vực phía nam châu Á - Thái Bình Dương, cho biết AI tạo sinh đang phát triển với tốc độ rất nhanh. Ông Karuppiah dự đoán sẽ có nhiều mô hình mới ra mắt trong năm 2024.
TS Ettikan Kandasamy Karuppiah chia sẻ về giải pháp AI nhận diện ảnh. Ảnh: Zalo. |
Nhiệm vụ chính của các mô hình chủ yếu liên quan đến công việc phân tích văn bản từ ảnh, tạo ảnh từ văn bản, và video sang văn bản. Để phát triển các mô hình ngôn ngữ thị giác (VLM), ông Karuppiah đề xuất 4 giai đoạn chính, gồm bộ dữ liệu tiền huấn luyện, đào tạo chuyển giao (transfer learning), lọc kiến thức và cuối cùng là khả năng dự đoán các yếu tố không xuất hiện trong bộ dữ liệu huấn luyện (zero-shot prediction).
Ông Karuppiah cũng chia sẻ về NeMo, framework của Nvidia nhằm hỗ trợ xây dựng các ứng dụng tương tác AI với con người. Với phần cứng kỹ thuật được tinh chỉnh và tối ưu hóa bởi Nvidia, NeMo giúp việc phát triển các mô hình AI tạo sinh trở nên dễ dàng, nhanh chóng và tiết kiệm chi phí.
Bộ tiêu chuẩn đánh giá năng lực tiếng Việt của AI
Từ Nhật Bản, Giáo sư Nguyễn Lê Minh, Giám đốc Trung tâm Nghiên cứu Interpretable AI - Viện Khoa học và Công nghệ Nhật Bản (JAIST), tham gia sự kiện để chia sẻ về công trình VMLU mới công bố của Zalo và JAIST. Đây là bộ tiêu chuẩn đánh giá năng lực tiếng Việt cho các mô hình ngôn ngữ lớn.
Bộ công cụ VMLU được tạo ra để đánh giá khả năng tiếng Việt của các LLM. Ảnh: Phúc Thịnh. |
Từ khi ChatGPT ra đời, tính đến tháng 7/2023, đã có gần 16.000 LLM được phát triển với độ chính xác và hiệu năng tốt. Các mô hình này được ứng dụng trong đa dạng lĩnh vực như y tế, giáo dục, pháp lý… Để xác định hiệu quả hoạt động của những bot AI này, trên thế giới, các tổ chức đã xây dựng nhiều bộ đánh giá LLM với chuẩn khác nhau.
Cũng tại sự kiện, ông Châu Thành Đức - Trưởng bộ phận nghiên cứu Zalo AI Lab - chia sẻ cụ thể về công trình VMLU. Bộ dữ liệu của VLMU trải dài 58 chủ đề với gần 11.000 câu hỏi, nhiều cấp độ khác nhau từ THCS, THPT đến Đại học và cao hơn. “Điều khó nhất khi xây dựng bộ dataset là nguồn dữ liệu”, ông Đức cho biết. Ở Zalo, các câu hỏi này được lấy từ các đề thi thật kèm đáp án chính thức, sau đó tiếp tục được người thật xác minh.
Trưởng bộ phận nghiên cứu Zalo AI Lab chia sẻ nhóm nghiên cứu đã mất rất nhiều tháng để hoàn thành bộ dữ liệu này. Ông liệt kê một vài câu hỏi có trong bộ dữ liệu như tính chất của thủy tinh, kiến thức về sinh học, nông nghiệp, y học để đánh giá mức độ hiểu biết của các LLM. Theo ông Đức, VMLU có 2 cách đánh giá: trả lời 1 trong 4 đáp án A, B, C, D hoặc tính xác suất trả lời gần đúng nhất với đáp án chuẩn.
“Các quốc gia khác có rất nhiều bộ đánh giá ngôn ngữ khác nhau như Anh, Trung, Nhật. Ở Việt Nam, số lượng còn hạn chế. Do đó, chúng tôi cần rất nhiều sự hỗ trợ và hợp tác, phát triển để tạo ra các mô hình đánh giá ngôn ngữ hoàn thiện hơn”, ông Đức nói. Đây là nền tảng để phát triển LLM lâu dài để bắt kịp các ngôn ngữ khác.
Trong đó, Zalo AI Challenge cũng là một hoạt động hướng về cộng đồng, giúp lĩnh vực AI tại Việt Nam phát triển hơn. “LLM dành cho người Việt là một hành trình đầy thách thức và không thể hoàn thiện chỉ trong ngày một ngày hai. Chỉ có chung tay hợp tác, chúng ta mới có thể đạt được mục tiêu đó”, Trưởng bộ phận nghiên cứu Zalo AI Lab khẳng định.
3 đội chiến thắng Zalo AI Challenge 2023
Sau phần chia sẻ của diễn giả, nhiều giải pháp thực tiễn nhằm ứng dụng AI được trình bày bởi các kỹ sư xuất sắc của Zalo AI Challenge 2023. Đây là cuộc thi nhằm khuyến khích và cổ vũ nghiên cứu, phát triển giải pháp ứng dụng AI tại Việt Nam. Khởi động từ tháng 11, Zalo AI Challenge 2023 thu hút hơn 1.000 đội thi.
Năm nay, cuộc thi chia thành 3 bảng, đề bài liên quan đến ứng dụng AI tạo sinh gồm: Elementary Maths Solving (Giải toán tiểu học), Advertising Banner Generation (Tạo banner quảng cáo) và Background Music Generation (Tạo nhạc nền). Các đội thi giành chiến thắng nhận tổng giải thưởng tiền mặt 15.000 USD cùng phần quà từ nhà tài trợ.
Với đề bài Giải toán tiểu học, các đội cần sử dụng mô hình để phân tích, trả lời khoảng 1.200 bài toán cấp độ tiểu học. Các đội với giải pháp đạt thứ hạng cao gồm 4F và NguyenLe. Trong phần thuyết trình, đại diện các đội đều đưa ra mô hình, quy trình và ưu điểm của giải pháp.
Theo nhận xét của ban giám khảo, giải pháp của 2 đội đều có khả năng làm toán tốt và chính xác, sử dụng kết hợp nhiều mô hình. Chung cuộc, giải nhất bảng Giải toán tiểu học thuộc về đội NguyenLe, với số điểm sít sao so với đội 4F (0,003 điểm).
Đề bài thứ hai liên quan đến tạo ảnh quảng cáo, với đầu vào là dòng mô tả bằng tiếng Việt. Đại diện Zalo đánh giá đây là bài toán khó, với dữ liệu mẫu gồm 1.000 banner quảng cáo (gồm văn bản và banner), cùng một số tiêu chí đánh giá cụ thể.
TS Ngô Đức Thành, thành viên ban cố vấn, cho biết 2 đội đều dựa trên một ý tưởng nhưng cách thực hiện khác nhau để giải quyết đề bài, đặc biệt khi một đội tập trung vào mô hình tối ưu cho tiếng Anh, đội còn lại sử dụng mô hình đã tinh chỉnh để hiểu tiếng Việt tốt hơn. Kết quả, giải quán quân thuộc về đội T-Sharp, còn Invisible là đội á quân.
Bộ đề cuối cùng yêu cầu xây dựng mô hình AI có thể nhận đoạn mô tả nhạc bằng tiếng Anh, sau đó tạo nhạc nền (10 giây) dựa trên đầu vào. Ban tổ chức cũng hỗ trợ thí sinh huấn luyện mô hình bằng 10.000 mẫu nhạc với đoạn mô tả tương ứng. Một số tiêu chí đánh giá gồm sự tương đồng giữa file âm nhạc với dòng mô tả, độ tương đồng giữa file nhạc của thí sinh với file nhạc của BTC...
Đại diện ban cố vấn, PGS.TS Trần Thanh Long cho biết 2 nhóm đều nhận ra cách tinh chỉnh mô hình để tăng độ chính xác, nhưng cũng có một số điểm khác biệt về cách lọc văn bản, yếu tố không liên quan trong nhạc. Đội Berlin giành chiến thắng bảng thi này, vị trí thứ 2 thuộc về đội AQN.
Được tổ chức lần đầu vào năm 2017, Zalo AI Summit là sự kiện quy tụ các chuyên gia uy tín trong lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam và trên thế giới.
Tại Zalo AI Summit, các chuyên gia cùng nhau thảo luận nhằm giải quyết những bài toán thực tiễn, đáp ứng nhu cầu của người Việt bằng AI. Đây cũng là nơi giới thiệu sản phẩm, công nghệ, giải pháp AI giúp cuộc sống trở nên dễ dàng, góp phần mang AI gần gũi hơn đến đời sống người Việt.
Trong lần thứ 6 được tổ chức, Zalo AI Summit 2023 mang chủ đề “Trong kỷ nguyên trí tuệ nhân tạo tạo sinh” (In the era of Generative AI). Hiện nay, cuộc cách mạng về AI cho phép người dùng sáng tạo những nội dung phức tạp. Trong đó, AI tạo sinh đang dẫn đầu với những công cụ như ChatGPT hay DALL-E, góp phần đưa khái niệm sáng tạo mới vào cuộc sống hàng ngày của con người.
Tại Zalo AI Summit 2023, các diễn giả sẽ thảo luận về xu hướng AI tạo sinh mà thế giới đang theo đuổi, đồng thời cập nhật những công trình nghiên cứu, ứng dụng AI mới nhằm phục vụ đời sống người Việt.