Lê Duy Khánh, chàng kỹ sư sinh năm 2000 đang làm việc tại Zalo AI, vừa hoàn thành buổi phát biểu đề tài khoa học tại hội nghị khoa học Interspeech - Hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu thế giới.
Vượt qua hàng nghìn ứng viên, công trình nghiên cứu của Duy Khánh với đề tài "Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking" (Tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động) đã được chọn để công bố tại Hội nghị khoa học Interspeech - Hội thảo về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức.
Với chủ đề "Speech and beyond" (Tạm dịch: Tiếng nói và hơn thế nữa), hội nghị năm nay tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học, công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.
Công trình Nghiên cứu của Duy Khánh và các đồng sự có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
Đầu tư thời gian nghiên cứu trong 9 tháng, viết bài báo khoa học và ứng dụng vào thực tiễn. Để hoàn thành đề tài, chàng kỹ sư trẻ đã phải đối mặt với nhiều thách thức, vì huấn luyện mô hình nhận dạng tiếng nói đòi hỏi cấu hình phần cứng mạnh, đồng thời tiếng nói là dạng dữ liệu khó xử lý vì có thể gặp các trường hợp không rõ chữ, nói nhanh và thường trong môi trường thực tế nhiều tiếng ồn. Thông thường tỷ lệ thành công của các thí nghiệm chỉ khoảng 10% - nghĩa là trong 10 thí nghiệm chỉ có 1 thí nghiệm đạt được mục tiêu đề ra.
Những lần đầu đáng nhớ tại Hy Lạp
Cảm giác choáng ngợp nhưng thích thú là những từ Duy Khánh dùng để miêu tả về trải nghiệm của mình tại Hy Lạp trong 5 ngày. Choáng ngợp vì được chứng kiến hàng nghìn bài phát biểu cũng như diện kiến những tên tuổi lớn trong làng AI thế giới. Thích thú vì đây là cơ hội được học hỏi và trải nghiệm của chàng kỹ sư Zalo trẻ.
Duy Khánh chia sẻ: "Trước chuyến đi, tôi cũng khá là hồi hộp và lo lắng. Đây không chỉ là lần đầu tiên tôi có cơ hội được thuyết trình tại một hội nghị khoa học hàng đầu thế giới trong lĩnh vực công nghệ nói chung và xử lý giọng nói nói riêng, đây còn là lần đầu tiên tôi ra nước ngoài".
Một mình nơi đất khách, vừa phải lo cho sinh hoạt cá nhân 5 ngày tại Hy Lạp, vừa phải chuẩn bị tinh thần và kiến thức vững vàng trước buổi thuyết trình, Duy Khánh thở phào nhẹ nhõm khi mọi thứ đều diễn ra suôn sẻ.
Hội nghị Interspeech diễn ra trong 5 ngày với khoảng 2,000 bài thuyết trình hội thảo của các kỹ sư, nhà nghiên cứu công nghệ và AI từ khắp nơi trên thế giới. Có 2 hình thức thuyết trình chính: thuyết trình miệng (oral presentation) và thuyết trình poster (poster presentation). Với bài thuyết trình miệng sẽ có khoảng 20 phút, bao gồm cả thời gian thuyết trình lẫn đặt câu hỏi, để giới thiệu công trình nghiên cứu của mình tới người xem.
Nói về bài thuyết trình tại hội nghị Interspeech, Duy Khánh kể: "Bài thuyết trình của tôi diễn ra suôn sẻ. Tôi nhớ có khoảng 100 người ngồi dưới khán phòng. Cuối bài có 2 người đặt câu hỏi, một người hỏi về thuật toán, một người hỏi về tốc độ xử lý. Tôi coi những câu hỏi của mọi người là cách mọi người quan tâm tới nội dung thuyết trình của mình, cũng như có thêm phản hồi để hoàn thiện sản phẩm tốt hơn".
"Cá nhân tôi thích xem những bài thuyết trình poster khi bạn có dịp trò chuyện trực tiếp với người thuyết trình, quan sát và nghiền ngẫm bài thuyết trình lâu hơn để học thêm kiến thức mới", Duy Khánh kể thêm.
Khát vọng của chàng kỹ sư AI trẻ: Công nghệ AI do người Việt nghiên cứu để phục vụ cho chính người Việt
Việc tham gia hội nghị Interspeech mang đến cho Duy Khánh nhiều trải nghiệm ý nghĩa. Một trong những điều Duy Khánh tâm đắc nhất sau chuyến đi là niềm tin được củng cố về tầm quan trọng của nghiên cứu AI.
Đây là dịp để Duy Khánh được nhìn thấy những sản phẩm của những công ty lớn như Microsoft hay Meta tại hội nghị Interspeech, cũng như được nghe nhiều nghiên cứu mới về AI từ các trường đại học, viện nghiên cứu công nghệ hàng đầu thế giới như đại học Carnegie Mellon, đại học John Hopkins (Mỹ)....
"Để các kỹ sư trẻ như chúng tôi nói riêng và ngành công nghệ AI Việt Nam nói chung phát triển, việc đầu tư vào nghiên cứu là điều cần thiết. Làm AI luôn cần có những nghiên cứu, còn nếu hoàn toàn dùng công nghệ có sẵn của những công ty khác thì khó có thể tiến xa”, Duy Khánh chia sẻ.
Từ những ý tưởng và các kiến thức mới học được từ hội nghị Interspeech, Duy Khánh mong muốn có thể tiếp tục phát triển các hoạt động nghiên cứu tại Zalo AI.
Kể từ khi bắt đầu hành trình tiên phong trong nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng vào thế hệ những tài năng trẻ như Duy Khánh. Hiện có đến 31% nhân sự Zalo thuộc thế hệ GenZ. Đội ngũ nhân sự trẻ đầy nhiệt huyết và không ngại thử thách này là lực lượng nòng cốt, làm nên sự thành công của các công nghệ và tính năng AI, với trên 10 triệu người dùng trong hệ sinh thái Zalo.
5 ngày tại hội nghị Interspeech đã giúp Duy Khánh có thêm động lực để tiếp tục theo đuổi con đường phát triển AI, đóng góp vào các nghiên cứu của Zalo AI.
Khi hỏi về kế hoạch tương lai tại Zalo AI, Duy Khánh và các đồng nghiệp mô tả gói gọn trong câu nói vui: “GPU càng nhiều, trách nhiệm càng lớn”. Tại Zalo, mọi người luôn hiểu rằng tài nguyên mà mình có là vô giá, và điều quan trọng là phải trân trọng và tận dụng tối đa khả năng của chúng.
Mỗi ý tưởng, dù nhỏ nhất, đều mang trong mình giá trị và cơ hội và xứng đáng được hiện thực hóa. Tham dự kỳ Interspeech lần này không chỉ là cột mốc cá nhân, mà còn là động lực để Duy Khánh phấn đấu đưa công nghệ AI đến gần hơn với mọi người dùng Việt Nam.
Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới.
TS. Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI và đồng tác giả của công trình nghiên cứu lần này, chia sẻ việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín là rất có ý nghĩa.
"Những bài báo khoa học không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu", ông Châu Thành Đức nói.
Đây không phải là lần đầu tiên các kỹ sư Zalo AI có bài báo khoa học được công nhận cấp quốc tế. Năm 2021, hai đề tài nghiên cứu khác cũng đã được công nhận tại Hội nghị Châu Á - Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này có tuổi đời chưa đến 30.
Hiện nay, các thuật toán nhận dạng tiếng nói thời gian thực (streaming ASR) gặp khó khăn với việc thiếu ngữ cảnh (context), dẫn đến chất lượng nhận dạng không được tối ưu. Mặc dù việc bổ sung ngữ cảnh có thể cải thiện độ chính xác, nhưng thường đi kèm với việc tăng độ trễ (latency) trong quá trình chuyển giọng nói thành văn bản. Nghiên cứu của Zalo AI hướng đến việc cung cấp nhiều ngữ cảnh hơn cho mô hình nhận dạng tiếng nói, tương tự như việc "nhìn trước" tương lai, từ đó nâng cao đáng kể độ chính xác mà không làm gia tăng độ trễ, khác biệt so với các nghiên cứu trước đây.
Nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của mình từ cuối năm 2023, mang lại sự cải thiện đáng kể về độ chính xác cho tính năng "soạn tin nhắn bằng giọng nói" (voice dictation) đang trong giai đoạn thử nghiệm. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế. Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm, nhưng có hàng triệu người dùng hàng tháng với hàng triệu tin nhắn được AI xử lý mỗi ngày. Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video...