Một người mẹ vừa nấu ăn vừa tranh thủ đọc nhanh tin nhắn thoại để điện thoại tự chuyển thành văn bản. Một người lớn tuổi bật phụ đề video để không bỏ lỡ nội dung khi thị lực và thính lực không còn như trước. Hay một nhân viên văn phòng nhanh chóng dịch đoạn hội thoại tiếng nước ngoài ngay trong khung chat mà không cần rời khỏi ứng dụng. Có những tính năng AI hiện diện trong đời sống số hàng ngày một cách rất âm thầm.
Phía sau những thao tác chỉ kéo dài vài giây ấy là hàng nghìn giờ huấn luyện mô hình, tối ưu thuật toán và tinh chỉnh trải nghiệm của đội ngũ kỹ sư AI người Việt tại Zalo.
Trong nhiều năm, AI thường được nhắc đến như một công nghệ phức tạp, gắn với những khái niệm học thuật hoặc các mô hình khổng lồ ở trung tâm dữ liệu. Song, với đội ngũ phát triển các tính năng AI trực tiếp trên ứng dụng Zalo, mục tiêu họ theo đuổi là đưa AI trở thành một phần tự nhiên trong giao tiếp hàng ngày của người Việt.
AI "hòa tan" vào trải nghiệm giao tiếp
Từ 2024 đến nay, đội ngũ phát triển các tính năng AI tích hợp trên ứng dụng Zalo đã liên tục phát triển và tinh chỉnh các tính năng AI in-app như Dictation (soạn tin nhắn bằng giọng nói), Voice-to-Text (chuyển tin nhắn thoại thành văn bản), Call Caption (phụ đề cuộc gọi), Translation (dịch tin nhắn) hay Sao chép chữ từ ảnh.
Điểm chung của các tính năng này là chúng không tồn tại như những “ứng dụng AI” độc lập. AI được đưa trực tiếp vào các thao tác giao tiếp vốn đã quen thuộc với người dùng. Triết lý ấy xuất phát từ một quan điểm rất rõ ràng của đội ngũ phát triển sản phẩm: AI chỉ có ý nghĩa khi giúp trải nghiệm trở nên đơn giản và thuận tiện hơn.
“Công nghệ có thể thay đổi rất nhanh, nhưng có những nguyên tắc cốt lõi cần giữ vững trong quá trình làm sản phẩm, đó là phải tạo ra những tính năng dễ dùng và giải quyết được nhu cầu thực tế”, anh Nguyễn Hữu Đức, Product Owner của dự án chia sẻ.
Theo anh Đức, với các tính năng xử lý ngôn ngữ tự nhiên, “tự nhiên” không chỉ là nhận diện đúng từng từ. Điều quan trọng hơn là kết quả phải dễ đọc, đúng ý người dùng và giống cách người Việt giao tiếp hàng ngày.
Với đội ngũ phát triển, một mô hình AI không được đánh giá chỉ bằng độ chính xác. Thay vào đó, họ nhìn vào những tín hiệu thực tế hơn. Liệu người dùng có phải sửa lại câu sau khi sử dụng tính năng Dictation không, có bấm gửi ngay sau khi nói không, hay phụ đề cuộc gọi có đủ rõ ràng?
Những chi tiết tưởng rất nhỏ như cách ngắt câu, dấu phẩy, viết hoa tên riêng, hay việc AI có nhận ra giọng miền Trung, miền Tây hoặc các câu nói đan xen Anh - Việt… đều trở thành những bài toán quan trọng.
“Một mô hình 'giống người Việt' không chỉ nằm ở việc đưa ra phản hồi thật chính xác. Nó còn nằm ở việc hiểu được cách người Việt ngắt câu, dùng từ lóng, chuyển qua tiếng Anh giữa chừng hay nói nửa câu nhưng người nghe vẫn hiểu”, anh Trần Văn Hòa, Senior Lead AI Engineer, cho biết.
![]() ![]() ![]() |
Một số tính năng AI tích hợp trên ứng dụng Zalo. |
Khoảng cách giữa demo và sản phẩm thực
Trong lĩnh vực AI, việc tạo ra một mô hình “hoạt động được” chưa bao giờ là phần khó nhất. Theo chia sẻ từ đội ngũ kỹ sư AI, chỉ cần tận dụng một vài mã nguồn mở (open source), việc xây dựng một sản phẩm demo hoàn toàn có thể diễn ra khá nhanh. Tuy nhiên, từ một bản demo đến một sản phẩm thực sự vận hành ở quy mô hàng chục triệu người dùng lại là khoảng cách rất lớn.
Ở giai đoạn đầu, khi chưa có mô hình AI riêng, đội ngũ chủ yếu dựa vào kiến thức tiếng Việt sẵn có cùng các quy tắc ngôn ngữ cơ bản để phát triển tính năng. Cách làm này có thể giải quyết được nhu cầu ngắn hạn, nhưng nhanh chóng bộc lộ nhiều giới hạn. AI dễ sai chính tả, chưa “nghe” tốt các từ tiếng Anh xen kẽ trong câu nói, độ chính xác giảm khi gặp giọng vùng miền hoặc cách nói không chuẩn câu chữ.
Bài toán trở nên phức tạp hơn khi người Việt có thói quen giao tiếp rất linh hoạt. Cùng một câu nói có thể được phát âm khác nhau giữa các vùng miền. Người dùng thường nói nhanh, nuốt âm, dùng từ lóng hoặc chuyển đổi liên tục giữa tiếng Việt và tiếng Anh trong cùng một đoạn hội thoại. Điều đó khiến việc xây dựng AI xử lý ngôn ngữ tiếng Việt không chỉ là bài toán kỹ thuật, mà còn là bài toán về ngữ cảnh và văn hóa giao tiếp.
Sau khi nghiên cứu nhiều mô hình của cả Zalo AI lẫn các tập đoàn công nghệ lớn trên thế giới, đội ngũ nhận ra mỗi mô hình đều có những giới hạn riêng. Cuối cùng, các kỹ sư AI tại Zalo quyết định tự huấn luyện mô hình của mình dựa trên kinh nghiệm kế thừa trong tổ chức.
Hơn 30.000 giờ huấn luyện mô hình, nhiều lần thay đổi hướng tiếp cận và hàng loạt thử nghiệm đã diễn ra trước khi tính năng Dictation bắt đầu trở nên mượt mà hơn vào tháng 8/2023.
|
| Tính đến tháng 5/2026, đội ngũ Zalo AI đã dành ra hơn 100.000 giờ huấn luyện mô hình để 80,2 triệu người dùng Zalo sử dụng tính năng chuyển giọng nói thành văn bản với trải nghiệm tự nhiên và chính xác hơn. |
Tuy nhiên, ngay cả khi hệ thống đã vận hành ổn định, đội ngũ vẫn tiếp tục tối ưu từng chi tiết rất nhỏ. Có những bài toán mất hàng tháng chỉ để giải quyết một trải nghiệm mà người dùng gần như không để ý. Ví dụ như việc chuyển lời nói sang đúng định dạng số.
Một người dùng đọc “ngày mười tháng sáu”, nhưng thứ họ muốn nhìn thấy trên màn hình lại là “10/06”. Đây là chi tiết tưởng chừng như rất nhỏ, nhưng đó là khác biệt giữa một đoạn văn khó đọc và một tin nhắn đủ tự nhiên để người dùng bấm gửi ngay mà không cần sửa lại.
“Trong kỹ thuật, team gọi bài toán này là Inverse Text Normalization và Punctuation. Mặc dù những cải thiện này nghe có vẻ khá nhỏ, đây lại là điểm chạm quyết định trải nghiệm người dùng. Không ai muốn gửi một tin nhắn dài mà không có dấu câu hay ngày tháng bị viết chữ khá khó đọc”, anh Trần Văn Hòa cho biết.
Theo anh Hòa, để xử lý điều này, đội ngũ đã xây dựng các Language Model chuyên phân tích ngữ cảnh giao tiếp. AI được “dạy” cách dự đoán khi nào người dùng có xu hướng ngắt nhịp để thêm dấu phẩy, khi nào một cụm từ cần được viết hoa như danh từ riêng, hoặc khi nào một chuỗi từ cần được chuyển sang định dạng số.
|
Riêng việc tối ưu khả năng chuyển đổi số đã mất gần ba tháng phát triển liên tục. Những chi tiết ấy không quá nổi bật khi nhìn riêng lẻ. Nhưng khi kết hợp lại, chúng quyết định liệu người dùng có cảm thấy AI đủ “mượt” để sử dụng hàng ngày hay không.
Tính đến tháng 5/2025, sau hơn 100.000 giờ bền bỉ huấn luyện, 80,2 triệu người dùng Zalo đã có thể sử dụng tính năng chuyển giọng nói thành văn bản với trải nghiệm tự nhiên và chính xác hơn.
Cuộc chiến với từng mili giây
Nếu chất lượng mô hình là một nửa của bài toán, thì nửa còn lại nằm ở tốc độ phản hồi. Theo đội ngũ phát triển, một mô hình AI càng lớn thường càng dễ đạt chất lượng cao. Nhưng đi kèm với đó là thời gian xử lý lâu hơn và yêu cầu hạ tầng tính toán lớn hơn. Điều này đặc biệt khó khăn khi triển khai trên một nền tảng có hàng chục triệu người dùng đồng thời như Zalo.
“Team phải giải quyết cùng lúc hai bài toán gần như trái ngược nhau, đó là model phải đủ chất lượng nhưng cũng phải đủ gọn nhẹ để xử lý real-time”, anh Hoà chia sẻ.
Đó là lý do các kỹ sư phải liên tục thử nghiệm nhiều phương pháp tối ưu mới để giảm thời gian xử lý cho từng yêu cầu. Với tính năng Voice-to-text (chuyển đổi giọng nói thành văn bản), hệ thống hiện có thể xử lý đoạn audio dài 10 phút chỉ trong khoảng một giây.
Nhưng tối ưu AI không chỉ diễn ra ở phía mô hình. Đội ngũ sản phẩm đã dành rất nhiều thời gian cho những chi tiết nhỏ trong toàn bộ quá trình trải nghiệm.
“Với Dictation, ngay cả thao tác nhấn giữ cũng được tính toán kỹ: vùng chạm đặt ở đâu để dễ bấm hơn, kích thước bao nhiêu để tránh bấm nhầm, phản hồi hiển thị như thế nào để người dùng biết hệ thống đang lắng nghe”, anh Nguyễn Hữu Đức cho biết.
|
Bên cạnh việc tối ưu giao diện, đội ngũ cũng chú trọng đến tốc độ phản hồi của hệ thống. Với các tính năng AI thời gian thực, chỉ chậm hơn vài trăm mili giây cũng có thể khiến trải nghiệm trở nên kém liền mạch. “Người dùng có thể không nhìn thấy độ trễ ấy bằng mắt, nhưng họ sẽ cảm nhận được nó gần như ngay lập tức”, anh Nguyễn Hữu Đức cho biết.
Vì vậy, đội ngũ dành nhiều thời gian để tối ưu toàn bộ quy trình, từ thời điểm người dùng bắt đầu nói, hệ thống nhận diện nội dung, xử lý dữ liệu, trả kết quả đến lúc tin nhắn được gửi đi. Từng cải tiến riêng lẻ có thể rất nhỏ, nhưng khi kết hợp lại, chúng tạo nên cảm giác liền mạch và tự nhiên. Đó cũng là yếu tố quyết định người dùng có sẵn sàng sử dụng tính năng thường xuyên hay không.
Ở một góc độ nào đó, thành công lớn nhất của AI có thể là khi người dùng không còn nghĩ về nó như “AI”. Với anh Đức, khoảnh khắc khiến anh nhớ nhất trong hành trình làm sản phẩm của mình không phải khi nhìn thấy bảng số liệu tăng trưởng hay khi hệ thống đạt một chỉ số kỹ thuật mới. Đó là khi anh nhìn thấy vợ mình sử dụng tính năng Dictation trong lúc nấu ăn.
“Khi đang bận rộn với một công việc tay chân nào đó, việc gõ một tin nhắn rất bất tiện. Nhưng với Dictation, người dùng chỉ cần nói để soạn tin nhắn. Đó là một tình huống rất nhỏ, nhưng cho thấy AI có thể hỗ trợ giao tiếp trong đời sống hằng ngày như thế nào”, anh kể.
Còn với anh Hòa, những khoảnh khắc ý nghĩa nhất cũng đến từ các tình huống rất đời thường. “Thấy những cô chú lớn tuổi, người lao động phổ thông, người trước đây rất ngại nhắn tin vì mắt kém hoặc bận rộn, nay có thể thoải mái bấm nút thu âm và để AI của Zalo chuyển thành những dòng tin nhắn chuẩn xác gửi cho con cháu là khoảnh khắc ý nghĩa nhất. Đó là lúc tôi thấy rõ sản phẩm AI đã thực sự được bình dân hóa và đi vào đời sống một cách vô hình”, anh Hòa cho hay.
|
| Đội ngũ nhân sự phát triển các sản phẩm AI in-app trên Zalo bao gồm các thành viên đến từ nhóm Product Owner, AI Engineer, Software Engineer, QC, UX/UI Designer... |
Có lẽ, khoảnh khắc AI thật sự đi vào đời sống không nằm ở những bảng biểu tăng trưởng hay các thông số kỹ thuật phức tạp. Nó nằm ở lúc một người mẹ vẫn có thể nhắn tin khi đang nấu ăn, hay một người lớn tuổi thoải mái gửi tin nhắn thoại cho con cháu mà không còn ngại gõ chữ. Khi ấy, công nghệ không còn đứng phía trước người dùng. Nó lùi lại phía sau, đủ tự nhiên để trở thành một phần của giao tiếp hàng ngày.


