Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

Zalo giành giải nhất về nhận dạng tiếng nói tại hội thảo quốc tế

Team Speech (Zalo) giành giải nhất trong nội dung thi Nhận dạng tiếng nói với dữ liệu huấn luyện mở tại hội thảo quốc tế về Xử lý ngôn ngữ và tiếng nói tiếng Việt năm 2020.

Hội thảo quốc tế Xử lý ngôn ngữ và tiếng nói tiếng Việt năm 2020 (VLSP - Vietnamese Language and Speech Processing) do Câu lạc bộ VLSP - chi hội của Hội Tin học Việt Nam tổ chức. Sự kiện thu hút hơn 100 đại biểu tham gia tại chỗ và 15 đại biểu tham gia trực tuyến từ TP.HCM và một số nước châu Âu (Đức, Thụy Điển, Hungary), đến từ các nhóm nghiên cứu về xử lý ngôn ngữ tự nhiên cũng như ngôn ngữ học cho tiếng Việt.

Nhan dang giong noi anh 1

Zalo nhận giải nhất trong nội dung thi Nhận dạng tiếng nói với dữ liệu huấn luyện mở tại hội thảo quốc tế về Xử lý ngôn ngữ và tiếng nói tiếng Việt năm 2020.

VLSP 2020 được phát động từ đầu tháng 7, có các hạng mục: Tổng hợp tiếng nói; Nhận dạng tiếng nói với dữ liệu huấn luyện hạn chế; Nhận dạng tiếng nói với dữ liệu huấn luyện mở; Phân tích phụ thuộc; Trích rút quan hệ thực thể; Dịch tự động Anh - Việt; Xác định tính tin cậy của tin tức trên mạng xã hội, thu hút hơn 150 đội đăng ký.

Sau 3 tháng chuẩn bị, 41 đội đã đi đến vòng trong cùng. Trong đó, team Speech của Zalo đã giành hạng nhất trong nội dung thi Nhận dạng tiếng nói với dữ liệu huấn luyện.

Về đề thi Nhận dạng tiếng nói (từ âm thanh chuyển thành văn bản), ban tổ chức cho phép các đội sử dụng dữ liệu riêng của mỗi đội để huấn luyện mô hình nhằm đạt được kết quả chính xác nhất trong việc nhận dạng tiếng nói. Sự đa dạng trong giọng nói và vùng miền là thách thức lớn đối với bài toán này. Ngoài ra, các yếu tố như âm thanh nhiễu, lẫn tiếng động khác cũng gây rất nhiều thử thách cho các mô hình AI nhận dạng tiếng nói.

Để giải quyết bài toán, đội ngũ AI của Zalo đã tạo ra hơn 2.000 giờ dữ liệu với đa dạng về giọng nói, vùng miền cũng như âm thanh nhiễu để giúp mô hình AI có thể "nghe" được chính xác nội dung. Với sự đầu tư nghiên cứu nghiêm túc về xử lý tiếng nói trong hơn 2 năm qua, đội ngũ kỹ sư và nhà nghiên cứu nhiều kinh nghiệm của Zalo đã tạo ra mô hình AI cho kết quả chính xác nhất trên tập kiểm tra âm thanh dài 6 tiếng của ban tổ chức.

Mô hình nhận dạng tiếng nói của Zalo hiện được đưa vào ứng dụng thực tế trên trợ lý ảo Kiki vừa ra mắt ngày 20/12.

Giang Trân Nguyên

Bình luận

Bạn có thể quan tâm