Zalo AI Challenge hiện là cuộc thi về Trí tuệ nhân tạo (AI) nhận được sự quan tâm lớn của các kỹ sư AI. Đề bài của cuộc thi là xây dựng một giải pháp AI và tiến hành “dạy” cho bộ não này vượt qua một trong ba thách thức quan trọng là phân loại giọng nói, giai điệu và địa điểm. Đây là cuộc thi đầu tiên ở Việt Nam áp dụng cấu trúc đề thi khá giống với Kaggle - cộng đồng thực hành về khoa học dữ liệu nổi tiếng trên thế giới.
Theo trang web cuộc thi, giải thưởng của cuộc thi tương đối lớn lên đến 30 triệu VND với đội thắng cuộc và tổng giải thưởng đến 150 triệu đồng.
Tổng giải thưởng cuộc thi là 150 triệu đồng. |
Tuy nhiên, cộng đồng AI dường như không quan tâm nhiều đến số tiền này mà lại rạo rực vì bộ dữ liệu đã “bản địa hóa” các đội chơi nhận được khi tham gia cuộc thi.
Một thành viên nhóm Vietnam Data Scientists, chuyên gia trên Kaggle, đã bình luận: “Giải thưởng cũng tương đối bự nhưng quan trọng hơn là việc chia sẻ khối data chất lượng từ Zalo sẽ giúp các bạn yêu thích data có vô vàn ý tưởng để thử sức và thậm chí khởi nghiệp”.
Bộ dữ liệu bao gồm hơn 100.000 bức ảnh các địa danh Việt Nam, 30.000 đoạn thu âm của người Việt, 7.000 đoạn nhạc Việt đã được chuẩn hóa để phục vụ việc nghiên cứu AI ở Việt Nam.
Cộng đồng AI Việt phản ứng tích cực vì lượng dữ liệu được cung cấp. |
Hiện tại đa phần các kỹ sư Việt khi muốn xây dựng mô hình AI đều phải bỏ một số tiền lớn để mua các dữ liệu chuẩn đã được phân loại chính xác để về “dạy” cho AI. Tuy nhiên các nguồn dữ liệu lớn mang "chất Việt Nam" khá khan hiếm. Đây là nguyên nhân khiến việc nghiên cứu AI ở Việt Nam gặp rất nhiều khó khăn.
Vì vậy, thông qua cuộc thi, các kỹ sư không chỉ có thể tự so sánh, đánh giá chất lượng thuật toán của mình với mặt bằng chung mà còn nhận được những dữ liệu có giá trị sử dụng lâu dài trong quá trình xây dựng các sản phẩm của AI Việt.
Gần 1.000 người tham gia xây dựng đề bài qua chatbot
Không giống với các cuộc thi khác, công việc thách thức nhất của cuộc thi AI là chuẩn bị cho phần đề thi. Với mục đích mở ra những hướng đi mới trong nghiên cứu về phát triển AI, BTC đã dành rất nhiều công sức và làm việc trong 4 tháng liên tục để hoàn thiện đề bài.
Ngoài việc huy động những bộ não hàng đầu trong việc đưa ra đề bài, phân loại, chuẩn hóa dữ liệu, Zalo còn phải kêu gọi nguồn lực lớn từ cộng đồng người dùng.
Các kĩ sư AI đã tạo một chatbot để người dùng có thể chủ động đóng góp các đoạn ghi âm ngắn, tạo dữ liệu cho đề bài. Chatbot của cuộc thi đã thu hút hơn 1.000 người dùng tham gia quá trình xây dựng dữ liệu. Cuối cùng, hơn 30 nghìn mẫu thử nghiệm giọng nói đã được thu thập để cung cấp cho các đội chơi.
Theo đánh giá của đội ngũ tổ chức cuộc thi, thành công lớn nhất đến hiện tại chính là thu hút được sự quan tâm của cộng đồng – những người không liên quan đến ngành AI hoặc lĩnh vực công nghệ - cùng góp sức vì sự phát triển AI ở Việt Nam.
Đối với bài toán nhận diện địa điểm, nếu để người dùng đóng góp, rất khó để có được các bức ảnh đáp ứng tiêu chí trong đề bài, chính vì vậy Zalo đã phải xây dựng hệ thống tìm kiếm và tổng hợp các bức ảnh về các địa danh này từ nhiều nguồn công khai trên mạng Internet, sau đó đội ngũ kĩ sư cùng với 20 công tác viên tiến hành kiểm tra, phân loại từng bức ảnh để đảm bảo nguồn dữ liệu chất lượng.
“Với nguồn dữ liệu này, cộng đồng AI Việt sẽ có nhiều ý tưởng và giải pháp hữu ích để phát triển các thuật toán ứng dụng vào thực tế cho người dùng tại Việt Nam” - anh Bạch Phạm - một thí sinh đang tham gia cuộc thi chia sẻ.