Zalo xem AI là làn sóng công nghệ mới, tất yếu và phải bắt kịp để phát triển. Vì thế, các dự án AI tại Zalo đều được đầu tư nghiêm túc. Điều này được chứng minh ở cuộc thi Zalo AI Challenge - sân chơi góp phần thu hẹp khoảng cách giữa AI với đời sống thực tiễn. Để khích lệ tinh thần các đội thi, ngoài tổng giá trị giải thưởng lên đến 300 triệu đồng, ban tổ chức Zalo AI Challenge 2021 còn nâng từ 120.000 USD lên 240.000 AWS Credits.
Năm nay, cuộc thi trở lại với 3 đề bài “5K compliance”, “Hum to song” và “Legal text retrieval”, dựa trên 3 loại dữ liệu mà Zalo tập trung xử lý là hình ảnh, âm thanh và ký tự tiếng Việt. Mỗi đề có thước đo riêng, “5K Compliance” đo bằng chỉ số F1, “Hum to song” đo bằng MRR và “Legal Text Retrieval” sử dụng số đo F2.
Tập trung định nghĩa và chú trọng tiền xử lý
Gắn bó với cuộc thi Zalo AI Challenge từ những ngày đầu, anh Chương Nguyễn cho biết định hướng của cuộc thi là không quá hàn lâm và phải gần gũi với đời sống văn hóa người Việt. Theo dõi Leaderboard, anh nhận định các đội thi tham gia cuộc thi năm nay có chất lượng tốt, trong 3-4 ngày đầu cuộc thi đã nhận những kết quả đáng nể.
Anh Chương Nguyễn chia sẻ bí quyết đạt hạng cao với đề "5K Compliance” và “Hum to song”. |
Là “cha đẻ” của 2 đề bài là “5K Compliance” và “Hum to song”, anh Chương cho rằng bài toán 5K sẽ phù hợp với xã hội Việt Nam hiện tại khi dịch bệnh diễn biến phức tạp. Kết quả bài toán giúp các nhà quản lý, công ty, nơi tổ chức sự kiện... giảm thiểu rủi ro lây bệnh khi tổ chức các hoạt động đông người.
Trong khi đó, “Hum to Song” là đề thi thực dụng, vui vẻ và gần gũi trong đời sống hàng ngày. Mọi người có thể ngân nga theo nhịp điệu để tìm được ca khúc yêu thích của mình mà không cần nhớ tên hay thuộc lời bài hát.
Theo đánh giá của anh Chương, mỗi đề có điểm khó, điểm thú vị và hướng giải quyết riêng. “Đề ‘5K Compliance’ khó ở việc định nghĩa yếu tố khoảng cách. Với các góc máy, tiêu cự hay hoàn cảnh chụp khác nhau, khoảng cách 2 m nhìn trên ảnh sẽ khác nhau. Đề bài có những trường dữ liệu bị thiếu nên đó là thử thách và cũng là cơ hội cho các đội biết cách xử lý tình huống này. Kết quả bài toán sẽ khả quan khi ứng dụng vào các hệ thống quản lý tòa nhà, nơi công cộng...”, anh Chương phân tích.Cũng theo anh Chương, bài toán “Hum to song” có 2 tín hiệu là “hum” và bài hát hơi xa nhau về độ liên quan. Vì thế, các giải pháp làm tốt sẽ là các giải pháp tiền xử lý để đưa 2 tín hiệu gần nhau hơn trước khi tiến hành huấn luyện mô hình. Kết quả bài toán này làm tiền đề cho các sản phẩm sau này tốt hơn.
Kết hợp linh hoạt các kỹ thuật
Cũng là người gắn bó với cuộc thi từ những ngày đầu, anh Trường Sơn cho biết ban ra đề luôn chọn đề bài gắn với thực tiễn vì mục đích cuối cùng của cuộc thi là mang AI phục vụ cuộc sống người Việt, cung cấp các bộ dữ liệu chuẩn để bất cứ ai muốn nghiên cứu về AI đều có dữ liệu để thực nghiệm.
Anh Trường Sơn chia sẻ bí quyết đạt thứ hạng cao với đề “Legal text retrieval”. |
Những năm gần đây, anh Trường Sơn nghiên cứu các bài toán AI liên quan pháp luật. Anh nhận thấy nhu cầu tìm kiếm văn bản pháp luật thường trực trong cuộc sống người Việt. Đây là lý do đề bài “Legal text retrieval” ra đời, nhằm xây dựng hệ thống giúp người dân tìm kiếm văn bản pháp luật dễ dàng hơn. Các chuyên gia về pháp lý cũng rút ngắn thời gian tìm kiếm tài liệu.
“Đề bài ‘Legal text retrieval’ vừa dễ vừa khó. Dễ vì đôi khi các câu hỏi pháp luật sử dụng những thuật ngữ chuyên ngành nên dễ tìm thấy điều luật liên quan. Tuy nhiên, nhiều câu hỏi cần sự suy luận tổng hợp nên khó tìm được bằng phương pháp so sánh từ khoá thông thường”, anh Sơn cho biết.
Bí quyết chung cho 3 đề bài Zalo AI Challenge 2021. |
Vì thế với đề bài này, các đội thi phải kết hợp linh hoạt các kỹ thuật khác nhau, ngoài việc so khớp từ khoá còn phải khớp về ngữ nghĩa và cần vận dụng các kỹ thuật tiên tiến trong xử lý ngôn ngữ tự nhiên, khai thác văn bản mới đạt hiệu quả cao.
Bình luận