Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

TL;DR

Những người thầm lặng đứng sau thành công của các kỹ sư AI

5 năm hỗ trợ hàng chục nghìn người Việt nghiên cứu và làm AI thực tiễn, tạo điều kiện cho các tài năng tỏa sáng, ít ai biết phía sau Zalo AI Challenge là những câu chuyện đặc biệt.

Zalo anh 1

Sau 10 ngày khởi động, cuộc thi Zalo AI Challenge 2022 thu hút hơn 1.300 đội tham gia, là người Việt từ khắp nơi trên thế giới. Con số này cho thấy sự đầu tư nghiêm túc cũng như sức hút ngày càng lớn của cuộc thi với cộng đồng AI.

Sau tuần đầu tranh tài kịch tính, cuộc thi ghi nhận các đội xuất sắc tạm dẫn đầu leaderboard với điểm số ấn tượng, hứa hẹn một mùa giải thúc đẩy nhiều nhân tố nổi bật trong lĩnh vực có cơ hội tiếp xúc với môi trường thực tiễn. Kết quả này có được một phần nhờ công sức của những người thầm lặng đứng sau cuộc thi, không ngại khó, làm việc ngày đêm. Ban tổ chức đã dành 4 tháng ròng rã để tạo ra bộ dữ liệu có tính thực tế và thử thách cao với 2.000 video của hơn 1.000 tình nguyện viên, 20.000 cặp câu hỏi - trả lời, 2.000 đoạn nhạc từ 800 bài hát.

“Thà chọn cách làm khó, còn hơn tạo ra dữ liệu không giá trị”

Ngay từ những ngày đầu tháng 7, 20 thành viên trong đội ngũ chuyên gia của Zalo AI đã miệt mài với các khâu tổ chức Zalo AI Challenge 2022. Các nguồn dữ liệu thực tế và giá trị đòi hỏi quá trình chuẩn bị công phu và đầu tư nghiêm túc cả về thời gian, trí tuệ.

Zalo anh 2

Ba đề thi của Zalo AI Challenge 2022.

Nhớ lại những ngày thức trắng đêm chuẩn bị dữ liệu cho đề thi Liveness Detection (xác định khuôn mặt người trong video là thật hay giả mạo), anh Trần Văn Hòa - Lead AI Engineer tại Zalo AI - nở nụ cười: “Thời gian đó thật sự là thử thách, tôi và cả team vừa phải hoàn thành công việc trong ngày, vừa phải chuẩn bị bộ dữ liệu khá lớn và khó nuốt. Tuy thức đêm mệt mỏi nhưng anh em đều tâm huyết, thà chọn cách làm khó để có dữ liệu thiết thực, còn hơn là làm dữ liệu không có giá trị đóng góp gì cho cộng đồng”.

Nhóm có nhiều lựa chọn xây dựng dữ liệu ít tốn thời gian và công sức, nhưng mọi người đều thống nhất lấy mẫu từ người thật để đảm bảo cung cấp cho các đội thi chất liệu thực tế, từ đó có thể tạo ra các giải pháp AI gần gũi cuộc sống. Anh Hòa cùng 7 thành viên khác của nhóm liên hệ khắp nơi để tìm hỗ trợ.

Có những lúc cả đội tìm người trong vô vọng, hơn một tuần nhưng chỉ có vài người tham gia. Anh chia sẻ mọi người thường ngại quay video, nên phải dành nhiều thời gian và công sức mới có thể thuyết phục được. “Làm dữ liệu mất nhiều thời gian một phần là do cả nhóm phải ra sức giải thích nhiều lần, cho đến khi mọi người hiểu ý nghĩa đóng góp cho cộng đồng AI mới đồng ý tham gia”, anh nói.

Zalo anh 3

Nhóm kỹ sư AI tại Zalo nhiều đêm thức trắng để xây dựng bộ dữ liệu huấn luyện cho các đề thi.

Ròng rã 4 tháng, nhóm anh Hòa dùng mọi cách để thuyết phục được hơn 1.000 tình nguyện viên đóng góp dữ liệu. Để thêm độ thử thách, nhóm yêu cầu tình nguyện viên đeo khẩu trang, thực hiện một vài chuyển động đầu trong lúc ghi hình đoạn phim có độ dài 10 giây. Sau đó, ban tổ chức chọn lọc được hơn 2.000 video hoàn chỉnh, bao gồm cả dữ liệu thật và dữ liệu giả lập. Để đa dạng và giống với thực tế nhất, các thành viên trong nhóm đã dùng hơn 20 loại thiết bị tạo ra những video quay khuôn mặt giả với chất lượng khác nhau.

Một thành viên phụ trách bộ dữ liệu cho đề Liveness Detection cho biết, quá trình thực hiện gặp nhiều trở ngại nhưng thành quả xứng đáng, cả nhóm rất vui khi cuộc thi có hơn 1.000 đội dự thi chỉ sau vài ngày mở cổng đăng ký, giúp hàng nghìn sinh viên, kỹ sư AI có môi trường cọ xát thực tế.

Vận dụng nhiều kỹ thuật để tăng độ thách thức

Khác với 2 đề bài còn lại, E2E Question Answering (tìm câu trả lời chính xác nhất từ Wikipedia cho một câu hỏi) có yêu cầu chuẩn bị dữ liệu “dễ thở” hơn, nhưng cũng tốn công sức. Ông Nguyễn Trường Sơn - Research Science Manager tại Zalo AI, thành viên ban tổ chức - cùng 6 cộng sự đã vất vả trong 2 tháng liền.

Để xây dựng bộ dữ liệu huấn luyện, ban tổ chức tỉ mỉ tổng hợp câu hỏi từ nhiều nguồn để đảm bảo tính tự nhiên, đại diện cho nhiều người và quan trọng là sát với nhu cầu thực tế. Kỹ thuật tổng hợp tương đối nhanh, nhưng ông Sơn đặt ra yêu cầu cho nhóm là phải chọn lọc những dữ liệu thích hợp với các nhu cầu thiết thực, có tính ứng dụng cao.

Sau khi thu thập hàng chục nghìn câu hỏi, nhiều lần kiểm tra, điều chỉnh và bổ sung, nhóm ông Sơn chọn được 20.000 cặp câu hỏi - trả lời cho đề bài. Chia sẻ lý do dành nhiều thời gian xây dựng dữ liệu, ông Nguyễn Trường Sơn bộc bạch: “Câu hỏi không được dễ quá, không được nhập nhằng và đặc biệt là chỉ có một câu trả lời, tránh gây tranh cãi. Do đó ngoài các công cụ kỹ thuật, các kỹ sư phải kết hợp với phương pháp truyền thống để phân loại dữ liệu, đảm bảo đúng như yêu cầu đề ra”.

Là người đã 4 năm gắn bó với cuộc thi Zalo AI Challenge, khi nhìn lại thành quả sau các năm tổ chức, ông Sơn bày tỏ: “Dù quá trình làm đề hay chuẩn bị ở các khâu đôi lúc sẽ khá khó khăn và mất nhiều thời gian, nhưng cuộc thi đã giúp nhiều kỹ sư tìm được chỗ đứng trong lĩnh vực AI, điển hình là quán quân các năm đều có cơ hội công việc, nghiên cứu tốt. Đó mới chính là niềm vui của ban tổ chức”.

Zalo anh 4

Zalo AI Challenge mở ra cơ hội cọ xát thực tế nhiều hơn cho các sinh viên, kỹ sư trẻ.

Với bảng thi đấu Lyric Alignment (tìm giải pháp cân chỉnh trùng khớp lời bài hát và nhạc), các chuyên gia chú trọng sự đa dạng của dữ liệu thuộc nhiều thể loại như pop, ballad, rap, remix...

Sau đó, để thêm phần thử thách cho thí sinh, các bài hát này được cắt nhỏ thành từng phần với độ dài khác nhau, bao gồm một số mẫu có lời và số còn lại không lời. Anh Nguyễn Phú Hiển - Senior AI Engineer tại Zalo AI, cũng là một trong những kỹ sư chuẩn bị dữ liệu cho đề bài Lyric Alignment - cho biết: “Dữ liệu khá thách thức thí sinh bởi có những đoạn vài chục giây, một phút, nhưng cũng có đoạn chỉ vài giây. Thậm chí, ban tổ chức còn tổng hợp nhiều loại nhạc, trộn lẫn giữa cả nhạc cổ điển và hiện đại, mỗi đoạn lại có nhịp điệu, tốc độ hoàn toàn khác nhau để tăng độ khó”.

Trước đây, Hiển từng là thí sinh tham gia Zalo AI Challenge nên anh khá hiểu những thiếu sót về kinh nghiệm của các đội. Kể về quá trình góp công vào tổ chức cuộc thi năm nay, Hiển tâm sự cả nhóm của anh gồm 6 người đã xây dựng và thử nghiệm trước các dữ liệu trên nhiều mô hình khác nhau để kiểm tra độ khó. Quá trình này được lặp đi lặp lại nhiều lần trong suốt 3 tháng mới có thể chốt tập dữ liệu cuối cùng. “Hy vọng có thể xây dựng bộ dữ liệu đủ thách thức, giúp các đội rèn luyện khả năng làm thực tiễn”, anh Hiển chia sẻ.

Zalo anh 5

Từ cựu thí sinh Zalo AI Challenge, anh Nguyễn Phú Hiển (phải) hiện nằm trong nhóm làm bộ dữ liệu huấn luyện cho cuộc thi.

Không chỉ là nơi cho các thí sinh học hỏi kinh nghiệm, trau dồi kiến thức, Zalo AI Challenge cũng tạo cơ hội giúp ban tổ chức có thêm nhiều trải nghiệm mới trong lĩnh vực AI, truyền cảm hứng cho cộng đồng. Với những nỗ lực không ngừng, Zalo AI Challenge là cuộc thi về AI uy tín và đáng mong đợi hàng năm. Đồng thời, cuộc thi được giới chuyên môn đánh giá có khả năng thúc đẩy nghiên cứu AI trên diện rộng, là bệ phóng để các tài năng trẻ bước vào môi trường làm AI chuyên nghiệp.

Zalo AI Challenge 2022 nâng tổng giá trị giải thưởng lên 15.000 USD. Trong đó, 3 đội quán quân tương ứng với 3 bảng thi đấu sẽ nhận được phần thưởng 3.500 USD/ giải, 3 đội á quân sẽ giành về 1.500 USD/ giải. Cuộc thi chính thức mở cổng đăng ký vào ngày 4/11 và kết thúc vào 6/12. Độc giả có thể đăng ký tham gia cuộc thi tại đây.

Giang Tiểu San

Bạn có thể quan tâm