“Đáng lẽ chúng ta phải thắng trận đấu đó nếu nhìn vào chỉ số bàn thắng kỳ vọng (xG)” là chủ đề tranh luận phổ biến giữa những người hâm mộ bóng đá ngày nay. Mới chỉ vài năm trước, những số liệu như xG vẫn còn tương đối lạ lẫm với phần lớn khán giả.
Ngày nay, những số liệu tưởng chừng nâng cao này đã cực kỳ phổ biến, khi người hâm mộ có thể dễ dàng truy cập và theo dõi cập nhật từng phút chỉ bằng một nút bấm trên các ứng dụng.
Những thống kê quan trọng như chỉ số bàn thắng kỳ vọng (xG) được phổ biến nhờ công nghệ của các công ty dữ liệu bóng đá. Ảnh: The Athletic. |
Mặc dù vậy, số liệu mà NHM tiếp cận được mới chỉ là những phần cơ bản nhất của ngành khoa học dữ liệu thể thao. Tầng tiếp theo, vốn yêu cầu quyền truy cập trả phí vào các gói đặt trước từ một số công ty hàng đầu trong lĩnh vực, với dữ liệu dành riêng theo đơn đặt hàng của những CLB, mới là phần bí mật nhất.
Trung tâm phân tích mọi trận đấu bóng đá
Trong vòng một thập kỷ qua, StatsBomb, Opta và Deltatre là những công ty đi đầu trong việc cung cấp dữ liệu cho các tổ chức truyền thông, công ty quản lý cầu thủ hay cả CLB.
Vậy chính xác thì điều này được thực hiện như thế nào? Chỉ trong vòng chưa đầy một ngày, dữ liệu nâng cao cho vô số giải đấu đều được ghi lại và cập nhật chính xác trên hệ thống. Liệu những con số này có xuất hiện một cách kỳ diệu sau các trận đấu hay không?
Để tìm câu trả lời, The Athletic đã thực hiện phóng sự ở trung tâm dữ liệu của StatsBomb tại Cairo, Ai Cập.
Trung tâm dữ liệu của StatsBomb tại Cairo, Ai Cập. Ảnh: StatsBomb. |
Thoạt nghe, việc một công ty dữ liệu đặt trung tâm ở Ai Cập nghe có vẻ kỳ lạ. Mọi chuyện bắt đầu khi StatsBomb mua lại ArqamFC, trong tiếng Ả Rập có nghĩa là NumbersFC vào năm 2019.
Chính thương vụ này đã cho phép công ty phân tích dữ liệu này phát triển trở thành một trung tâm thu thập số liệu và phân tích chi tiết các trận đấu bóng đá. Theo cách nói của StatsBomb, ArqamFC chính là mảnh ghép lý tưởng nhất.
Bên cạnh đó, một lợi ích khác việc đặt trung tâm tại Ai Cập là múi giờ. Với cơ sở thu thập dữ liệu ở Ai Cập, StatsBomb có vị trí địa lý nơi mà các trận đấu diễn ra ở khu vực lớn như châu Âu, châu Á và châu Phi nằm trong các múi giờ hợp lý.
“Có sự đánh đổi giữa việc mở nhiều trung tâm thu thập dữ liệu trên khắp thế giới, nơi gần gũi với những cầu thủ tại đó, so với lựa chọn một nơi duy nhất nằm ở giữa mọi thứ là vấn đề kiểm soát chất lượng giữa các trung tâm không nhất quán. Đó cũng là lý do mà Ted Knutson (người sáng lập và CEO của StatsBomb) thúc đẩy việc xây dựng một trung tâm duy nhất để duy trì chất lượng dữ liệu”, Hesham Abozekry, đồng sáng lập và người đứng đầu hoạt động dữ liệu tại StatsBomb cho biết.
Tỉ mỉ thu thập từng hành động trên sân
Theo The Athletic, công nghệ AI như thị giác máy tính sẽ giúp người thu thập dữ liệu gắn thẻ các hành động như sút, chuyền và tắc bóng, đồng thời với vị trí của chúng trên sân.
“Tỷ lệ ngưỡng lỗi của trí tuệ nhân tạo đang được cải thiện. Khi kết hợp công nghệ với con người, bạn có thể đạt độ chính xác tới 99%. Đó là lý do mà thị giác máy tính được sử dụng trong các quy trình thu thập dữ liệu trong và sau trận đấu, bên cạnh dữ liệu đầu vào từ các thiết bị thu thập khác", Ali Elfakharany, đồng sáng lập và trưởng bộ phận sản phẩm dữ liệu tại StatsBomb cho biết.
Mỗi trận đấu, StatsBomb phân công đến 5 kỹ thuật viên để phân tích từng số liệu và hành động trên sân. Ảnh: The Athletic. |
Trong vòng 12 giờ sau khi trận đấu bắt đầu, khâu thu thập dữ liệu sau trận đấu của StatsBomb phải được hoàn tất nhằm cung cấp báo cáo chuyên sâu cho khách hàng.
Nếu khách hàng đó là một câu lạc bộ, BHL sẽ có báo cáo sau trận đấu và sẵn sàng cho cuộc họp tiếp theo, ngay cả khi đó là ngay ngày hôm sau.
Để làm được điều này, StatsBomb sẽ cử hai người thu thập dữ liệu làm việc trong một trận đấu với mỗi người phụ trách một đội.
Trong khi đó, một nhóm chuyên biệt khác sẽ đảm nhận nhiệm vụ nhập một cách tỉ mỉ những dữ liệu cơ bản bao gồm ngày và giờ thi đấu, đội hình ra sân, trọng tài và HLV hai đội.
Sau đó, một thuật toán máy tính sẽ xác thực dữ liệu được nhập bởi "người thu thập dữ liệu đội A' với dữ liệu của đồng nghiệp còn lại để kiểm tra xem các sự kiện có được liên kết hay không, ví dụ như trong một pha tranh chấp trên không sẽ có người thắng và người thua.
Nếu thiếu thông tin, kỹ thuật viên sẽ phải quay lại kiểm tra trình tự và điền vào hành động còn thiếu. Mỗi phiên bản thu thập dữ liệu sẽ được gắn cờ cho một thành viên trong nhóm nhằm đảm bảo chất lượng của StatsBomb và đánh giá xem kỹ thuật viên nào cần được đào tạo thêm hay không.
Công việc tiếp theo là làm việc với vị trí của từng hành động. Do chỉ có duy nhất một quả bóng lăn trên sân, hai kỹ thuật viên sẽ phải chia nhau trong 90 phút để đánh dấu tọa độ của hành động.
Đây cũng là lúc mà công nghệ có tên Freeze Frame (đóng băng khung hình) lên tiếng. Để có được những số liệu quan trọng như chỉ số bàn thắng kỳ vọng (xG) hay PPDA (số đường chuyền của đối phương/mỗi hành động phòng ngự) là một quy trình tỉ mỉ đòi hỏi sự phối hợp nhịp nhàng giữa con người và máy tính để thu thập lượng lớn dữ liệu thô.
Công nghệ có tên Freeze Frame (đóng băng khung hình) để phân tích kỹ lưỡng hành động của từng cầu thủ tham gia vào một cú sút. Ảnh: StatsBomb. |
Tháng 5/2018, StatsBomb bắt đầu cung cấp vị trí chính xác của các hậu vệ và thủ môn trong mỗi lần phát bóng bằng cách sử dụng quy trình mà họ gọi là Freeze Frame — một ảnh chụp nhanh tại thời điểm cú sút được thực hiện nhằm ghi lại vị trí của tất cả cầu thủ tham gia vào sự kiện.
Chính điều này là nền tảng cho phép StatsBomb ghi lại bối cảnh xung quanh mỗi cú sút và đưa vào chỉ số áp lực từ các hậu vệ và vị trí của thủ môn, từ đó tổng hợp nên chỉ số PPDA (số đường chuyền của đối phương/mỗi hành động phòng ngự).
Quá trình Freeze Frame bắt đầu với việc máy tính tự động tạo danh sách ảnh chụp nhanh cho toàn bộ hình ảnh được ghi lên hệ thống sau đường chuyền đầu tiên.
Sau đó, kỹ thuật viên sẽ gắn thẻ mọi cầu thủ trong khung hình trước khi chèn thông tin về hành động của họ trong mọi tình huống, bất kể đó là những tình huống triển khai bóng, một quả phạt trực tiếp, một quả phạt góc hay kỹ thuật dùng trong cú sút.
Đó có thể là một cú volley, cú sút nửa volley, đánh đầu chìm, lốp bóng hay thậm chí là một cú giật gót.
Toàn bộ những thông số trên sẽ tác động trực tiếp đến việc tính toán chỉ số xG (bàn thắng kỳ vọng) cho mỗi cú sút. Công việc cuối cùng của kỹ thuật viên dữ liệu sẽ là vị trí cuối cùng của cú sút. Nếu đó là một cú sút trúng đích, người thu thập dữ liệu phải chọn chính xác vị trí của quả bóng trong khung thành.
Ngoài ra, nhiều chi tiết khác cũng được xem xét. Tiêu biểu có thể kể đến như hướng cơ thể hoặc hành động của thủ môn khi một cú sút được thực hiện.
Mọi yếu tố đều được xét đến nhằm đưa ra số liệu khách quan nhất về tỷ lệ bàn thắng kỳ vọng của một cú sút. Ảnh: Soccerment. |
Việc người gác đền lựa chọn di chuyển về phía trước, bay người về một hướng đã định hoặc chỉ đơn giản là đứng yên cũng có thể là một tác nhân ảnh hưởng đến khả năng thành bàn của một cú sút.
Phần cuối cùng của Freeze Frame sẽ liên quan đến "độ cao tác động đến quả bóng". Cụ thể, một cú sút trống trải trong vòng cấm sẽ không giống như cú đánh đầu từ một tiền đạo cao 2 m.
Đây cũng chính là điểm cải tiến của chỉ số bàn thắng kỳ vọng khi đi vào gôn (xGOT), một phiên bản nâng cấp của xG.
Khối lượng công việc khổng lồ
Toàn bộ quá trình thu thập dữ liệu ngoại tuyến sẽ mất khoảng 5 giờ. Trung bình, mỗi ngày một kỹ thuật viên của StatsBomb sẽ làm việc với khoảng một trận rưỡi.
Ca làm việc của người này sẽ bắt đầu ngay tại nơi mà người trước dừng lại để đảm bảo có thể thu thập dữ liệu đầy đủ cho hơn 100 giải đấu trên toàn thế giới.
Làm việc với các CLB lớn luôn là một vinh dự danh giá mà bất kỳ công ty dữ liệu nào cũng tìm kiếm. Tuy nhiên, việc thu thập dữ liệu cho các giải đấu cấp thấp hơn cũng quan trọng không kém.
Elfakharany giải thích rằng mặc dù châu Âu vẫn là điểm đến cuối cùng, nhưng nhiều tài năng đầy triển vọng của bóng đá lại có mặt trên khắp thế giới.
Đó là lý do tại sao việc thu thập dữ liệu cho các giải đấu cấp thấp hơn là rất quan trọng, ngay cả khi góc máy quay tại những giải đấu này thường không tốt, bên cạnh việc những sân vận động cũng không được trang bị thiết bị công nghệ cao.
“Các đội bóng lớn bây giờ phải tìm đến nguồn dữ liệu cho những cầu thủ tiềm năng vì nếu một CLB nhỏ phát hiện ra tài năng này trước, họ sẽ phải trả giá rất cao để mua về”, Elfakharany nói.
Mitoma là một trong những cầu thủ có phong độ cao nhất ở châu Âu hiện tại. Dữ liệu về cầu thủ chạy cánh người Nhật đã được StatsBomb thu thập đầy đủ từ thời anh còn chơi ở Kawasaki Frontale. Ảnh: Reuters. |
StatsBomb đã làm việc với nhiều đội bóng tại Ngoại hạng Anh, giải MLS (Mỹ) hay Ligue 1, với vai trò là nhà cung cấp dữ liệu và công cụ để hỗ trợ những CLB trong suốt cả năm.
Thời gian gần đây, tệp khách hàng của công ty dữ liệu này tiếp tục được mở rộng đến những giải đấu thấp hơn. Tại League Two năm ngoái, giải đấu tương đương giải hạng 4 ở Anh, cả hai đội bóng đoạt vé thăng hạng, cùng với hai đội khác lọt vào vòng play-offs đều sử dụng dịch vụ của StatsBomb.
“Chúng tôi từng nghĩ những giải đấu như thế sẽ không bao giờ có ngân sách để sử dụng số liệu thống kê hoặc dữ liệu để điều hành đội bóng của họ. Thực tế hóa ra lại hoàn toàn khác bởi các đội bóng tại đây nhận ra rằng họ cần phân bổ lại nguồn ngân sách để tạo ra lợi thế cạnh tranh sẽ không bao giờ lỗi thời”, CEO Knutson nói.
StatsBomb cho biết đang tìm cách phát triển thêm các thước đo định hướng kỹ năng cầu thủ tốt hơn. Theo Elfakharany cho biết, những dữ liệu mới sẽ hướng tới các chỉ số ít định hướng đầu ra hơn và hướng nhiều hơn tới các chỉ số định hướng kỹ năng.
Cụ thể, thay vì chỉ đơn giản đánh giá một cầu thủ tấn công dựa những chỉ số như xG, xA hay xGOT, StatsBomb sẽ tìm cách đưa những yếu tố có sẵn trong bộ kỹ năng của một cầu thủ vào làm tham chiếu.
Nhân loại sẽ đối đầu với trí tuệ nhân tạo như thế nào
Trong cuốn sách "Framers - Nhân loại đối đầu nhân tạo", các tác giả nhận định con người vẫn có lợi thế trong thời đại công nghệ.