Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

Bài toán hạt đỗ của Tấm và nghệ thuật tư duy dựa trên dữ liệu

Dữ liệu đang trở thành nguồn năng lượng mới cho nền kinh tế, nhưng để biến dữ liệu trở thành công cụ hữu ích lại là nghệ thuật không dễ nắm bắt.

khoa hoc du lieu anh 1

Cuốn sách Nghệ thuật tư duy dựa trên dữ liệu của tác giả Hoàng Hữu Đà. Ảnh: Việt Linh.

Nghệ thuật tư duy dựa trên dữ liệu của tác giả Hoàng Hữu Đà là cuốn sách của tác giả Việt Nam về kỹ năng tư duy dữ liệu cần thiết trong thời đại bùng nổ thông tin hiện nay.

Sách gồm 15 chương, được viết giống một cuốn truyện, dễ đọc, lý thú và truyền cảm hứng. Tư duy dữ liệu được hình thành một cách tự nhiên và có hệ thống thông qua những câu chuyện trải dài từ giới kinh doanh, khoa học đến showbiz, từ thời xa xưa đến dòng chảy tin tức hiện đại.

Ta sẽ bắt gặp câu chuyện về một nhân viên ngân hàng thấy bất mãn vì mức thu nhập của mình không tương xứng với con số được đưa ra trên báo chí, hay về cách mà Đen Vâu tiên tri đề văn thông qua các bài hát, hoặc tính toán xem Sơn Tùng M-TP có bao nhiêu fan.

Những ví dụ khác liên quan đến sai lầm thường gặp của những người đi xe buýt, tác động của việc nghe nhạc cổ điển đến trí thông minh…

Bài toán hóc búa về hạt đỗ trong "Tấm Cám"

Nghệ thuật tư duy dựa trên dữ liệu bắt đầu với Luật số lớn, đó là một trong những quy luật quan trọng nhất trong thống kê học. Luật số lớn sẽ giúp trả lời câu hỏi: Tại sao những phân tích thống kê và việc nhìn vào dữ liệu có thể tạo ra lợi ích? Định luật này cũng sẽ giúp giải thích tại sao cờ bạc chỉ khiến chúng ta nghèo đi và tại sao các công ty bảo hiểm có thể thu được lợi nhuận.

Chương 2 đến chương 4 nói về các thiên lệch thường gặp trong thống kê gồm thiên lệch sống sót, thiên lệch chọn mẫu và thiên lệch biết tuốt, khi mà dữ liệu chúng ta quan sát được không mang tính đại diện cho vấn đề đang xem xét.

Điều này có thể gây ra những sai lệch trong kết luận và ảnh hưởng đến quá trình ra quyết định. Chẳng hạn, một nghiên cứu trước đây cho thấy những chú mèo không may bị rơi từ tầng cao hơn có khả năng tử vong thấp hơn so với mèo rơi tầng thấp.

Từ chương 5 đến chương 7 sẽ giới thiệu về các con số thống kê mô tả thường được sử dụng trong việc tổng hợp dữ liệu. Đó là những con số hữu ích trong việc đưa ra một cái nhìn tổng quan về vấn đề, nhưng nếu không được diễn giải đúng cách, chúng cũng có thể gây ra những hiểu lầm không mong muốn.

Chương 8 và chương 9 nói về hai nghịch lý thú vị trong thống kê là nghịch lý điều tra (hay nghịch lý thời gian chờ) và nghịch lý Simpson. Hai nghịch lý này thể hiện rằng kết luận của chúng ta có thể bị thay đổi, thậm chí là đảo ngược hoàn toàn, khi xem xét một vấn đề trên hai góc nhìn khác nhau. Một số ví dụ về đại dịch Covid-19 được minh họa trong chương 9 về nghịch lý Simpson.

Tiếp theo, từ chương 10 đến chương 12, khái niệm về thống kê suy diễn sẽ được giới thiệu. Trong khi các phân tích thống kê mô tả giúp đưa ra những thông tin hữu ích về bộ dữ liệu, thì thống kê suy diễn giúp trả lời câu hỏi: Làm thế nào để đưa ra được kết luận về tổng thể nghiên cứu dựa trên bộ mẫu dữ liệu được lựa chọn? Phương pháp thực hiện thống kê suy diễn sẽ được minh họa thông qua bài toán hạt đỗ trong một biến thể của câu chuyện Tấm Cám.

Chương 13 nói về cách để phân tích mối quan hệ giữa các hiện tượng với nhau. Chẳng hạn, có phải ăn kem là nguyên nhân của các vụ đuối nước? Hay, nghe nhạc cổ điển có thực sự làm tăng trí thông minh của trẻ em hay không? Làm thế nào để chứng minh hút thuốc lá gây ra ung thư phổi? Từ việc phân tích mối quan hệ giữa các biến số, dữ liệu quá khứ có thể được sử dụng để dự báo cho tương lai.

Chương 14 sẽ giới thiệu về một số phương pháp để xây dựng các mô hình dự báo, trong đó chúng ta sẽ tìm hiểu cách để dự báo khả năng sống sót của một người trên chuyến tàu Titanic. Cuối cùng, chương 15 sẽ mở ra một cái nhìn mới và giúp đặt ra những câu hỏi rộng hơn, để người đọc có thể tìm hiểu thêm sau cuốn sách này.

khoa hoc du lieu anh 2

Hình ảnh trong phim Tấm Cám chuyện chưa kể.

Thống kê có mặt ở khắp mọi nơi

Nghệ thuật tư duy dựa trên dữ liệu là một hành trình thú vị và hữu ích để khám phá về những con số và phân tích thống kê. Những con số và tính toán thống kê tưởng chừng rất khô khan, nhưng chúng có thể cho chúng ta những cái nhìn mới về thế giới và giúp cuộc sống của chúng ta trở nên dễ dàng hơn.

Netflix sử dụng những thuật toán phân tích dữ liệu để gợi ý các bộ phim cho người xem. Google đánh dấu những email có khả năng cao là spam và giúp người dùng tránh khỏi những phiền toái.

Thống kê được ứng dụng ở nhiều lĩnh vực trong cuộc sống, không chỉ về các bài toán kinh tế mà thậm chí ở một lĩnh vực ít ai nghĩ tới như thể thao.

Tác giả Hoàng Hữu Đà đưa ra ví dụ về ích lợi của thống kê bằng bộ phim điện ảnh Moneyball nổi tiếng do Brad Pitt thủ vai. Đây là một câu chuyện có thật về Billy Beane, giám đốc điều hành của đội bóng chày Oakland A đã giúp đội vượt qua khủng hoảng nhờ phân tích thống kê.

Nhờ vào việc phân tích dữ liệu điểm mạnh điểm yếu của các cầu thủ, đội bóng tìm ra những cầu thủ có tỉ lệ chiến thắng cao nhưng lại được định giá thấp. Nhờ đó, bằng một mức giá hợp lí, Oakland A đã vươn lên từ một đội bét bảng thành một đối thủ đáng gờm. Từ những con số khô khan nhưng có thể mang lại những trận bóng rực lửa và tràn đầy đam mê.

Nhà kinh tế học người Anh Ronald Coase, Nobel Kinh tế 1991, đã khẳng định: "Nếu bạn tra tấn dữ liệu đủ lâu, chúng sẽ thú nhận mọi thứ". Bằng cách gợi mở sự yêu thích về con số, cuốn sách Nghệ thuật tư duy dựa trên dữ liệu giúp người đọc sẵn sàng để giải quyết những bộ dữ liệu trong công việc và cuộc sống hàng ngày của mình.

Giải thưởng Sách Quốc gia do Ban Tuyên giáo Trung ương, Bộ Thông tin và Truyền thông, Hội Xuất bản Việt Nam tổ chức. Lễ trao Giải thưởng Sách Quốc gia lần thứ sáu (2023) tổ chức ngày 29/12/2023 tại Nhà hát Lớn (Hà Nội). Đơn vị tài trợ Kim cương: Ngân hàng VIB, Đơn vị tài trợ bạc: THACO.

Thiên Ái

Bạn có thể quan tâm