Andrew Ng được mệnh danh là thiên tài học sâu (Deep Learning) trong phát triển trí thông minh nhân tạo (AI). Bên cạnh thành công với vai trò đồng sáng lập Google Brain, Coursera và Learning AI, ông từng dẫn dắt Bộ phận Nghiên cứu AI tại Tập đoàn Baidu. Ông tiên phong phổ cập kiến thức về AI, với khóa Máy học trên Coursera đạt 4,5 triệu người đăng ký. Ông cũng là giáo sư kiêm nhiệm và nguyên Giám đốc Phòng nghiên cứu AI tại Đại học Stanford - trường đại học hàng đầu thế giới về AI tại Mỹ.
Dữ liệu và xử lý dữ liệu vốn là đề tài nóng trong việc xây dựng, phát triển AI. Để dạy cho AI thông minh hơn, người nghiên cứu cần thực hiện hai bước: Chuẩn bị dữ liệu dạy AI và xây dựng mô hình, thuật toán để AI áp dụng vào học dữ liệu. Lý giải đơn giản hơn, nếu coi dữ liệu tương đương với cuốn sách, thì mô hình, thuật toán là cách đọc sách sao cho hiệu quả.
Trong nỗ lực phát triển AI, các nhà khoa học chia thành hai hướng. Một bên, họ tập trung xây dựng mô hình thuật toán dựa trên tập dữ liệu cố định và cải thiện thuật toán cho đến khi ra kết quả. Cách làm này đưa ra được mô hình tối ưu trong từng trường hợp, nhưng khó đảm bảo được chất lượng, vì sử dụng nguồn dữ liệu thô có lẫn dữ liệu chất lượng thấp hoặc không phù hợp. Điều đó gây lãng phí tài nguyên khi phải thử nhiều lần, ra nhiều biến thể kết quả.
Trong chương trình "Data-Centric go back to basics", chuyên gia đầu ngành Andrew Ng, Huyền Chip - giảng viên kiêm nhiệm tại Đại học Stanford (Mỹ), và Lynn He - chuyên gia nghiên cứu tại DeepLearning.ai sẽ chia sẻ cùng độc giả Việt Nam về câu chuyện dữ liệu đặc biệt.
Andrew Ng là Đồng sáng lập Google Brain, Coursera và Learning AI. |
Theo chia sẻ của ông Andrew, một khảo sát gần đây cho thấy 99% nhà khoa học máy tính trả lời họ tập trung xây dựng mô hình, thuật toán và chỉ 1% ưu tiên chất lượng của dữ liệu. Bài toán AI càng khó hơn khi lượng dữ liệu đầu vào quá lớn trong thời đại bùng nổ về dữ liệu lớn (Big Data). Ông Andrew Ng cũng chỉ ra các kết quả sai có thể lặp đi lặp lại đến 92% nếu sử dụng cách làm tập trung vào thuật toán, và hoàn toàn có thể tránh được.
Từ những quan sát này, Andrew Ng đã tập trung nghiên cứu và nâng cao nhận thức về cách xây dựng AI ưu tiên tối ưu chất lượng dữ liệu trên một thuật toán, mô hình cố định. “Dữ liệu là đồ ăn cho AI”, ông từng nhấn mạnh tầm quan trọng của dữ liệu trong chất lượng AI.
Với cách làm này, ông dễ dàng sử dụng 10.000 bản ghi dữ liệu tốt để huấn luyện AI ra kết quả mong muốn, thay vì dùng đến 1 triệu dữ liệu thô hỗn tạp. Không chỉ tiết kiệm thời gian và nguồn lực đáng kể, cách này tạo điều kiện thuận lợi cho doanh nghiệp thường có sẵn đội ngũ xử lý dữ liệu và không có chuyên môn AI, học máy. Cứ 3 doanh nghiệp thì có một bên không thường xuyên cập nhật, thay đổi thuật toán tối ưu - theo nghiên cứu gần đây của InRule Technology.
“Bằng cách tập trung vào dữ liệu, chúng ta mở đường cho nhân viên nhà máy, bệnh viện, nông trại có thể điều chỉnh dữ liệu, giúp những người không được đào tạo về AI cũng có thể dễ dàng tiếp cận sử dụng và nhập dữ liệu vào một mô hình mở”, ông Andrew phân tích.
Ngược lại, điều này góp phần phát triển AI, tiến tới thống nhất hệ thống phân loại, dán nhãn dữ liệu theo nhu cầu thực tế của các ngành.
Với những kết quả nghiên cứu và ứng dụng xuất sắc, Andrew Ng cùng các cộng sự tiếp tục tìm kiếm các giá trị tồn tại lâu dài của dữ liệu, cũng như những thách thức khi chuyển dịch từ tập trung mô hình, thuật toán sang tập trung vào dữ liệu. Đây cũng là các vấn đề sẽ được thảo luận trong chương trình hội thảo sắp tới.
Các chuyên gia tham dự chương trình "Data-Centric go back to basics". |
Hội thảo "Tech Innovators #5: Data Centric - Go back to basics" (Tạm dịch: Dữ liệu - Trở về với căn bản) do FPT Software tổ chức từ 9h30 đến 11h ngày 2/12, phát sóng trực tiếp trên Facebook fanpage của FPT Software. Chương trình nằm trong chuỗi sự kiện dành riêng cho cộng đồng công nghệ, nhằm góp phần xây dựng cộng đồng CNTT Việt, đưa tài năng Việt đến gần hơn với các chuyên gia đẳng cấp thế giới.
Khán giả tham dự sẽ có cơ hội được trao đổi trực tiếp với Andrew Ng và các khách mời. Bạn đọc đăng ký tại đây.
Bình luận