DeepMind và một số đối tác nghiên cứu đã công bố một cơ sở dữ liệu chứa cấu trúc 3D của gần như tất cả protein trong cơ thể con người. Dữ liệu cấu trúc của protein được tính toán bởi hệ thống trí tuệ nhân tạo (AI) AlphaFold, theo Tech Crunch.
Cơ sở dữ liệu được cung cấp miễn phí cho các nhà khoa học trên toàn thế giới. Những thông tin vô giá này được đánh giá là một tiến bộ to lớn và có thể tạo ra một thời kỳ mới cho sinh học và y học.
Cơ sở dữ liệu cấu trúc protein AlphaFold là kết quả của sự hợp tác giữa DeepMind, Viện Tin Sinh học châu Âu và các tổ chức khác. Cơ sở này chứa hàng trăm nghìn trình tự protein được AlphaFold dự đoán. Các nhà phát triển kỳ vọng hệ thống có thể tìm ra được hàng triệu protein khác, tạo ra một “bách khoa toàn thư về protein”.
“Chúng tôi tin rằng công trình này đại diện cho những đóng góp quan trọng nhất mà AI đã thực hiện để thúc đẩy sự phát triển khoa học. Đây là một ví dụ tuyệt vời về những lợi ích mà AI có thể mang lại cho xã hội”, Demis Hassabis, người sáng lập của DeepMind, cho biết.
Các mô hình protein 3D được tạo ra bởi AlphaFold. Ảnh: DeepMind. |
Từ bộ gene đến giải mã protein
Từ cuối những năm 1990 và đầu những năm 2000, các nhà khoa học đã thành công giải mã trình tự bộ gene con người. Hiểu được bộ gene là yếu tố cực kỳ quan trọng đối với việc chẩn đoán bệnh tật và phát triển những phương pháp điều trị tiên tiến.
Tuy nhiên, đó mới chỉ là sự khởi đầu. Dự án lớn tiếp theo mà con người hướng tới chính là khám phá hệ protein (proteome) được cơ thể con người mã hóa vào bộ gene.
Vấn đề với proteome phức tạp hơn rất nhiều so với bộ gene. Protein giống như ADN, đều hình thành bởi trình tự sắp xếp các phân tử có sẵn. Nhưng khác với 4 nucleotit được sử dụng trong hệ thống mã hóa gene, protein sử dụng đến 20 axit amin.
Thậm chí, protein sau khi hình thành sẽ có những cấu tạo xoắn khác nhau với những chức năng khác nhau, hoàn thành tất cả công việc bên trong cơ thể con người. Điều này giống như việc chuyển từ mã nhị phân sang một ngôn ngữ phức tạp, biểu thị các vật thể trong thế giới thực.
ARN polymerase II hoạt động trong nấm men. Ảnh: Science Photo Library. |
Phần khó nhất chính là tìm ra những cấu trúc vật lý của protein. Thông thường, các nhà khoa học sẽ sử dụng tia X hoặc kính hiển vi điện tử (Cryo-EM) để khảo sát hình dạng của protein. Tuy nhiên, những cách này rất phức tạp và mất thời gian, thậm chí lên đến vài tháng.
“Phải mất rất nhiều tiền và nguồn lực khổng lồ để thực hiện những công việc đó”, giáo sư John McGeehan, một nhà sinh vật học cấu trúc tại Đại học Portsmouth, nói.
Cho đến nay, chưa có dự án nào có thể xác định một cách có hệ thống cấu trúc của tất cả các protein do cơ thể con người tạo ra. Chỉ mới có khoảng 17% proteome được xác định bằng thực nghiệm.
Trí tuệ nhân tạo tham gia cuộc chơi
Kể từ dự án xây dựng mô hình cấu trúc protein Folding@home xuất hiện, hàng loạt phương án khác đã được cân nhắc đưa vào sử dụng, đặc biệt là việc sử dụng AI. Vào năm 2019, AlphaFold của DeepMind trình làng, tạo nên bước đột phá, vượt qua mọi hệ thống khác trên thế giới.
Hệ thống AlphaFold đạt mức độ chính xác cao và đáng tin cậy. Một số chuyên gia thậm chí còn tuyên bố rằng vấn đề tìm cấu trúc 3D của một chuỗi axit amin bất kỳ đã được giải quyết. Phiên bản AlphaFold 2 được ra mắt năm 2020 thậm chí còn vượt trội hơn rất nhiều.
“Thực sự đột phá. Trước kia chúng tôi mất 6 tháng để tìm ra mỗi cấu trúc nhưng bây giờ chỉ mất vài phút. Chúng tôi rất bất ngờ trước tốc độ của hệ thống này”, giáo sư McGeehan nói.
Ông chia sẻ: “Trong nhóm 7 chuỗi protein lần đầu tiên gửi tới DeepMind, 2 chuỗi đã được chúng tôi mô hình hóa. Vì vậy, chúng tôi có thể đối chiếu khi kết quả được trả về. Khi nhìn thấy cấu trúc do AlphaFold tạo ra, tôi đã phải rùng mình vì nó quá chính xác”.
DeepMind tuyên bố khoảng 98,5% bộ protein của con người đã được mô hình hóa. Hệ thống AlphaFold thậm chí còn tìm ra bộ protein của 20 sinh vật khác, bao gồm nấm men và vi khuẩn E.coli.
Hệ thống AlphaFold được viết bằng ngôn ngữ lập trình Python và có thể tiếp cận mã nguồn mở trên Github. Ảnh: DeepMind. |
Cơ sở dữ liệu được công bố chứa tổng cộng khoảng 350.000 cấu trúc protein. Đây là bộ sưu tập protein lớn nhất và tốt nhất tính đến thời điểm hiện tại.
Các nhà khoa học chỉ cần nhập trình tự protein. Sau đó, hệ thống gần như ngay lập tức gửi lại các cấu trúc 3D. Một nghiên cứu trên tạp chí Nature được công bố vào ngày 15/7 đã mô tả chi tiết cơ sở dữ liệu và quá trình mô hình hóa.
“Cơ sở dữ liệu sẽ giống như một Google của cấu trúc protein. Bạn có thể xem mô hình 3D, phóng to xung quanh protein. Thậm chí, bạn có thể tìm được gen và các protein khác liên quan trong kho dữ liệu của Phòng thí nghiệm Sinh học Phân tử châu Âu (EMBL-EBL)”, Hassabis nói.
Giáo sư Edith Heard của EMBL cho biết: “Điều này sẽ làm thay đổi hiểu biết của chúng ta về cách cuộc sống hoạt động. Protein đại diện cho nền tảng tạo nên các sinh vật sống. Các ứng dụng của AlphaFold chỉ có thể bị giới hạn bởi sự hiểu biết của con người”.
Nhóm của Giáo sư McGeehan đã sử dụng dữ liệu của AlphaFold để phát triển các enzyme phân hủy nhựa. Ông cho biết chương trình đã giúp dự án của ông tăng tốc thêm “vài năm”.
DeepMind có kế hoạch mô hình hóa hơn 100 triệu cấu trúc protein đã được giới khoa học biết đến.
“Các cấu trúc dự đoán của AlphaFold là một trong những bộ dữ liệu quan trọng nhất kể từ khi bộ gene người được giải mã”, tiến sĩ Ewan Birney, giám đốc Viện Tin sinh học châu Âu, khẳng định.