'Kho dữ liệu mở giúp thúc đẩy phát triển y học chính xác tại VN'

Thứ ba, 22/12/2020 16:00 (GMT+7)
16:00 22/12/2020

“Dữ liệu cần được chia sẻ thay vì nghiên cứu rồi cất giữ” là lời khẳng định của GS Vũ Hà Văn khi VinBigdata ra mắt hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh.

Năm 2018, Vingroup công bố dự án "Xây dựng cơ sở dữ liệu biến thể di truyền của người Việt" do VinBigdata chịu trách nhiệm triển khai, với nhiệm vụ giải trình tự toàn bộ hệ gen của hơn 1.000 người Việt khỏe. Bộ dữ liệu thu thập được đảm bảo tính đại diện khi đáp ứng sự đa dạng về vùng miền cùng các đặc điểm sinh học khác như giới tính, độ tuổi (trải dài 35-55 tuổi). Sau 2 năm, 80% dữ liệu đã được phân tích và chú giải.

Hợp lực khai thác dữ liệu gen người Việt

Giải trình tự gen không còn là bài toán mới, đặc biệt khi dữ liệu về hệ gen liên quan chặt chẽ đến bệnh học, hỗ trợ phát hiện sớm, ngăn ngừa bệnh nan y... Việc giải trình tự gen phục vụ điều trị bệnh cũng là xu hướng của nhiều quốc gia như Mỹ, Anh, Australia…

Để việc giải trình tự gen người Việt được nhanh chóng, chính xác, VinBigdata đã đẩy mạnh kết nối, chia sẻ nguồn lực, dữ liệu với các tổ chức khoa học có uy tín.

Cuối năm 2020, trung tâm này bắt tay với 21 đơn vị nghiên cứu hàng đầu trong lĩnh vực y khoa, sinh học phân tử, khoa học máy tính, tin sinh học của Việt Nam và quốc tế. Nổi bật trong số đó có thể kể đến Trung tâm Khoa học dữ liệu ứng dụng, Đại học Chicago (Mỹ); Phòng Thí nghiệm hệ gen ung thư, Trung tâm Ung thư MD Anderson (Mỹ); Phòng Dịch tễ học và Thống kê sinh học, Viện Nghiên cứu Karolinska (Thụy Điển); Trường Khoa học máy tính, Đại học Tel Aviv (Israel); Viện Sinh học phân tử, Đại học Queensland (Australia); Viện Tin sinh học Singapore; Đại học Y Hà Nội; Đại học Dược Hà Nội; Đại học Bách khoa Hà Nội…

Các nhà khoa học, chuyên gia của VinBigdata tại buổi công bố hợp tác quốc tế trong lĩnh vực y học chính xác.

Hợp tác toàn diện về nghiên cứu, kết nối và chia sẻ học thuật, VinBigdata hướng tới xây dựng mạng lưới nghiên cứu tri thức toàn cầu, làm cầu nối giữa các nhà khoa học Việt Nam với nhiều chuyên gia đầu ngành trên thế giới. Đây là cơ hội để đội ngũ nghiên cứu trong nước tận dụng, tăng tính hiệu quả trong nghiên cứu và phát triển.

Thông qua hợp tác, các bên sẽ cùng tham gia nhiều dự án như nghiên cứu đặc điểm di truyền quần thể người Việt, phát triển hệ thống quản lý và phân tích dữ liệu gen quy mô lớn, nghiên cứu giải pháp dự đoán nguy cơ bệnh và đáp ứng thuốc dựa trên gen, phát hiện và cảnh báo vi khuẩn kháng kháng sinh… với kỳ vọng đưa các giải pháp ứng dụng vào thực tế tại Việt Nam trong 2-3 năm tới.

Mở kho dữ liệu phục vụ cộng đồng

Tại sự kiện AI4VN diễn ra cuối tháng 11, GS Vũ Hà Văn - Giám đốc Khoa học VinBigdata - khẳng định: "Dữ liệu cần được chia sẻ, thay vì nghiên cứu rồi cất giữ".

Theo GS, cơ chế chia sẻ dữ liệu linh hoạt là điều kiện cần để thúc đẩy cộng đồng nghiên cứu y sinh cùng phát triển. Đây cũng là một trong những mục tiêu để đội ngũ nhà khoa học tại VinBigdata phát triển hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh (genome.vinbigdata.org) tại Việt Nam như một kho dữ liệu mở phục vụ cộng đồng.

Hệ thống phân tích và quản lý dữ liệu y sinh đang lưu trữ hơn 1.200 terabyte dữ liệu, gần 5.000 mẫu sinh học liên quan đến dự án 1.000 hệ gen người Việt.

Tính mở của hệ thống được thể hiện rõ từ khâu thiết kế, xây dựng, phát triển đến công bố, ứng dụng. Dữ liệu từ dự án 1.000 hệ gen người Việt cũng như một số dự án ứng dụng quy mô lớn khác sẽ được chia sẻ thông qua hệ thống này.

Hiện tại, hệ thống lưu trữ và xử lý hơn 1.200 terabyte dữ liệu của gần 5.000 mẫu sinh học theo tiêu chuẩn Viện Y tế Quốc gia Mỹ (NIH). Thiết kế của hệ thống đảm bảo bảo mật thông tin theo quy định chung về bảo mật thông tin (GDPR) châu Âu.

Chuyên gia của VinBigdata phân tích gen trong phòng thí nghiệm.

Với hệ thống này, VinBigdata và các đối tác có thể dễ dàng truy cập, tìm kiếm thông tin, phân tích và chia sẻ dữ liệu, đẩy nhanh tiến độ nghiên cứu. Người dùng có thể tra cứu theo gen, theo biến thể gen, theo từng cá thể, theo mã tra cứu rsID...; tham chiếu, phân tích dữ liệu hệ gen người Việt phục vụ nghiên cứu, phát triển các ứng dụng lâm sàng hay chỉ mất dưới 30 phút cho một mẫu phân tích toàn hệ gen.

Dự kiến đến cuối năm 2021, hệ thống cập nhật thêm bộ dữ liệu từ các dự án nghiên cứu ứng dụng về nguy cơ bệnh và tác dụng phụ của thuốc.

Trong bối cảnh có không ít nghiên cứu xây dựng được nguồn dữ liệu phong phú, giá trị về người Việt, có khả năng tận dụng cho nhiều đề tài tiếp nối… nhưng gặp bất cập về cơ chế chia sẻ, hệ thống này được kỳ vọng là bước khởi đầu nhằm giải quyết thách thức, trở thành cổng thông tin dữ liệu mở uy tín, đáng tin cậy của Việt Nam, nhận được sự đóng góp dữ liệu từ cộng đồng nghiên cứu, doanh nghiệp và các tổ chức.