Indonesia phát triển các LLM đa ngôn ngữ dành cho các thứ tiếng có nguồn học liệu hạn chế và có nguy cơ tuyệt chủng. Ảnh: Shutterstock. |
Lớn lên ở tỉnh Banyuwangi, Indonesia, Antariksawan Jusuf (58 tuổi) đã nói chuyện bằng tiếng Bahasa Osing với gia đình và bạn bè. Mãi cho đến khi vào đại học ở Bali, nơi phải nói quốc ngữ Bahasa Indonesia, anh mới nhận ra rằng Osing có nguy cơ bị tuyệt chủng.
“Tiếng Osing đang bị đe dọa bởi quá trình hiện đại hóa. Hiện nay rất nhiều bậc cha mẹ thích dùng tiếng Bahasa Indonesia khi giao tiếp với con mình hơn”, Antariksawan nói với Rest of World.
Osing không phải ngôn ngữ duy nhất gặp nguy cơ bị xóa sổ. Indonesia có hơn 700 ngôn ngữ vùng miền và gần 800 phương ngữ trên khắp lãnh thổ rộng lớn. Nhưng theo các nhà nghiên cứu, hơn 400 phương ngữ có nguy cơ bị tuyệt chủng vào cuối thế kỷ 21.
Do đó, chính phủ nước này đã chuyển sang sử dụng AI để giúp bảo tồn các ngôn ngữ và khiến người dân tiếp cận dễ dàng hơn.
Ngôn ngữ càng bản địa, nguồn học liệu càng hạn chế
Các mô hình ngôn ngữ lớn (LLM) phổ biến, như GPT của OpenAI, Gemini của Google và Llama của Meta đều được đào tạo bằng tiếng Anh.
Vì thế, các quốc gia không nói tiếng Anh đang cố gắng thu hẹp khoảng cách bằng cách xây dựng LLM đa ngôn ngữ dành cho các thứ tiếng ít dữ liệu và có nguy cơ tuyệt chủng. Những ngôn ngữ này được sử dụng rộng rãi trong thực tế nhưng không có nhiều dữ liệu trên Internet.
Các mô hình hiện nay chủ yếu được đào tạo bằng tiếng Anh. Ảnh: Shutterstock. |
Nói với Rest of World, Endang Aminudin Aziz - người đứng đầu cơ quan phát triển ngôn ngữ tại Bộ Giáo dục và Văn hóa Indonesia - cho biết xã hội đang hướng tới chủ nghĩa đơn ngữ do quá trình toàn cầu hóa và hiện đại hóa. “Chúng tôi đang nỗ lực hồi sinh các ngôn ngữ để chúng khỏi bị tuyệt chủng. Tôi nghĩ công nghệ AI và LLM sẽ có ích”, ông cho biết.
Để đào tạo LLM, họ cần có số lượng lớn dữ liệu chất lượng cao, bao gồm sách, phương tiện truyền thông và tài liệu học thuật, cũng như các kho lưu trữ mã nguồn mở như GitHub.
Theo Nuurrianti Jalli, trợ lý giáo sư tại Đại học bang Oklahoma, vì các ngôn ngữ vùng miền thiếu hụt nguồn học liệu, nên nhiều người lo ngại liệu chúng có thể thể hiện chính xác các nền văn hóa khi được số hóa hay không. “Dữ liệu đến từ đâu? Ai đứng đằng sau chúng” là những câu hỏi các nhà phát triển LLM đặt ra.
Điều này càng quan trọng hơn ở một đất nước kiểm duyệt thông tin khắp nơi và thông tin bị chính phủ kiểm soát chặt chẽ như Indonesia. Jalli cho rằng cần có nhiều nguồn dữ liệu đa dạng để đảm bảo rằng đầu ra của LLM là toàn diện và không thiên vị.
“Việc thu hút nhiều chuyên gia, bao gồm cả những chuyên gia không đồng quan điểm với chính phủ, có thể giúp đảm bảo rằng bối cảnh của dữ liệu được trình bày chính xác. Điều này đặc biệt quan trọng khi dữ liệu có thể bị thao túng để có lợi cho một số nhóm chính trị nhất định”, Jalli nói với Rest of World.
Indonesia bảo tồn ngôn ngữ bằng AI như thế nào?
Đầu năm nay, Yellow.AI đã ra mắt Komodo-7B, một LLM được đào tạo bằng tiếng Bahasa Indonesia và 11 ngôn ngữ khác trong khu vực bao gồm tiếng Java, tiếng Bali và tiếng Sundan.
Mô hình này sử dụng sách giáo khoa của Indonesia, cùng với các nguồn dữ liệu khác để đảm bảo tính đa dạng, người đồng sáng lập Rashid Khan chia sẻ với Rest of World. Khan cho biết Komodo-7B hiện nhắm đến khả năng sinh lời chứ không nhằm mục đích bảo tồn ngôn ngữ và phương ngữ địa phương. Nhưng mục tiêu này vẫn rất khả thi trong tương lai gần.
Theo ông, điều này sẽ đòi hỏi “mức độ số hóa thông tin cao” và chỉ có thể xảy ra khi cộng đồng chung tay. “Việc đào tạo LLM sẽ trở nên dễ dàng hơn, một khi chúng ta đạt đến mức độ số hóa rất cao. Đó là khi một ngôn ngữ cụ thể được thể hiện dưới dạng sách, bài báo, bài thơ - tất cả những thứ này - đều có sẵn trên Internet”, Khan nói.
Nhưng hiện tại, phần lớn dữ liệu đào tạo vẫn bằng tiếng Anh. “Nếu điều đó tiếp tục xảy ra, một số ngôn ngữ khác sẽ bị bỏ lại phía sau”, ông nhận định.
Indonesia có rất nhiều mô hình ngôn ngữ cho tiếng địa phương. Ảnh: Louis Owen. |
Cho đến nay, ngoài tiếng Bahasa Indonesia, chỉ có 2 ngôn ngữ vùng miền có văn bản số hóa - là tiếng Bali và tiếng Makassarese. Antariksawan hy vọng rằng Osing sẽ sớm nằm trong danh sách này.
Ông đã hỗ trợ xuất bản cuốn từ điển tiếng Bahasa Osing - Bahasa Indonesia, viết một cuốn tiểu thuyết bằng 2 thứ tiếng. Ông còn thành lập cộng đồng bảo tồn ngôn ngữ và văn hóa Osing, chuyên xuất bản truyện ngắn, tiểu thuyết và video về truyện dân gian và bài hát thiếu nhi.
Đối với Antariksawan, đây mới chỉ là khởi đầu. Tiếng Osing đã có từ thế kỷ 13 nên ông quyết tâm bảo tồn nó cho thế hệ mai sau. “Hy vọng của tôi là thế hệ trẻ có thể học tiếng Osing từ khi còn nhỏ và sẽ không phải gặp khó khăn nhiều như tôi khi tìm kiếm tài liệu bằng ngôn ngữ đó. Tôi hy vọng công nghệ AI và LLM có thể đưa chúng tôi lên một tầm cao mới”, ông nói.
Dùng ChatGPT thế nào để không tạo ra nội dung vô tri
Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.
Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.