Bạn có thể chuyển sang phiên bản mobile rút gọn của Tri thức trực tuyến nếu mạng chậm. Đóng

Mô hình ngôn ngữ AI PhởGPT dành riêng cho tiếng Việt

PhởGPT được phát hành dưới dạng mã nguồn mở cho cộng đồng lập trình và người dùng.

PhởGPT được giới thiệu trong ngày khai mạc AI Day 2023. Ảnh: BTC.

Tại AI Day 2023 diễn ra sáng 5/12, VinAI công bố PhởGPT, dự án mã nguồn mở về mô hình ngôn ngữ lớn, được xây dựng và chuyên dùng cho tiếng Việt.

PhởGPT sử dụng công nghệ GPT (Generative Pre-trained Transformer). So với những mô hình khác, PhởGPT được huấn luyện từ đầu, áp dụng các kỹ thuật như cơ chế tập trung chớp nhoáng (Flash Attention) và ngoại suy độ dài ngữ cảnh ALiBi, giúp hiểu sâu hơn ngữ cảnh và tăng khả năng tương tác tự nhiên với người dùng.

Theo trang dự án PhởGPT trên GitHub, lượng dữ liệu dùng để đào tạo mô hình có dung lượng 41 GB, gồm 1 GB văn bản trên Wikipedia, và 40 GB dữ liệu không trùng lặp từ một bộ dữ liệu tin tức (cập nhật đến ngày 21/5/2021).

Bộ dữ liệu huấn luyện được kết hợp từ nhiều nguồn khác nhau, gồm các từ và cặp từ, lời nói tập trung vào cảm xúc (phần lớn bằng tiếng Việt), cặp dữ liệu để trả lời câu hỏi dựa trên ngữ cảnh, viết thơ, viết luận, sửa chính tả và tóm tắt nội dung.

Mo hinh ngon ngu PhoGPT anh 1

Trang chủ dự án PhởGPT trên GitHub.

Đại diện công ty cho biết PhởGPT có khả năng hiểu và viết văn phong tiếng Việt tốt hơn so với các công nghệ ngôn ngữ thế hệ cũ. Tuy nhiên, mô hình này còn một số hạn chế trong việc đưa ra lý luận, mã hóa hoặc toán học. Ngoài ra, PhởGPT đôi khi có thể đưa ra phát ngôn độc hại, thù địch hoặc mang hướng thiên vị.

Khác với phần mềm dạng đóng như ChatGPT, PhởGPT là dự án mã nguồn mở, được phát hành công khai cho cộng đồng phát triển. Bằng cách sử dụng PhởGPT, người dùng có thể tự phát triển ứng dụng AI tùy chỉnh, đặc biệt là những app đòi hỏi bảo mật cao, không phụ thuộc vào API từ các mô hình đóng.

Không chỉ phục vụ tiếng Việt, đội ngũ phát triển PhởGPT đang cải tiến mô hình và mở rộng dự án cho những ngôn ngữ khác, đặc biệt trong khu vực Đông Nam Á.

Diễn ra trong 2 ngày 5-6/12, AI Day 2023 gồm 4 phiên thảo luận chính, gồm “Tương lai của mô hình ngôn ngữ lớn (LLMs)”, “Định hình lại tầm nhìn về tương lai trí tuệ nhân tạo”, “Tác động toàn cầu của trí tuệ nhân tạo tạo sinh GenAI” và “Tiềm năng của AI trong nền kinh tế Đông Nam Á”. Trong đó, AI tạo sinh là chủ đề nóng, được quan tâm bởi tính thiết thực và công năng.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

AI thế nào sau một năm thay đổi thế giới

ChatGPT là ứng dụng AI đầu tiên thu hút hàng trăm triệu người dùng, tuy nhiên công nghệ AI tạo sinh vẫn còn nhiều lỗ hổng và các công ty đang tìm cách cải thiện.

Cái giá phải trả khi sử dụng AI miễn phí

Đừng tin vào những công cụ gán mác “miễn phí” như ChatGPT. Cái giá bạn phải trả là sự an toàn của chính mình.

Phúc Thịnh

Bạn có thể quan tâm