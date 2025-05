DeepSeek lần đầu tiết lộ cách xây dựng mô hình AI nguồn mở hàng đầu thế giới với chi phí thấp, nhờ thiết kế đồng thời phần cứng và phần mềm.

DeepSeek tiết lộ cách họ xây dựng mô hình AI giá rẻ. Ảnh: Bloomberg.

Trong báo cáo nghiên cứu công bố ngày 15/5, DeepSeek lần đầu tiên chia sẻ chi tiết về cách xây dựng một trong những hệ thống AI mã nguồn mở mạnh nhất thế giới với chi phí chỉ bằng một phần nhỏ so với các đối thủ.

Nghiên cứu với tiêu đề “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures” do nhà sáng lập Liang Wenfeng đứng chung tên. DeepSeek cho rằng thành công của mình đến từ việc thiết kế song song phần cứng và phần mềm. Đây là bước đi khác biệt trong bối cảnh nhiều công ty vẫn tập trung tối ưu phần mềm độc lập.

“DeepSeek-V3, được đào tạo trên 2.048 GPU Nvidia H800 đã chứng minh cách thiết kế song song có thể giải quyết hiệu quả những thách thức, cho phép đào tạo và suy luận hiệu quả ở quy mô lớn”, nhóm nghiên cứu viết trong báo cáo. DeepSeek và quỹ đầu cơ High-Flyer đã tích trữ dòng chip H800 trước khi chúng bị Mỹ cấm xuất khẩu sang Trung Quốc từ năm 2023.

Theo bài báo, nhóm nghiên cứu DeepSeek ý thức rõ về những hạn chế phần cứng cũng như “chi phí cắt cổ” khi đào tạo mô hình ngôn ngữ lớn (LLM), công nghệ nền tảng đằng sau các chatbot như ChatGPT của OpenAI. Nhờ đó, họ đã triển khai một loạt tối ưu kỹ thuật giúp tăng hiệu suất bộ nhớ, cải thiện giao tiếp giữa các chip và nâng cao hiệu quả toàn bộ cơ sở hạ tầng AI.

Bên cạnh đó, DeepSeek nhấn mạnh vai trò của kiến trúc Mô hình Hỗn hợp Chuyên gia (MoE). Đây là phương pháp học máy chia mô hình AI thành các mạng con, mỗi mạng xử lý một phần dữ liệu đầu vào riêng biệt và hoạt động cộng tác để tối ưu hóa kết quả.

MoE giúp giảm chi phí huấn luyện và đẩy nhanh tốc độ suy luận. Phương pháp này hiện đã được áp dụng rộng rãi trong giới công nghệ Trung Quốc, bao gồm cả mô hình Qwen3 mới nhất của Alibaba.

DeepSeek từng gây chú ý khi phát hành mô hình V3 cơ bản vào tháng 12/2024 và mô hình lý luận R1 vào tháng 1. Các sản phẩm này đã khiến thị trường toàn cầu xôn xao, góp phần khiến cổ phiếu công nghệ liên quan đến AI đồng loạt lao dốc.

Mặc dù không tiết lộ thêm kế hoạch trong thời gian gần đây, DeepSeek vẫn duy trì sự quan tâm của cộng đồng nhờ công bố các báo cáo định kỳ. Cuối tháng 3, công ty phát hành bản cập nhật nhỏ cho DeepSeek-V3 và đến cuối tháng 4, họ âm thầm ra mắt hệ thống Prover-V2 dành cho xử lý chứng minh toán học.