Claude 3 Opus vượt qua GPT-4 trong hầu hết bài kiểm tra. Ảnh: Anakin. |
Danh hiệu AI tạo sinh số một vẫn thuộc về GPT-4 kể từ thời điểm nó được giới thiệu. Công cụ này đứng đầu trong các mục đánh giá quan trọng. Đặc biệt, sản phẩm từ OpenAI bỏ xa đối thủ về “vibes” (tạm dịch: xúc cảm). Hầu hết người dùng dành thời gian sử dụng, so sánh các mô hình ngôn ngữ lớn đồng tình về khả năng làm việc vượt trội của GPT-4, từ thời điểm nó được giới thiệu.
Tuy nhiên gần đây, bản cập nhật lớn cho các LLM khác khiến sự vượt trội của ChatGPT lung lay. 4 sản phẩm mới được ra mắt trong một tuần, có điểm chuẩn tiệm cận và vượt qua công cụ từ OpenAI. Đặc biệt, phần cảm xúc của chúng cũng rất tốt.
Claude 3 Opus là model LLM có điểm benchmark cao nhất hiện tại. Ảnh: Anthropic. |
Trong đó, giới chuyên gia đánh giá cao phiên bản Claude 3 Opus của Anthropic. Khả năng thể hiện cảm xúc từ giải pháp này rất mạnh mẽ. Nó được đánh giá có thể vượt qua GPT-4 với cách biệt rõ ràng. Trong các bài đánh giá hiệu năng (benchmark) LLM, Claude 3 Opus có điểm số dẫn đầu ở mọi hạng mục. Nó thể hiện khả năng vượt trội ở phần lý luận, giải toán…
Chuyên gia AI Simon Willison cho biết đã chuyển sang sử dụng Claude 3 cho hầu hết tác vụ, thay thế sản phẩm từ OpenAI. Trong đó, ông đánh giá cao khả năng xử lý các đoạn code trong việc lập trình.
“Gần đây tôi gặp sự cố khi nhập câu lệnh phức tạp, làm cho GPT-4 tạo ra phần code JavaScript thất bại. Tuy nhiên, tôi có câu trả lời hoàn hảo khi chạy bằng Claude 3”, Simon Willison cho biết.
TechCrunch đánh giá cao giải pháp từ Anthropic trong tác vụ tóm tắt tài liệu. Theo đó, các mô hình AI thường gặp lỗi với đầu vào quá lớn. Claude 3 cho ra kết quả tốt nhất trong những phiên bản LLM được đưa vào thử nghiệm.
“Claude 3 Opus là một trong những chatbot làm việc hiệu quả nhất tôi từng dùng qua. Ít nhất nó cũng cho ra những câu trả lời ngắn gọn, dễ hiểu và không chứa từ chuyên ngành”, phóng viên Kyle Wiggers của TechCrunch nhận xét.
Tuy nhiên, công cụ của Anthropic không được mở rộng để làm việc với dữ liệu trên website hoặc các đầu vào khác. Nó chỉ trả lời được câu hỏi về vấn đề xảy ra trước tháng 8/2023. Đồng thời, Claude 3 Opus cũng thua kém chatbot khác khi nói đến những sự kiện gần đây.
GPT-4 có thể làm việc với rất nhiều loại dữ liệu đầu vào. Gemini 1.5 phân tích được cả video. Công cụ từ Google được mở để truy cập hộp thư Gmail. Đây là những điều mà Anthropic chưa phát triển cho Claude 3. Dù có khả năng xử lý nhanh, chính xác và thông minh hơn, giá 20 USD/tháng của sản phẩm này vẫn bị cho là đắt khi so với GPT-4 và Gemini.
Những câu hỏi chúng ta phải đối mặt trong thế giới AI
Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.
Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.