Joined: 01/09/2017
Qwen3-Max Thinking vượt Gemini 3 Pro và GPT-5.2 trên 'Humanity's Last Exam'
Trong một cuộc so sánh gần đây của các mô hình ngôn ngữ lớn, Qwen3-Max Thinking — biến thể mới nhất từ hệ sinh thái Qwen — được báo cáo đã vượt qua Google Gemini 3 Pro và OpenAI GPT-5.2 trên bộ đánh giá mang tên "Humanity's Last Exam" khi tất cả mô hình đều được cho phép sử dụng chức năng tìm kiếm. Kết quả này, được tường thuật lần đầu bởi VentureBeat, làm nổi bật tầm quan trọng của khả năng truy vấn thông tin và tích hợp công cụ trong các hệ LLM hiện đại.
Bài kiểm tra "Humanity's Last Exam" là một bộ câu hỏi tổng hợp thiết kế để đo khả năng hiểu biết sâu rộng, suy luận liên ngành và truy xuất thông tin thời sự; khi cho phép các mô hình sử dụng công cụ tìm kiếm, bài đánh giá này chuyển trọng tâm từ kiến thức nội sinh sang hiệu quả trong quy trình tìm kiếm — xử lý kết quả và kết hợp thông tin ngoại nguồn. Theo báo cáo, Qwen3-Max Thinking thể hiện lợi thế rõ rệt ở những câu hỏi đòi hỏi cập nhật hoặc trích dẫn nguồn, nơi việc truy vấn web và lọc thông tin đóng vai trò quyết định.
Các nhà phân tích chỉ ra rằng khác biệt không nhất thiết phản ánh năng lực ngôn ngữ thô ưu việt của một mô hình so với mô hình khác, mà phần lớn xuất phát từ cơ chế tích hợp công cụ, chiến lược truy vấn và cách mô hình sử dụng kết quả tìm kiếm để tổng hợp câu trả lời. Việc cho mô hình quyền truy cập vào công cụ tìm kiếm thực tế đặt ra một lớp mới trong đánh giá LLM: khả năng điều hướng, xếp hạng và trích xuất thông tin hữu ích từ web.
Trong bối cảnh cạnh tranh giữa các nền tảng lớn, kết quả của bài kiểm tra này phản ánh xu hướng trong ngành: các nhà phát triển LLM không chỉ tập trung vào huấn luyện mô hình lớn hơn, mà còn đầu tư mạnh vào subsystems hỗ trợ (retrieval, browser tools, đánh giá nguồn). Nhờ đó, một mô hình có thể đạt lợi thế đáng kể khi chạy trong chế độ có công cụ, đặc biệt đối với các tác vụ cần tra cứu dữ liệu hiện đại hoặc kiểm chứng sự kiện.
Dù vậy, cộng đồng nghiên cứu và truyền thông đều lưu ý rằng kết quả từ một bộ thử nghiệm không thể là phép đo cuối cùng cho năng lực tổng thể. Các benchmark khác nhau có cấu trúc, tiêu chí chấm điểm và trọng số riêng; một mô hình vượt trội trên bài kiểm tra này có thể không giữ ưu thế trên bộ dữ liệu khác. Ngoài ra, khi LLM dùng công cụ tìm kiếm, yếu tố như độ trễ, chi phí truy vấn và kiểm soát nguồn thông tin càng trở nên quan trọng cho ứng dụng thực tế.
Việc Qwen3-Max Thinking dẫn đầu trong kịch bản được cho phép tìm kiếm mở ra một số câu hỏi chính sách và kỹ thuật: cách thức đánh giá công bằng giữa các đội ngũ khi mọi bên đều có khả năng thiết kế pipelines truy vấn khác nhau; tiêu chuẩn minh bạch trong báo cáo kết quả; và việc xác minh độc lập bằng nhiều benchmark khác nhau. Các nhà phát triển, doanh nghiệp sử dụng LLM, và cộng đồng nghiên cứu được khuyến nghị theo dõi nhiều nguồn đánh giá trước khi đưa ra kết luận về việc triển khai.
Tầm nhìn tương lai và lời khuyên cho người đọcKết quả từ bài kiểm tra này là minh chứng cho hướng đi hiện nay: kết hợp khả năng ngôn ngữ lớn với hệ thống truy xuất thông tin mạnh mẽ sẽ là chìa khóa cho nhiều ứng dụng thực tế. Tuy nhiên, độc giả nên cân nhắc rằng hiệu năng thực tế phụ thuộc vào cấu hình tích hợp, dữ liệu truy vấn và mục tiêu sử dụng. Để xem chi tiết phân tích và báo cáo gốc, bạn có thể tham khảo bài viết của VentureBeat tại VentureBeat. Thêm nguồn tham khảo liên quan có thể tìm ở các trang như The Verge (tìm kiếm Qwen3) hoặc TechCrunch (tìm kiếm Qwen3) để cập nhật bối cảnh cạnh tranh và phân tích sâu hơn.