So sánh hiệu năng Qwen 3.5 và Gemma 4

Google DeepMind vừa ra mắt Gemma 4, dòng trọng số mở mới nhất của hãng với các kích thước E2B, E4B, 26B, A4B và 31B. Qwen 3.5 của Alibaba đã là một trong những họ mở mạnh nhất trên thị trường, bao gồm các kích thước 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B và 397B-A17B.

Nếu bạn đang chọn một mô hình mở cho các agent cục bộ, suy luận trên laptop hoặc sản xuất tự host, câu hỏi hữu ích không phải là "họ nào có mô hình nổi bật nhất?" Mà là họ nào chiến thắng ở kích thước bạn thực sự có thể chạy.

Hiện chưa có bảng so sánh nào theo kiểu Vals của bên thứ ba bao gồm tất cả các kích thước của Gemma 4 và Qwen 3.5. Vì vậy, sự so sánh đáng tin cậy nhất hiện nay phải phân biệt hai loại bằng chứng khác nhau:

  1. Bằng chứng về sở thích trò chuyện của bên thứ ba, trong đó Google trích dẫn bảng xếp hạng văn bản mã nguồn mở của Arena AI.
  2. Overlap chính thức giữa các mô hình-thẻ, nơi chúng ta ghép các mô hình theo class triển khai và chỉ so sánh những hàng benchmark mà cả hai họ thực sự công bố.

Trên overlap benchmark chính thức được công bố hiện tại, Qwen 3.5 thắng nhiều hàng hơn trong các class 2B, 4B và mid-size MoE, trong khi Gemma 4 cạnh tranh nhất trong class dense ~30B và có kết quả tốt hơn cho âm thanh trên thiết bị edge, đa ngôn ngữ và một số khối lượng công việc đa phương thức. Tuy nhiên, trên Arena AI, cả Gemma 4 31B và Gemma 4 26B A4B đều xếp hạng cao hơn các mô hình Qwen 3.5 lớn tương đương về mức độ ưu tiên cho trò chuyện.

So sánh nhanh

class kích thướcMô hình Gemma 4Mô hình Qwen 3.5Tài liệu đọc tốt nhất hiện nay
Edge / mobileGemma 4 E2BQwen3.5-2BHiện chưa có bảng xếp hạng bên thứ ba nào đáng tin cậy; kết quả chính thức cho thấy Qwen có vẻ nhỉnh hơn.
Class 4BGemma 4 E4BQwen3.5-4BHiện chưa có bảng xếp hạng bên thứ ba nào đáng tin cậy; kết quả chính thức cho thấy Qwen có vẻ nhỉnh hơn.
Large Dense Models (LDM)Gemma 4 31BQwen3.5-27BSự trùng lặp chính thức được chia đều; ưu tiên trò chuyện Arena AI nghiêng về Gemma 4 31B.
Efficient MoEGemma 4 26B A4BQwen3.5-35B-A3BOverlap chính thức có lợi cho Qwen; tùy chọn trò chuyện Arena AI có lợi cho Gemma 4 26B A4B

Qwen cũng có một phân khúc cao cấp hơn mà Gemma 4 không thể sánh kịp: 9B, 122B-A10B và 397B-A17B.

Tại sao tuyên bố của Google vẫn có thể đúng?

Nếu chỉ đọc các bảng mô hình-thẻ bên dưới, bạn dễ dàng kết luận rằng Qwen 3.5 vượt trội hơn hẳn Gemma 4. Điều đó quá chủ quan. Bài đăng ra mắt của Google đang chỉ ra một loại bằng chứng khác.

Trên trang xếp hạng mã nguồn mở của Arena AI ngày 31 tháng 3 năm 2026:

  • Gemma 4 31B đứng thứ 3 trong số các mô hình mở với điểm số 1452 ± 9
  • Qwen3.5-397B-A17B đứng thứ 4 với điểm số 1449 ± 6
  • Gemma 4 26B A4B đứng thứ 6 với điểm số 1441 ± 9
  • Qwen3.5-122B-A10B đạt 1416 ± 6
  • Qwen3.5-27B đạt 1404 ± 6
  • Qwen3.5-35B-A3B đạt 1400 ± 6

Đây là bằng chứng thực tế từ bên thứ ba ủng hộ Gemma, đặc biệt là đối với cách tiếp cận "byte for byte" và "intelligence-per-parameter" của Google. Điều này không có nghĩa là Gemma 4 đánh bại Qwen 3.5 trên mọi bài kiểm tra hiệu năng. Điều đó có nghĩa là trên bảng xếp hạng mức độ ưu tiên trò chuyện quy mô lớn, hai mô hình Gemma 4 lớn hơn hiện đang được xếp hạng cao hơn những mô hình Qwen 3.5 chính đang mở.

Đánh giá khách quan là:

  • Arena AI hiện đang nghiêng về Gemma 4 về chất lượng trợ lý trên mô hình lớn.
  • Overlap chính thức giữa mô hình-thẻ cho thấy Qwen 3.5 nghiêng về phía Qwen 3.5 trên nhiều khía cạnh như suy luận tĩnh, lập trình và số hàng agent.
  • Bằng chứng từ bên thứ ba đối với các mô hình nhỏ vẫn còn hạn chế, vì vậy kết luận về 2B và 4B vẫn mang tính tạm thời hơn so với các mô hình lớn.

Xu hướng lớn hơn: Trọng số mở đang được cải thiện gần như nhanh bằng trọng số đóng

Một cách hữu ích để nhìn nhận vấn đề Gemma 4 so với Qwen 3.5 là lập biểu đồ trọng số mô hình mở tốt nhất hiện có và mô hình đóng tốt nhất hiện có tại mỗi thời điểm trong năm qua dựa trên một chỉ số từ bên thứ ba duy nhất.

Về điều đó, Arena AI không hoàn hảo nhưng hữu ích. Nó đo lường chất lượng trò chuyện theo sở thích của con người, chứ không phải độ chính xác của benchmark tĩnh. Điều đó có nghĩa là nó không nên thay thế các bảng mô hình-thẻ bên dưới. Nhưng nó đặt các mô hình mở và đóng trên cùng một thang đo, điều này khiến nó trở thành một chỉ số tốt để đánh giá tốc độ phát triển của những mô hình tiên tiến.

Biểu đồ từng bước tốc độ phát triển của mô hình mở so với mô hình đóng trong năm qua trên bảng xếp hạng tổng thể của Arena AI
Biểu đồ từng bước tốc độ phát triển của mô hình mở so với mô hình đóng trong năm qua trên bảng xếp hạng tổng thể của Arena AI

Trên chỉ số này, tốc độ phát triển của mô hình trọng số mở đã tăng từ 1398 lên 1456 trong năm qua (+58), trong khi tốc độ phát triển của mô hình trọng số đóng tăng từ 1448 lên 1504 (+56). Như vậy, tốc độ phát triển của mô hình trọng số mở cải thiện gần như nhanh bằng mô hình trọng số đóng trên bảng xếp hạng này, nhưng khoảng cách tuyệt đối hầu như không thay đổi: 50 điểm ở đầu cửa sổ so với 48 điểm ở cuối.

Các mốc phát triển quan trọng đằng sau biểu đồ

TrackTrở thành tiên phongMô hìnhĐiểm Arena AI
Trọng số mởBắt đầu trên Windows (ngày 2 tháng 4 năm 2025)DeepSeek-R11398 ± 5
Trọng số mởNgày 21 tháng 8 năm 2025DeepSeek-V3.11418 ± 6
Trọng số mởNgày 22 tháng 12 năm 2025GLM-4.71443 ± 6
Trọng số mởNgày 27 tháng 1 năm 2026Kimi K2.5 Thinking1453 ± 5
Trọng số mởNgày 11 tháng 2 năm 2026GLM-51456 ± 6
Trọng số đóngBắt đầu trên Windows (ngày 2 tháng 4 năm 2025)Gemini 2.5 Pro Experimental1448 ± 3
Trọng số đóngNgày 5 tháng 8 năm 2025Claude Opus 4.1 Thinking1449 ± 3
Trọng số đóngNgày 12 tháng 11 năm 2025GPT-5.1 High1455 ± 4
Trọng số đóngNgày 24 tháng 11 năm 2025Claude Opus 4.5 Thinking1474 ± 4
Trọng số đóngNgày 5 tháng 2 năm 2026Claude Opus 4.6 Thinking1504 ± 6

Biểu đồ này làm rõ 3 điều:

  • Tốc độ tăng điểm của các mô hình trọng số mở không còn quá chậm nữa. Trên chỉ số trò chuyện của bên thứ ba này, độ dốc hiện nay rất tương đồng.
  • Khoảng cách vẫn còn tồn tại. Các mô hình trọng số mở đã tăng gần bằng số điểm tương đương, nhưng chúng không xóa bỏ đáng kể khoảng cách dẫn trước của các mô hình trọng số đóng trong năm qua.
  • Phần lớn sự bắt kịp của các mô hình trọng số mở đến từ một vài bản phát hành lớn, chứ không phải là sự tăng trưởng đều đặn hàng tháng. Điều tương tự cũng đúng với phía các mô hình trọng số đóng, đặc biệt là xung quanh Claude Opus 4.5 và Claude Opus 4.6.

Lưu ý về phương pháp: Biểu đồ sử dụng bảng xếp hạng văn bản tổng thể của Arena AI ngày 31 tháng 3 năm 2026 làm thang điểm chung duy nhất, sau đó vẽ đường bao giới hạn theo ngày phát hành mô hình. Điều này hữu ích để so sánh tốc độ, nhưng nó vẫn là một chỉ số dựa trên sở thích trò chuyện, chứ không phải là tiêu chuẩn trong phòng thí nghiệm. Những thay đổi nhỏ về điểm số trong phạm vi không chắc chắn đã nêu cần được xem xét thận trọng. GLM-5 sử dụng ngày ra mắt công khai đầu tiên trên Hugging Face (11 tháng 2 năm 2026) làm mốc thời gian vì thông tin chi tiết về việc ra mắt công khai của Z.ai không thể truy cập được trong bài đăng có thể đọc được bằng máy khi bài viết này được cập nhật.

Tương tác trên các benchmark

Biểu đồ tĩnh ở trên là câu chuyện đơn giản nhất vì nó giữ trạng thái mở và đóng trên cùng một thang đo ưu tiên trò chuyện Arena AI. Nhưng nếu bạn muốn kiểm tra độ bền của kết quả trên các benchmark nhiệm vụ, trình khám phá bên dưới sẽ tính toán lại trọng số mở và trọng số đóng trong cùng khoảng thời gian 1năm bằng cách sử dụng các hàng được lấy từ Vals AI, những trang benchmark của Vals AI cũng giữ các hàng của mô hình cũ hơn hiển thị.

Lưu ý: Biểu đồ này sử dụng các trang benchmark Vals AI hiện tại thay vì snapshot mô hình-thẻ vào ngày phát hành. Điều đó làm cho nó hữu ích để so sánh hình dạng của tiến độ theo benchmark, nhưng không nên đọc nó như là bản ghi lịch sử vào ngày phát hành. Nếu một mô hình thiếu một hàng được lấy từ một benchmark nhất định, thì mốc này sẽ không xuất hiện cho chỉ số đó. Những mốc thời gian quan trọng trong lịch sử vẫn có thể bao gồm những mô hình đã lỗi thời, ngay cả khi chúng thực sự là những mô hình tốt nhất theo benchmark vào thời điểm đó.

Cách so khớp các mô hình

Có hai lưu ý quan trọng trước khi xem xét các bảng:

  1. Các mô hình nhỏ của Gemma sử dụng những tham số hiệu quả. Gemma 4 E2B có tham số hiệu quả là 2,3B / tham số được load với các embedding là 5,1B, và Gemma 4 E4B có tham số hiệu quả là 4,5B / tham số được load là 8B. Những tham số này được hiểu là các tham số tương ứng với Qwen 2B và 4B ở cấp độ triển khai, chứ không phải là những tham số có trọng số thô tương ứng chính xác.
  2. Qwen công bố các chế độ benchmark khác nhau theo kích thước. Qwen3.5-4B, Qwen3.5-27B và Qwen3.5-35B-A3B chạy ở chế độ tư duy theo mặc định trên các thẻ mô hình của chúng. Qwen3.5-2B công bố điểm số riêng biệt cho chế độ tư duy và không tư duy; bài đăng này sử dụng số điểm của chế độ tư duy bất cứ khi nào thẻ hiển thị kết quả tư duy/không tư duy.

Loại bỏ những benchmark quá nhạy cảm về phương pháp luận để có thể coi là những hàng so sánh trực tiếp rõ ràng ở đây, chẳng hạn như:

  • AIME 2026 không có công cụ, vì Gemma công bố nhưng kích thước tương ứng của Qwen thì không.
  • SWE-bench Verified, vì Qwen công bố cho các mô hình lớn hơn nhưng Gemma 4 thì không.
  • CodeForces, vì Qwen ghi chú rằng kết quả CodeForces của nó được đo trên tập truy vấn riêng của nó, khiến nó trở thành một sự so sánh trực tiếp kém hiệu quả với điểm ELO Codeforces do Google công bố.

Điều đó có nghĩa là các bảng bên dưới nên được đọc là đáng tin cậy nhưng hạn chế: Chúng tốt để so sánh sự trùng lặp đã được công bố, nhưng không phải là toàn bộ câu chuyện về chất lượng trợ lý tổng thể.

Trong các bảng bên dưới, hãy đọc các hàng như sau:

  • MMLU-Pro: Kiến ​​thức và suy luận tổng quát
  • GPQA Diamond: Suy luận khoa học chuyên gia
  • LiveCodeBench v6: Lập trình
  • Tau2 / TAU2-Bench: Hành vi sử dụng công cụ/agent
  • MMMLU: Suy luận đa ngôn ngữ
  • MMMU-Pro: Suy luận đa phương thức

So khớp kích thước

Lớp triển khaiGemma 4Qwen 3.5Vì sao đây là sự kết hợp phù hợp
Edge / mobileE2B2BCác mô hình cục bộ nhỏ nhất
Class 4BE4B4BLaptop nhỏ / cấp độ edge-plus
Large Dense Models (LDM)31B dense27B denseMô hình không suy luận lớn nhất trong mỗi họ
Efficient MoE26B A4B35B-A3BClass MoE cỡ trung bình gần nhất, với ~4 tỷ so với ~3 tỷ tham số hoạt động

Chọn Qwen 3.5 hay Gemma 4?

Đối với triển khai 2B edge: Qwen3.5-2B nếu bạn quan tâm đến chất lượng văn bản, việc sử dụng công cụ và ngữ cảnh dài; Gemma 4 E2B nếu âm thanh và tích hợp Google-edge quan trọng hơn.

Đối với 4B: Qwen3.5-4B. Đây là lựa chọn dễ nhất trong bài viết này.

Đối với các mô hình lớn, không suy luận: Qwen3.5-27B cho trợ lý và agent ưu tiên văn bản, Gemma 4 31B cho khối lượng công việc đa ngôn ngữ và đa phương thức cân bằng hơn.

Đối với MoE cỡ trung bình: Qwen3.5-35B-A3B trừ khi KPI cốt lõi của bạn là công việc đa ngôn ngữ nặng về lập trình và bạn muốn thử nghiệm cụ thể Gemma 4 26B A4B.

Điều quan trọng là ưu tiên ở cấp độ nhóm giờ đã đủ rõ ràng để hướng dẫn việc lập danh sách rút gọn. Nhưng ưu tiên này không phải là một chiều: Nếu bạn quan tâm đến các benchmark tác vụ tĩnh, overlap được công bố thường chỉ ra Qwen 3.5. Nếu bạn quan tâm đến chất lượng trò chuyện kiểu trợ lý, tín hiệu mạnh mẽ nhất từ ​​bên thứ ba hiện nay chỉ ra rằng Gemma 4 đang ở vị trí hàng đầu.

Tuy nhiên, chất lượng cuối cùng vẫn phụ thuộc vào các câu hỏi của bạn, độ dài ngữ cảnh, các lệnh gọi công cụ và dung sai độ trễ. Đó chính là lý do tại sao các nhóm triển khai thực tế nên coi những bài kiểm tra hiệu năng công khai như một bộ lọc, chứ không phải là câu trả lời cuối cùng.

Thứ Sáu, 10/04/2026 07:30
51 👨 2
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ AI cho người mới