So sánh hiệu năng Qwen 3.5 và Gemma 4

Trần Mến

Google DeepMind vừa ra mắt Gemma 4, dòng trọng số mở mới nhất của hãng với các kích thước E2B, E4B, 26B, A4B và 31B. Qwen 3.5 của Alibaba đã là một trong những họ mở mạnh nhất trên thị trường, bao gồm các kích thước 2B, 4B, 9B, 27B, 35B-A3B, 122B-A10B và 397B-A17B.

Nếu bạn đang chọn một mô hình mở cho các agent cục bộ, suy luận trên laptop hoặc sản xuất tự host, câu hỏi hữu ích không phải là "họ nào có mô hình nổi bật nhất?" Mà là họ nào chiến thắng ở kích thước bạn thực sự có thể chạy.

Hiện chưa có bảng so sánh nào theo kiểu Vals của bên thứ ba bao gồm tất cả các kích thước của Gemma 4 và Qwen 3.5. Vì vậy, sự so sánh đáng tin cậy nhất hiện nay phải phân biệt hai loại bằng chứng khác nhau:

Bằng chứng về sở thích trò chuyện của bên thứ ba, trong đó Google trích dẫn bảng xếp hạng văn bản mã nguồn mở của Arena AI.
Overlap chính thức giữa các mô hình-thẻ, nơi chúng ta ghép các mô hình theo class triển khai và chỉ so sánh những hàng benchmark mà cả hai họ thực sự công bố.

Trên overlap benchmark chính thức được công bố hiện tại, Qwen 3.5 thắng nhiều hàng hơn trong các class 2B, 4B và mid-size MoE, trong khi Gemma 4 cạnh tranh nhất trong class dense ~30B và có kết quả tốt hơn cho âm thanh trên thiết bị edge, đa ngôn ngữ và một số khối lượng công việc đa phương thức. Tuy nhiên, trên Arena AI, cả Gemma 4 31B và Gemma 4 26B A4B đều xếp hạng cao hơn các mô hình Qwen 3.5 lớn tương đương về mức độ ưu tiên cho trò chuyện.

So sánh nhanh

class kích thước	Mô hình Gemma 4	Mô hình Qwen 3.5	Tài liệu đọc tốt nhất hiện nay
Edge / mobile	Gemma 4 E2B	Qwen3.5-2B	Hiện chưa có bảng xếp hạng bên thứ ba nào đáng tin cậy; kết quả chính thức cho thấy Qwen có vẻ nhỉnh hơn.
Class 4B	Gemma 4 E4B	Qwen3.5-4B	Hiện chưa có bảng xếp hạng bên thứ ba nào đáng tin cậy; kết quả chính thức cho thấy Qwen có vẻ nhỉnh hơn.
Large Dense Models (LDM)	Gemma 4 31B	Qwen3.5-27B	Sự trùng lặp chính thức được chia đều; ưu tiên trò chuyện Arena AI nghiêng về Gemma 4 31B.
Efficient MoE	Gemma 4 26B A4B	Qwen3.5-35B-A3B	Overlap chính thức có lợi cho Qwen; tùy chọn trò chuyện Arena AI có lợi cho Gemma 4 26B A4B

Qwen cũng có một phân khúc cao cấp hơn mà Gemma 4 không thể sánh kịp: 9B, 122B-A10B và 397B-A17B.

Tại sao tuyên bố của Google vẫn có thể đúng?

Nếu chỉ đọc các bảng mô hình-thẻ bên dưới, bạn dễ dàng kết luận rằng Qwen 3.5 vượt trội hơn hẳn Gemma 4. Điều đó quá chủ quan. Bài đăng ra mắt của Google đang chỉ ra một loại bằng chứng khác.

Trên trang xếp hạng mã nguồn mở của Arena AI ngày 31 tháng 3 năm 2026:

Gemma 4 31B đứng thứ 3 trong số các mô hình mở với điểm số 1452 ± 9
Qwen3.5-397B-A17B đứng thứ 4 với điểm số 1449 ± 6
Gemma 4 26B A4B đứng thứ 6 với điểm số 1441 ± 9
Qwen3.5-122B-A10B đạt 1416 ± 6
Qwen3.5-27B đạt 1404 ± 6
Qwen3.5-35B-A3B đạt 1400 ± 6

Đây là bằng chứng thực tế từ bên thứ ba ủng hộ Gemma, đặc biệt là đối với cách tiếp cận "byte for byte" và "intelligence-per-parameter" của Google. Điều này không có nghĩa là Gemma 4 đánh bại Qwen 3.5 trên mọi bài kiểm tra hiệu năng. Điều đó có nghĩa là trên bảng xếp hạng mức độ ưu tiên trò chuyện quy mô lớn, hai mô hình Gemma 4 lớn hơn hiện đang được xếp hạng cao hơn những mô hình Qwen 3.5 chính đang mở.

Đánh giá khách quan là:

Arena AI hiện đang nghiêng về Gemma 4 về chất lượng trợ lý trên mô hình lớn.
Overlap chính thức giữa mô hình-thẻ cho thấy Qwen 3.5 nghiêng về phía Qwen 3.5 trên nhiều khía cạnh như suy luận tĩnh, lập trình và số hàng agent.
Bằng chứng từ bên thứ ba đối với các mô hình nhỏ vẫn còn hạn chế, vì vậy kết luận về 2B và 4B vẫn mang tính tạm thời hơn so với các mô hình lớn.

Xu hướng lớn hơn: Trọng số mở đang được cải thiện gần như nhanh bằng trọng số đóng

Một cách hữu ích để nhìn nhận vấn đề Gemma 4 so với Qwen 3.5 là lập biểu đồ trọng số mô hình mở tốt nhất hiện có và mô hình đóng tốt nhất hiện có tại mỗi thời điểm trong năm qua dựa trên một chỉ số từ bên thứ ba duy nhất.

Về điều đó, Arena AI không hoàn hảo nhưng hữu ích. Nó đo lường chất lượng trò chuyện theo sở thích của con người, chứ không phải độ chính xác của benchmark tĩnh. Điều đó có nghĩa là nó không nên thay thế các bảng mô hình-thẻ bên dưới. Nhưng nó đặt các mô hình mở và đóng trên cùng một thang đo, điều này khiến nó trở thành một chỉ số tốt để đánh giá tốc độ phát triển của những mô hình tiên tiến.

Biểu đồ từng bước tốc độ phát triển của mô hình mở so với mô hình đóng trong năm qua trên bảng xếp hạng tổng thể của Arena AI

Trên chỉ số này, tốc độ phát triển của mô hình trọng số mở đã tăng từ 1398 lên 1456 trong năm qua (+58), trong khi tốc độ phát triển của mô hình trọng số đóng tăng từ 1448 lên 1504 (+56). Như vậy, tốc độ phát triển của mô hình trọng số mở cải thiện gần như nhanh bằng mô hình trọng số đóng trên bảng xếp hạng này, nhưng khoảng cách tuyệt đối hầu như không thay đổi: 50 điểm ở đầu cửa sổ so với 48 điểm ở cuối.

Các mốc phát triển quan trọng đằng sau biểu đồ

Track	Trở thành tiên phong	Mô hình	Điểm Arena AI
Trọng số mở	Bắt đầu trên Windows (ngày 2 tháng 4 năm 2025)	DeepSeek-R1	1398 ± 5
Trọng số mở	Ngày 21 tháng 8 năm 2025	DeepSeek-V3.1	1418 ± 6
Trọng số mở	Ngày 22 tháng 12 năm 2025	GLM-4.7	1443 ± 6
Trọng số mở	Ngày 27 tháng 1 năm 2026	Kimi K2.5 Thinking	1453 ± 5
Trọng số mở	Ngày 11 tháng 2 năm 2026	GLM-5	1456 ± 6
Trọng số đóng	Bắt đầu trên Windows (ngày 2 tháng 4 năm 2025)	Gemini 2.5 Pro Experimental	1448 ± 3
Trọng số đóng	Ngày 5 tháng 8 năm 2025	Claude Opus 4.1 Thinking	1449 ± 3
Trọng số đóng	Ngày 12 tháng 11 năm 2025	GPT-5.1 High	1455 ± 4
Trọng số đóng	Ngày 24 tháng 11 năm 2025	Claude Opus 4.5 Thinking	1474 ± 4
Trọng số đóng	Ngày 5 tháng 2 năm 2026	Claude Opus 4.6 Thinking	1504 ± 6

Biểu đồ này làm rõ 3 điều:

Tốc độ tăng điểm của các mô hình trọng số mở không còn quá chậm nữa. Trên chỉ số trò chuyện của bên thứ ba này, độ dốc hiện nay rất tương đồng.
Khoảng cách vẫn còn tồn tại. Các mô hình trọng số mở đã tăng gần bằng số điểm tương đương, nhưng chúng không xóa bỏ đáng kể khoảng cách dẫn trước của các mô hình trọng số đóng trong năm qua.
Phần lớn sự bắt kịp của các mô hình trọng số mở đến từ một vài bản phát hành lớn, chứ không phải là sự tăng trưởng đều đặn hàng tháng. Điều tương tự cũng đúng với phía các mô hình trọng số đóng, đặc biệt là xung quanh Claude Opus 4.5 và Claude Opus 4.6.

Lưu ý về phương pháp: Biểu đồ sử dụng bảng xếp hạng văn bản tổng thể của Arena AI ngày 31 tháng 3 năm 2026 làm thang điểm chung duy nhất, sau đó vẽ đường bao giới hạn theo ngày phát hành mô hình. Điều này hữu ích để so sánh tốc độ, nhưng nó vẫn là một chỉ số dựa trên sở thích trò chuyện, chứ không phải là tiêu chuẩn trong phòng thí nghiệm. Những thay đổi nhỏ về điểm số trong phạm vi không chắc chắn đã nêu cần được xem xét thận trọng. GLM-5 sử dụng ngày ra mắt công khai đầu tiên trên Hugging Face (11 tháng 2 năm 2026) làm mốc thời gian vì thông tin chi tiết về việc ra mắt công khai của Z.ai không thể truy cập được trong bài đăng có thể đọc được bằng máy khi bài viết này được cập nhật.

Tương tác trên các benchmark

Biểu đồ tĩnh ở trên là câu chuyện đơn giản nhất vì nó giữ trạng thái mở và đóng trên cùng một thang đo ưu tiên trò chuyện Arena AI. Nhưng nếu bạn muốn kiểm tra độ bền của kết quả trên các benchmark nhiệm vụ, trình khám phá bên dưới sẽ tính toán lại trọng số mở và trọng số đóng trong cùng khoảng thời gian 1năm bằng cách sử dụng các hàng được lấy từ Vals AI, những trang benchmark của Vals AI cũng giữ các hàng của mô hình cũ hơn hiển thị.

Lưu ý: Biểu đồ này sử dụng các trang benchmark Vals AI hiện tại thay vì snapshot mô hình-thẻ vào ngày phát hành. Điều đó làm cho nó hữu ích để so sánh hình dạng của tiến độ theo benchmark, nhưng không nên đọc nó như là bản ghi lịch sử vào ngày phát hành. Nếu một mô hình thiếu một hàng được lấy từ một benchmark nhất định, thì mốc này sẽ không xuất hiện cho chỉ số đó. Những mốc thời gian quan trọng trong lịch sử vẫn có thể bao gồm những mô hình đã lỗi thời, ngay cả khi chúng thực sự là những mô hình tốt nhất theo benchmark vào thời điểm đó.

Cách so khớp các mô hình

Có hai lưu ý quan trọng trước khi xem xét các bảng:

Các mô hình nhỏ của Gemma sử dụng những tham số hiệu quả. Gemma 4 E2B có tham số hiệu quả là 2,3B / tham số được load với các embedding là 5,1B, và Gemma 4 E4B có tham số hiệu quả là 4,5B / tham số được load là 8B. Những tham số này được hiểu là các tham số tương ứng với Qwen 2B và 4B ở cấp độ triển khai, chứ không phải là những tham số có trọng số thô tương ứng chính xác.
Qwen công bố các chế độ benchmark khác nhau theo kích thước. Qwen3.5-4B, Qwen3.5-27B và Qwen3.5-35B-A3B chạy ở chế độ tư duy theo mặc định trên các thẻ mô hình của chúng. Qwen3.5-2B công bố điểm số riêng biệt cho chế độ tư duy và không tư duy; bài đăng này sử dụng số điểm của chế độ tư duy bất cứ khi nào thẻ hiển thị kết quả tư duy/không tư duy.

Loại bỏ những benchmark quá nhạy cảm về phương pháp luận để có thể coi là những hàng so sánh trực tiếp rõ ràng ở đây, chẳng hạn như:

AIME 2026 không có công cụ, vì Gemma công bố nhưng kích thước tương ứng của Qwen thì không.
SWE-bench Verified, vì Qwen công bố cho các mô hình lớn hơn nhưng Gemma 4 thì không.
CodeForces, vì Qwen ghi chú rằng kết quả CodeForces của nó được đo trên tập truy vấn riêng của nó, khiến nó trở thành một sự so sánh trực tiếp kém hiệu quả với điểm ELO Codeforces do Google công bố.

Điều đó có nghĩa là các bảng bên dưới nên được đọc là đáng tin cậy nhưng hạn chế: Chúng tốt để so sánh sự trùng lặp đã được công bố, nhưng không phải là toàn bộ câu chuyện về chất lượng trợ lý tổng thể.

Trong các bảng bên dưới, hãy đọc các hàng như sau:

MMLU-Pro: Kiến thức và suy luận tổng quát
GPQA Diamond: Suy luận khoa học chuyên gia
LiveCodeBench v6: Lập trình
Tau2 / TAU2-Bench: Hành vi sử dụng công cụ/agent
MMMLU: Suy luận đa ngôn ngữ
MMMU-Pro: Suy luận đa phương thức

So khớp kích thước

Lớp triển khai	Gemma 4	Qwen 3.5	Vì sao đây là sự kết hợp phù hợp
Edge / mobile	E2B	2B	Các mô hình cục bộ nhỏ nhất
Class 4B	E4B	4B	Laptop nhỏ / cấp độ edge-plus
Large Dense Models (LDM)	31B dense	27B dense	Mô hình không suy luận lớn nhất trong mỗi họ
Efficient MoE	26B A4B	35B-A3B	Class MoE cỡ trung bình gần nhất, với ~4 tỷ so với ~3 tỷ tham số hoạt động

Chọn Qwen 3.5 hay Gemma 4?

Đối với triển khai 2B edge: Qwen3.5-2B nếu bạn quan tâm đến chất lượng văn bản, việc sử dụng công cụ và ngữ cảnh dài; Gemma 4 E2B nếu âm thanh và tích hợp Google-edge quan trọng hơn.

Đối với 4B: Qwen3.5-4B. Đây là lựa chọn dễ nhất trong bài viết này.

Đối với các mô hình lớn, không suy luận: Qwen3.5-27B cho trợ lý và agent ưu tiên văn bản, Gemma 4 31B cho khối lượng công việc đa ngôn ngữ và đa phương thức cân bằng hơn.

Đối với MoE cỡ trung bình: Qwen3.5-35B-A3B trừ khi KPI cốt lõi của bạn là công việc đa ngôn ngữ nặng về lập trình và bạn muốn thử nghiệm cụ thể Gemma 4 26B A4B.

Điều quan trọng là ưu tiên ở cấp độ nhóm giờ đã đủ rõ ràng để hướng dẫn việc lập danh sách rút gọn. Nhưng ưu tiên này không phải là một chiều: Nếu bạn quan tâm đến các benchmark tác vụ tĩnh, overlap được công bố thường chỉ ra Qwen 3.5. Nếu bạn quan tâm đến chất lượng trò chuyện kiểu trợ lý, tín hiệu mạnh mẽ nhất từ bên thứ ba hiện nay chỉ ra rằng Gemma 4 đang ở vị trí hàng đầu.

Tuy nhiên, chất lượng cuối cùng vẫn phụ thuộc vào các câu hỏi của bạn, độ dài ngữ cảnh, các lệnh gọi công cụ và dung sai độ trễ. Đó chính là lý do tại sao các nhóm triển khai thực tế nên coi những bài kiểm tra hiệu năng công khai như một bộ lọc, chứ không phải là câu trả lời cuối cùng.

Thứ Sáu, 10/04/2026 07:30

5 ★ 1 👨 484

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

So sánh hiệu năng Qwen 3.5 và Gemma 4

Trần Mến

So sánh nhanh

Tại sao tuyên bố của Google vẫn có thể đúng?

Xu hướng lớn hơn: Trọng số mở đang được cải thiện gần như nhanh bằng trọng số đóng

Tương tác trên các benchmark

Cách so khớp các mô hình

So khớp kích thước

Chọn Qwen 3.5 hay Gemma 4?

Bạn nên đọc

Cách tạo Personal Agent trong n8n

Gemini Spark: AI Agent “luôn hoạt động” của Google có gì đặc biệt?

Vai trò và ưu điểm của Model Context Protocol (MCP) trong các mô hình AI hiện đại

Hướng dẫn tạo sơ đồ tư duy trên NotebookLM

Perplexity Pro có đáng tiền không? So sánh chi tiết giữa Perplexity Pro và bản miễn phí

So sánh Gemini 3.1 Pro và Gemini 3 Pro: AI mới của Google chậm hơn có chủ đích, nhờ đó thông minh hơn

So sánh Gemma 4 của Google và GPT-5.3 Chat của OpenAI

So sánh các mô hình AI Gemma 4, ChatGPT, Claude và Copilot

Hướng dẫn tạo ảnh móc chìa khóa từ ảnh chụp với AI