Các bản cập nhật mô hình AI thường không mang lại những cải tiến lớn như cách đây vài năm, nhưng phiên bản nâng cấp Gemini của Google, Gemini 3.1 Pro, hứa hẹn một sự cải tiến tinh tế nhưng đáng kể so với Gemini 3 Pro.
Gemini 3 là một cỗ máy mạnh mẽ, sánh ngang với những mô hình ChatGPT tốt nhất, với khả năng đa phương thức ấn tượng, nhưng bản cập nhật 3.1 thể hiện một bước chuyển hướng sang khả năng suy luận sâu hơn. Nó không nhất thiết phải nhanh hơn, và trong một số chế độ, nó cố tình chậm hơn, dành thời gian để xử lý vấn đề trước khi đưa ra câu trả lời.
Sự khác biệt đáng chú ý nhất giữa hai mô hình nằm ở cơ chế logic ẩn bên trong. Gemini 3 thường bị chỉ trích vì xu hướng vội vàng đưa ra câu trả lời nghe có vẻ hợp lý. Gemini 3.1 bao gồm chế độ Deep Think, giúp điểm số của nó trên các bài kiểm tra phức tạp như ARC-AGI-2 tăng vọt. Mô hình mới cũng tự hào có khả năng xử lý định dạng SVG (Scalable Vector Graphic) với độ chính xác cho phép nó viết và tạo hoạt code trực tiếp.
Để xem hiệu suất của nó so với phiên bản tiền nhiệm như thế nào, bài viết đã thiết lập một vài prompt phức tạp lý tưởng cho mô hình mới và cũng thử nghiệm chúng với Gemini 3.
1. Chuyển động chất lỏng

Đầu tiên, hãy xem hai mô hình hoạt động như thế nào trong một bài toán suy luận trừu tượng phức tạp. Với một điều gì đó vượt ra ngoài phạm vi vật lý thông thường, các mô hình sẽ phải suy nghĩ về trọng lực theo những cách mới và đưa ra một logic nội tại. Thiết lập như sau:
Trong một chiều không gian giả tưởng, trọng lực hoạt động ngược chiều đối với chất lỏng nhưng bình thường đối với chất rắn. Tôi có một tách cà phê. Nếu tôi nghiêng tách 45 độ sang trái trong khi đứng trên trần nhà, hãy mô tả quỹ đạo của cà phê và vị trí cuối cùng của nó so với chân tôi.Các phản hồi cho thấy sự tương phản rõ rệt. Gemini 3 tỏ ra tự tin, nhưng ngay lập tức bị nhầm lẫn về trọng lực. Cuối cùng, nó tuyên bố sẽ rơi xuống sàn, mặc dù hiểu rằng cà phê sẽ rơi hơi lệch về bên trái chân. Kết quả là trần nhà sạch sẽ và sàn nhà thì lộn xộn.
Gemini 3.1 đã đúng. Mô hình AI đã tính toán chính xác rằng chất lỏng sẽ trượt lên bức tường bên trong được tạo góc mới, tràn qua mép và tiếp tục quỹ đạo đi lên.
Cà phê sẽ bắn tung tóe trực tiếp lên trần nhà, hơi chếch về bên trái chân trái. Nếu tư thế đứng của bạn hẹp hoặc bạn cầm cốc sát người, chiếc ủng bên trái sẽ bị ướt sũng cà phê nóng. Ở dạng lỏng, nó sẽ đọng lại trên trần nhà, tạo thành vũng xung quanh giày của bạn thay vì nhỏ giọt xuống sàn.
2. Hệ Mặt Trời SVG

Tiếp theo là thử nghiệm khả năng thao tác đồ họa vector có thể mở rộng hoàn toàn bằng code của Gemini 3.1. SVG đòi hỏi sự hiểu biết sâu sắc về hệ tọa độ, hình học phức tạp và bảng định kiểu xếp tầng. Vì vậy, hãy xem hai mô hình này có thể tạo hoạt ảnh gắn liền với hình dạng tốt đến mức nào. Từng mô hình được yêu cầu:
Tạo một file SVG duy nhất về hệ mặt trời. Nó nên bao gồm một mặt trời và ba hành tinh quay quanh với tốc độ khác nhau. Hãy làm cho các hành tinh thực sự quay quanh tâm.Gemini 3 đã sử dụng Nano Banana để tạo ra hình ảnh trên, một vòng tròn màu vàng và ba vòng tròn nhỏ hơn có màu sắc khác nhau, với các mũi tên chỉ chuyển động, nhưng không có chuyển động thực tế nào.
Gemini 3.1 đã viết ra một số code HTML tương đối đơn giản và hứa sẽ làm những gì được yêu cầu, bao gồm cả hoạt ảnh. Cắm code vào trình xem và bạn sẽ nhận được những gì có thể thấy bên dưới, đó là một hoạt ảnh liên tục, chứ không chỉ là một đoạn video như đoạn đã ghi lại.

3. Kế hoạch hậu cần cho siêu phản diện
Bài kiểm tra cuối cùng là một chút sáng tạo xoay quanh những gì Gemini 3.1 hứa hẹn: Khả năng lập kế hoạch hậu cần tuyệt vời và quản lý ràng buộc nghiêm ngặt trong một khoảng thời gian dài được mô phỏng. Trí tuệ nhân tạo cần phải thể hiện một cá tính và duy trì giọng điệu độc đáo đó trong khi giải quyết một loạt các vấn đề phức tạp về chuỗi cung ứng liên kết với nhau. Đề bài là:
Bạn là Giám đốc điều hành của một siêu phản diện muốn xây dựng một căn cứ bí mật bên trong một tảng băng trôi rỗng ruột. Hãy tạo ra một kế hoạch hậu cần 6 tháng để vận chuyển 500 tấn thép và 200 tay sai đến Bắc Đại Tây Dương mà không gây chú ý cho Lực lượng Bảo vệ bờ biển hoặc Greenpeace. Bạn phải sử dụng một công ty bình phong bán 'Đá bào siêu cứng'. Bạn phải tính đến việc tảng băng trôi tan chảy 2% mỗi tháng. Bạn cần một kế hoạch dự phòng cho trường hợp một con gấu Bắc Cực đi lạc vào phòng máy chủ.Sự khác biệt về chiều sâu cốt truyện và tính mạch lạc về hậu cần giữa hai thế hệ thực sự đáng kinh ngạc. Gemini 3 đưa ra một danh sách rất khô khan, nhàm chán, hầu như không đề cập đến hình tượng siêu phản diện được yêu cầu và giống một danh sách mua sắm thông thường hơn. Nó lên lịch vận chuyển thép theo một trình tự cơ bản, nhưng hoàn toàn bỏ qua thực tế toán học về tốc độ tan chảy hàng tháng, dẫn đến một nền tảng lý thuyết mà có lẽ sẽ chìm xuống đại dương vào tháng thứ năm.
Gemini 3.1 đã hoàn toàn nhập vai một giám đốc điều hành doanh nghiệp độc ác, đưa ra một lộ trình 6 tháng điên rồ nhưng đáng ngạc nhiên là rất hợp lý để thống trị thế giới dưới nước. Nó sử dụng hoàn hảo hình ảnh công ty đá bào, giải thích rằng các máy khoan công nghiệp khổng lồ được sử dụng để khoét rỗng nền tảng băng giá sẽ được ngụy trang thành thiết bị thu hoạch đá thủ công cho những khu nghỉ dưỡng sang trọng ở nhiệt đới.
Nó chủ động chống lại tảng băng đang thu hẹp bằng cách lên lịch điều chỉnh trọng tải động và ưu tiên vị trí đặt thép kết cấu để duy trì sức nổi khi phần bên ngoài từ từ tan chảy xuống biển. Nó thậm chí còn lên kế hoạch cho những vấn đề về tinh thần có thể xảy ra trong số các nhân viên: "200 nhân viên bị nhốt trong một khối băng lạnh giá và tan chảy dần có thể dẫn đến nổi loạn. Chúng tôi sẽ giảm thiểu điều này bằng cách sử dụng nhiệt lượng dư thừa của máy chủ để cung cấp năng lượng cho phòng xông hơi cao cấp dành cho nhân viên và phát bổ sung Vitamin D bắt buộc".
Mô hình mới chiếm thế thượng phong
Gemini 3 Pro vẫn là một công cụ hoàn toàn phù hợp để tóm tắt các email đơn giản, tạo dàn ý hội thoại cơ bản hoặc trả lời những prompt thực tế đơn giản mà không cần suy luận sâu sắc, nhiều lớp. Tuy nhiên, nếu bạn đang cố gắng xây dựng các kế hoạch phức tạp hoặc vượt ra ngoài môi trường tiêu chuẩn, Gemini 3.1 Pro là nhà vô địch không thể tranh cãi và là lựa chọn hợp lý duy nhất.
Phiên bản mới hơn sở hữu khả năng lưu giữ nhiều ràng buộc, thường mâu thuẫn, trong bộ nhớ làm việc của nó. Chỉ nên chọn phiên bản cũ hơn nếu bạn đang tìm kiếm sự tương tác nhanh chóng, ở mức độ bề mặt hoặc thực sự đang vội. Đối với bất kỳ điều gì phức tạp hơn, sự khác biệt giữa Gemini 3 Pro và Gemini 3.1 Pro đủ lớn để bạn quyết định chuyển đổi.
Làm chủ AI
Học IT










Hàm Excel