Gemini 3 Pro (Preview) là mô hình lập luận đa phương thức chủ lực mới nhất của Google/DeepMind trong dòng Gemini 3. Mô hình được định vị là “mô hình thông minh nhất của họ cho đến nay”, được thiết kế cho lập luận sâu, quy trình tác tử, lập trình nâng cao và khả năng hiểu đa phương thức với ngữ cảnh dài (văn bản, hình ảnh, âm thanh, video, mã và tích hợp công cụ).
Tính năng chính
- Các phương thức: Văn bản, hình ảnh, video, âm thanh, PDF (và đầu ra công cụ có cấu trúc).
- Tác tử/công cụ: Gọi hàm tích hợp, tìm kiếm như một công cụ, thực thi mã, ngữ cảnh URL, và hỗ trợ điều phối tác tử nhiều bước. Cơ chế “chữ ký suy nghĩ” bảo toàn lập luận nhiều bước giữa các lần gọi.
- Lập trình & “vibe coding”: Tối ưu cho sinh front-end, tạo UI tương tác, và lập trình theo tác tử (đứng đầu các bảng xếp hạng liên quan do Google báo cáo). Được quảng bá là mô hình “vibe-coding” mạnh nhất của họ cho đến nay.
- Các điều khiển mới cho nhà phát triển:
thinking_level(low|high) để cân bằng chi phí/độ trễ so với độ sâu lập luận, vàmedia_resolutionkiểm soát độ trung thực đa phương thức theo từng ảnh hoặc khung hình video. Các điều khiển này giúp cân bằng hiệu năng, độ trễ và chi phí.
Hiệu năng trên benchmark
- Gemini3Pro giành vị trí số 1 tại LMARE với điểm số 1501, vượt qua 1484 điểm của Grok-4.1-thinking và dẫn trước cả Claude Sonnet 4.5 và Opus 4.1.
- Mô hình cũng đứng đầu đấu trường lập trình WebDevArena với 1487 điểm.
- Trong bài kiểm tra học thuật Humanity’s Last Exam, đạt 37.5% (không dùng công cụ); trong GPQA Diamond về khoa học, 91.9%; và trong cuộc thi toán MathArena Apex, 23.4%, lập kỷ lục mới.
- Về năng lực đa phương thức, MMMU-Pro đạt 81%; và trong đánh giá hiểu video Video-MMMU, đạt 87.6%.

Chi tiết kỹ thuật & kiến trúc
- Tham số “Thinking level”: Gemini 3 cung cấp điều khiển
thinking_levelcho phép nhà phát triển cân bằng độ sâu lập luận nội bộ với độ trễ/chi phí. Mô hình coithinking_levelnhư một mức cho phép tương đối cho lập luận nhiều bước bên trong, thay vì một cam kết token nghiêm ngặt. Mặc định thường làhighđối với bản Pro. Đây là điều khiển mới, rõ ràng để tinh chỉnh lập kế hoạch nhiều bước và độ sâu chuỗi suy luận. - Đầu ra có cấu trúc & công cụ: Mô hình hỗ trợ đầu ra JSON có cấu trúc và có thể kết hợp với các công cụ tích hợp (Google Search grounding, ngữ cảnh URL, thực thi mã, v.v.). Một số tính năng kết hợp đầu ra có cấu trúc + công cụ hiện chỉ có ở bản preview cho
gemini-3-pro-preview. - Tích hợp đa phương thức và tác tử: Gemini 3 Pro được xây dựng rõ ràng cho các luồng tác tử (công cụ + nhiều tác tử trên mã/terminal/trình duyệt).
Hạn chế & lưu ý đã biết
- Tính đúng sự thật chưa hoàn hảo — vẫn có thể xuất hiện “ảo giác”. Dù Google cho biết đã cải thiện đáng kể tính chính xác, việc kiểm chứng có căn cứ và rà soát bởi con người vẫn cần thiết trong các bối cảnh rủi ro cao (pháp lý, y tế, tài chính).
- Hiệu năng với ngữ cảnh dài thay đổi theo tác vụ. Hỗ trợ cửa sổ đầu vào 1M là năng lực kỹ thuật cứng, nhưng hiệu quả thực nghiệm có thể giảm trên một số benchmark ở độ dài cực lớn (ghi nhận suy giảm cục bộ tại 1M trong một số bài kiểm tra ngữ cảnh dài).
- Đánh đổi giữa chi phí & độ trễ. Ngữ cảnh lớn và thiết lập
thinking_levelcao làm tăng tính toán, độ trễ và chi phí; các mức giá áp dụng theo khối lượng token. Sử dụngthinking_levelvà các chiến lược chia nhỏ để quản lý chi phí. - An toàn & lọc nội dung. Google tiếp tục áp dụng các chính sách an toàn và các lớp kiểm duyệt; một số nội dung và hành động vẫn bị hạn chế hoặc sẽ kích hoạt chế độ từ chối.
Gemini 3 Pro Preview so với các mô hình hàng đầu khác
So sánh tổng quan (preview → định tính):
So với Gemini 2.5 Pro: Cải thiện nhảy vọt về lập luận, sử dụng công cụ tác tử và tích hợp đa phương thức; xử lý ngữ cảnh lớn hơn nhiều và hiểu nội dung dài tốt hơn. DeepMind cho thấy các mức tăng ổn định trên lập luận học thuật, lập trình và nhiệm vụ đa phương thức.
So với GPT-5.1 và Claude Sonnet 4.5 (theo báo cáo): Trên bộ benchmark của Google/DeepMind, Gemini 3 Pro được trình bày là dẫn đầu ở nhiều chỉ số về tác tử, đa phương thức và ngữ cảnh dài (xem Terminal-Bench, MMMU-Pro, AIME). Kết quả so sánh thay đổi theo từng tác vụ.
Các trường hợp sử dụng điển hình và giá trị cao
- Tóm tắt tài liệu/sách lớn & Hỏi&Đáp: hỗ trợ ngữ cảnh dài khiến mô hình phù hợp với các đội ngũ pháp lý, nghiên cứu và tuân thủ.
- Hiểu và sinh mã ở quy mô repo: tích hợp với các chuỗi công cụ lập trình và lập luận được cải thiện giúp tái cấu trúc codebase lớn và quy trình tự động duyệt mã.
- Trợ lý sản phẩm đa phương thức: quy trình hình ảnh + văn bản + âm thanh (hỗ trợ khách hàng tiếp nhận ảnh chụp màn hình, đoạn trích cuộc gọi và tài liệu).
- Tạo và chỉnh sửa media (ảnh → video): các tính năng trước đây của họ trong gia đình Gemini nay bao gồm khả năng chuyển ảnh→video theo phong cách Veo / Flow; bản preview gợi ý năng lực tạo đa phương tiện sâu hơn cho nguyên mẫu và quy trình media.