Gemini 3 Pro (Preview) là mô hình suy luận đa phương thức chủ lực mới nhất của Google/DeepMind trong gia đình Gemini 3. Nó được định vị là “mô hình thông minh nhất của họ cho đến nay”, được thiết kế cho suy luận sâu, quy trình tác tử, lập trình nâng cao và hiểu đa phương thức với ngữ cảnh dài (văn bản, hình ảnh, âm thanh, video, mã và tích hợp công cụ).
Tính năng chính
- Các phương thức: Văn bản, hình ảnh, video, âm thanh, PDF (và đầu ra công cụ có cấu trúc).
- Tác tử/công cụ: Gọi hàm tích hợp, tìm kiếm như một công cụ, thực thi mã, ngữ cảnh URL và hỗ trợ điều phối tác tử nhiều bước. Cơ chế “thought-signature” duy trì suy luận nhiều bước giữa các lần gọi.
- Lập trình & “vibe coding”: Tối ưu cho tạo front-end, tạo UI tương tác và lập trình tác tử (đứng đầu các bảng xếp hạng liên quan do Google báo cáo). Được quảng bá là mô hình “vibe-coding” mạnh nhất của họ cho đến nay.
- Điều khiển mới cho nhà phát triển:
thinking_level(low|high) để cân đối chi phí/độ trễ với độ sâu suy luận, vàmedia_resolutionđiều khiển độ trung thực đa phương thức theo từng ảnh hoặc khung hình video. Các tùy chọn này giúp cân bằng hiệu năng, độ trễ và chi phí.
Hiệu năng trên benchmark
- Gemini3Pro đạt hạng nhất ở LMARE với 1501 điểm, vượt qua 1484 điểm của Grok-4.1-thinking và cũng dẫn trước Claude Sonnet 4.5 và Opus 4.1.
- Nó cũng đạt hạng nhất ở đấu trường lập trình WebDevArena với 1487 điểm.
- Ở bài Humanity’s Last Exam về suy luận học thuật, đạt 37,5% (không dùng công cụ); ở GPQA Diamond về khoa học, 91,9%; và ở cuộc thi toán MathArena Apex, 23,4%, thiết lập kỷ lục mới.
- Về năng lực đa phương thức, đạt 81% trên MMMU-Pro; và 87,6% ở bài hiểu video Video-MMMU.
Chi tiết kỹ thuật & kiến trúc
- Tham số “Thinking level”: Gemini 3 cung cấp điều khiển
thinking_levelcho phép nhà phát triển đánh đổi giữa độ sâu suy luận nội bộ và độ trễ/chi phí. Mô hình coithinking_levelnhư hạn mức tương đối cho suy luận nhiều bước nội bộ thay vì một đảm bảo token nghiêm ngặt. Mặc định cho bản Pro thường làhigh. Đây là điều khiển mới, rõ ràng để tinh chỉnh lập kế hoạch nhiều bước và độ sâu chuỗi suy nghĩ. - Đầu ra có cấu trúc & công cụ: Mô hình hỗ trợ đầu ra JSON có cấu trúc và có thể kết hợp với các công cụ tích hợp (grounding qua Google Search, ngữ cảnh URL, thực thi mã, v.v.). Một số tính năng kết hợp structured-output+công cụ hiện chỉ có ở bản preview cho
gemini-3-pro-preview. - Tích hợp đa phương thức và tác tử: Gemini 3 Pro được xây dựng rõ ràng cho các quy trình tác tử (công cụ + nhiều tác tử trên mã/terminal/trình duyệt).
Hạn chế & lưu ý đã biết
- Không đảm bảo tính chính xác tuyệt đối — vẫn có khả năng ảo giác. Dù Google cho biết đã cải thiện mạnh về tính xác thực, xác minh có căn cứ và rà soát của con người vẫn cần thiết trong bối cảnh rủi ro cao (pháp lý, y tế, tài chính).
- Hiệu năng ngữ cảnh dài phụ thuộc tác vụ. Hỗ trợ cửa sổ đầu vào 1M là năng lực cứng, nhưng hiệu quả thực nghiệm có thể giảm ở một số benchmark khi đạt chiều dài cực lớn (ghi nhận mức giảm điểm tại 1M trên một số bài kiểm tra ngữ cảnh dài).
- Đánh đổi chi phí & độ trễ. Ngữ cảnh lớn và
thinking_levelcao làm tăng tính toán, độ trễ và chi phí; các bậc giá áp dụng dựa trên lượng token. Dùngthinking_levelvà chiến lược chia khối để quản lý chi phí. - An toàn & bộ lọc nội dung. Google tiếp tục áp dụng chính sách an toàn và các lớp kiểm duyệt; một số nội dung và hành động vẫn bị hạn chế hoặc kích hoạt chế độ từ chối.
Gemini 3 Pro Preview so sánh với các mô hình hàng đầu khác
So sánh cấp cao (preview → định tính):
So với Gemini 2.5 Pro: Cải tiến nhảy vọt về suy luận, sử dụng công cụ mang tính tác tử và tích hợp đa phương thức; xử lý ngữ cảnh lớn hơn nhiều và hiểu văn bản dài tốt hơn. DeepMind cho thấy các cải thiện nhất quán trên suy luận học thuật, lập trình và tác vụ đa phương thức.
So với GPT-5.1 và Claude Sonnet 4.5 (theo báo cáo): Trên bộ benchmark của Google/DeepMind, Gemini 3 Pro được trình bày là dẫn đầu ở nhiều chỉ số về tác tử, đa phương thức và ngữ cảnh dài (xem Terminal-Bench, MMMU-Pro, AIME). Kết quả so sánh thay đổi theo tác vụ.
Trường hợp sử dụng điển hình và giá trị cao
- Tóm tắt tài liệu/sách lớn & Hỏi–Đáp: hỗ trợ ngữ cảnh dài khiến nó hấp dẫn cho các đội pháp lý, nghiên cứu và tuân thủ.
- Hiểu & sinh mã ở quy mô kho: tích hợp với chuỗi công cụ lập trình và suy luận cải thiện giúp tái cấu trúc codebase lớn và quy trình đánh giá mã tự động.
- Trợ lý sản phẩm đa phương thức: quy trình hình ảnh + văn bản + âm thanh (hỗ trợ khách hàng tiếp nhận ảnh chụp màn hình, đoạn trích cuộc gọi và tài liệu).
- Tạo & chỉnh sửa nội dung (ảnh → video): các tính năng trước đây của dòng Gemini nay bao gồm khả năng ảnh→video kiểu Veo / Flow; bản preview gợi ý khả năng tạo đa phương tiện sâu hơn cho nguyên mẫu và quy trình truyền thông.
Cách truy cập API Gemini 3 Pro
Bước 1: Đăng ký lấy API Key
Đăng nhập cometapi.com. Nếu chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy khóa API thông tin truy cập của giao diện. Nhấp “Add Token” tại phần API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới API Gemini 3 Pro
Chọn endpoint “gemini-3-pro” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. Base URL là Gemini Generating Content và Chat
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là phần mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Lấy và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời đã tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.