Gemini 3 Pro (Preview) là mô hình lập luận đa phương thức chủ lực mới nhất của Google/DeepMind trong gia đình Gemini 3. Nó được định vị là “mô hình thông minh nhất của họ”, được thiết kế cho lập luận sâu, quy trình agentic, lập trình nâng cao và hiểu đa phương thức trong ngữ cảnh dài (văn bản, hình ảnh, âm thanh, video, mã và tích hợp công cụ).
Tính năng chính
- Các phương thức: Văn bản, hình ảnh, video, âm thanh, PDF (và đầu ra công cụ có cấu trúc).
- Agentic/công cụ: Gọi hàm tích hợp, tìm kiếm-như-một-công-cụ, thực thi mã, ngữ cảnh URL và hỗ trợ điều phối các tác tử nhiều bước. Cơ chế thought-signature bảo toàn lập luận nhiều bước xuyên suốt các lượt gọi.
- Lập trình & “vibe coding”: Tối ưu cho sinh front-end, tạo UI tương tác và lập trình theo kiểu agentic (đứng đầu các bảng xếp hạng liên quan do Google báo cáo). Được quảng bá là mô hình “vibe-coding” mạnh nhất của họ cho đến nay.
- Các điều khiển mới cho nhà phát triển:
thinking_level(low|high) để đánh đổi chi phí/độ trễ so với độ sâu lập luận, vàmedia_resolutionđiều chỉnh độ trung thực đa phương thức theo từng ảnh hoặc khung hình video. Những điều này giúp cân bằng hiệu năng, độ trễ và chi phí.
Hiệu năng trên benchmark
- Gemini3Pro đạt hạng nhất ở LMARE với 1501 điểm, vượt qua 1484 điểm của Grok-4.1-thinking và cũng dẫn trước Claude Sonnet 4.5 và Opus 4.1.
- Đồng thời đạt hạng nhất tại đấu trường lập trình WebDevArena với 1487 điểm.
- Trong Humanity’s Last Exam về lập luận học thuật, đạt 37.5% (không dùng công cụ); trong GPQA Diamond về khoa học, 91.9%; và trong cuộc thi toán MathArena Apex, 23.4%, lập kỷ lục mới.
- Về năng lực đa phương thức, đạt 81% trên MMMU-Pro; và 87.6% trên Video-MMMU về hiểu video.
Chi tiết kỹ thuật & kiến trúc
- Tham số “thinking level”: Gemini 3 cung cấp điều khiển
thinking_levelcho phép nhà phát triển đánh đổi giữa độ sâu lập luận nội bộ và độ trễ/chi phí. Mô hình coithinking_levellà một hạn mức tương đối cho lập luận đa bước nội bộ thay vì cam kết token nghiêm ngặt. Mặc định thường làhighđối với Pro. Đây là điều khiển mới giúp tinh chỉnh lập kế hoạch đa bước và độ sâu chain-of-thought. - Đầu ra có cấu trúc & công cụ: Mô hình hỗ trợ đầu ra JSON có cấu trúc và có thể kết hợp với các công cụ tích hợp (Google Search grounding, ngữ cảnh URL, thực thi mã, v.v.). Một số tính năng kết hợp đầu ra có cấu trúc+công cụ hiện chỉ có ở phiên bản xem trước cho
gemini-3-pro-preview. - Tích hợp đa phương thức và agentic: Gemini 3 Pro được xây dựng rõ ràng cho quy trình agentic (công cụ + nhiều tác tử qua môi trường mã/terminal/trình duyệt).
Hạn chế & lưu ý đã biết
- Tính xác thực chưa hoàn hảo — vẫn có thể xuất hiện ảo giác. Dù Google tuyên bố đã cải thiện đáng kể, việc thẩm định có căn cứ và rà soát thủ công vẫn cần thiết trong bối cảnh rủi ro cao (pháp lý, y tế, tài chính).
- Hiệu năng trong ngữ cảnh dài thay đổi theo nhiệm vụ. Hỗ trợ cửa sổ đầu vào 1M là năng lực cứng, nhưng hiệu quả thực nghiệm có thể giảm ở một số benchmark khi đạt chiều dài cực lớn (quan sát suy giảm điểm lẻ tại 1M ở một số bài kiểm tra ngữ cảnh dài).
- Đánh đổi chi phí & độ trễ. Ngữ cảnh lớn và
thinking_levelcao làm tăng tính toán, độ trễ và chi phí; định giá theo bậc dựa trên khối lượng token. Dùngthinking_levelvà chiến lược chia khối để quản lý chi phí. - An toàn & bộ lọc nội dung. Google tiếp tục áp dụng chính sách an toàn và các lớp kiểm duyệt; một số nội dung và hành động vẫn bị hạn chế hoặc kích hoạt chế độ từ chối.
Gemini 3 Pro Preview so với các mô hình hàng đầu khác
So sánh cấp cao (preview → định tính):
So với Gemini 2.5 Pro: Cải thiện theo bước nhảy vọt về lập luận, sử dụng công cụ agentic và tích hợp đa phương thức; xử lý ngữ cảnh lớn hơn nhiều và hiểu văn bản dài tốt hơn. DeepMind cho thấy mức tăng ổn định trên lập luận học thuật, lập trình và nhiệm vụ đa phương thức.
So với GPT-5.1 và Claude Sonnet 4.5 (theo báo cáo): Trên bộ benchmark của Google/DeepMind, Gemini 3 Pro được trình bày là dẫn đầu ở một số chỉ số về agentic, đa phương thức và ngữ cảnh dài (xem Terminal-Bench, MMMU-Pro, AIME). Kết quả so sánh thay đổi theo từng nhiệm vụ.
Trường hợp sử dụng điển hình và giá trị cao
- Tóm tắt tài liệu/sách lớn & Hỏi-Đáp: hỗ trợ ngữ cảnh dài phù hợp cho đội ngũ pháp lý, nghiên cứu và tuân thủ.
- Hiểu & sinh mã ở quy mô repo: tích hợp chuỗi công cụ lập trình và lập luận cải thiện giúp tái cấu trúc codebase lớn và quy trình review tự động.
- Trợ lý sản phẩm đa phương thức: luồng công việc ảnh + văn bản + âm thanh (hỗ trợ khách hàng hấp thụ ảnh chụp màn hình, đoạn gọi và tài liệu).
- Tạo & chỉnh sửa media (ảnh → video): tính năng từ các dòng Gemini trước (Veo/Flow) cho ảnh→video; bản xem trước gợi ý sinh multimedia sâu hơn cho nguyên mẫu và quy trình media.
Cách truy cập Gemini 3 Pro API
Bước 1: Đăng ký lấy API Key
Đăng nhập cometapi.com. Nếu bạn chưa là người dùng, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới Gemini 3 Pro API
Chọn endpoint “gemini-3-pro” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế trong tài khoản của bạn. base url is Gemini Generating Content và Chat
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ trả về trạng thái tác vụ và dữ liệu đầu ra.