Gemini 3 Pro (Preview) ialah model penaakulan multimodal perdana terbaharu dalam keluarga Gemini 3 oleh Google/DeepMind. Ia diposisikan sebagai “model paling pintar mereka setakat ini,” direka untuk penaakulan mendalam, aliran kerja agenik, pengkodan lanjutan, dan kefahaman multimodal berkonteks panjang (teks, imej, audio, video, kod dan integrasi alat).
Ciri utama
- Modaliti: Teks, imej, video, audio, PDF (serta output alat berstruktur).
- Agenik/alatan: Panggilan fungsi terbina dalam, carian sebagai alat, pelaksanaan kod, konteks URL, dan sokongan untuk mengorkestrasi ejen berbilang langkah. Mekanisme tandatangan pemikiran mengekalkan penaakulan berbilang langkah merentasi panggilan.
- Pengkodan & “vibe coding”: Dioptimumkan untuk penjanaan bahagian hadapan, penjanaan UI interaktif, dan pengkodan agenik (ia menduduki tangga teratas papan pemuka berkaitan yang dilaporkan oleh Google). Ia dipasarkan sebagai model “vibe-coding” mereka yang paling kuat setakat ini.
- Kawalan pembangun baharu:
thinking_level(low|high) untuk mengimbangi kos/kependaman berbanding kedalaman penaakulan, danmedia_resolutionmengawal kesetiaan multimodal bagi setiap imej atau bingkai video. Kawalan ini membantu mengimbangi prestasi, kependaman, dan kos.
Prestasi penanda aras
- Gemini3Pro mencapai tempat pertama dalam LMARE dengan skor 1501, mengatasi 1484 mata Grok-4.1-thinking dan juga mendahului Claude Sonnet 4.5 serta Opus 4.1.
- Ia juga meraih tempat pertama dalam arena pengaturcaraan WebDevArena dengan skor 1487.
- Dalam penaakulan akademik Humanity’s Last Exam, ia mencapai 37.5% (tanpa alat); dalam sains GPQA Diamond, 91.9%; dan dalam pertandingan matematik MathArena Apex, 23.4%, menetapkan rekod baharu.
- Dalam keupayaan multimodal, MMMU-Pro mencapai 81%; dan dalam pemahaman video Video-MMMU, 87.6%.
Perincian teknikal & seni bina
- Parameter “Thinking level”: Gemini 3 mendedahkan kawalan
thinking_levelyang membolehkan pembangun mengimbangi kedalaman penaakulan dalaman berbanding kependaman/kos. Model memperlakukanthinking_levelsebagai peruntukan relatif untuk penaakulan dalaman berbilang langkah, bukannya jaminan token yang ketat. Lalai bagi Pro lazimnyahigh. Ini ialah kawalan baharu yang eksplisit untuk pembangun melaraskan perancangan berbilang langkah dan kedalaman rantaian pemikiran. - Output berstruktur & alat: Model menyokong output JSON berstruktur dan boleh digabungkan dengan alat terbina dalam (Google Search grounding, konteks URL, pelaksanaan kod, dsb.). Sesetengah ciri output berstruktur+alat adalah untuk pratonton sahaja pada
gemini-3-pro-preview. - Integrasi multimodal dan agenik: Gemini 3 Pro dibina secara eksplisit untuk aliran kerja agenik (alatan + berbilang ejen melalui kod/terminal/pelayar).
Batasan & peringatan yang diketahui
- Ketepatan fakta tidak sempurna — halusinasi masih boleh berlaku. Walaupun Google mendakwa penambahbaikan besar dalam ketepatan fakta, pengesahan berasaskan sumber dan semakan manusia masih diperlukan dalam senario berisiko tinggi (perundangan, perubatan, kewangan).
- Prestasi konteks panjang berbeza mengikut tugas. Sokongan untuk tetingkap input 1M ialah keupayaan teras, tetapi keberkesanan empirikal boleh menurun pada sesetengah penanda aras pada panjang ekstrem (penurunan titik demi titik diperhatikan pada 1M dalam beberapa ujian konteks panjang).
- Pertukaran kos & kependaman. Konteks besar dan tetapan
thinking_levelyang lebih tinggi meningkatkan pengiraan, kependaman dan kos; peringkat harga terpakai berdasarkan volum token. Gunakanthinking_leveldan strategi chunking untuk mengurus kos. - Keselamatan & penapis kandungan. Google terus menerapkan dasar keselamatan dan lapisan moderasi; kandungan dan tindakan tertentu kekal terhad atau akan mencetuskan mod penolakan.
Perbandingan Gemini 3 Pro Preview dengan model teratas lain
Perbandingan peringkat tinggi (pratonton → kualitatif):
Against Gemini 2.5 Pro: Peningkatan lompatan dalam penaakulan, penggunaan alat agenik, dan integrasi multimodal; pengendalian konteks yang jauh lebih besar dan kefahaman bentuk panjang yang lebih baik. DeepMind menunjukkan peningkatan konsisten merentasi penaakulan akademik, pengkodan, dan tugas multimodal.
Against GPT-5.1 and Claude Sonnet 4.5 (as reported): Pada set penanda aras Google/DeepMind, Gemini 3 Pro ditampilkan mendahului pada beberapa metrik agenik, multimodal, dan konteks panjang (lihat Terminal-Bench, MMMU-Pro, AIME). Keputusan perbandingan berbeza mengikut tugas.
Kes penggunaan biasa dan bernilai tinggi
- Pemeringkasan dokumen/buku berskala besar & Soal Jawab: sokongan konteks panjang menjadikannya menarik untuk pasukan perundangan, penyelidikan, dan pematuhan.
- Kefahaman & penjanaan kod pada skala repo: integrasi dengan rantaian alatan pengkodan dan penaakulan yang dipertingkat membantu penyusunan semula pangkalan kod besar dan aliran kerja semakan kod automatik.
- Pembantu produk multimodal: aliran kerja imej + teks + audio (sokongan pelanggan yang menerima tangkapan skrin, petikan panggilan, dan dokumen).
- Penjanaan & penyuntingan media (foto → video): ciri keluarga Gemini terdahulu kini merangkumi keupayaan foto→video gaya Veo / Flow; pratonton mencadangkan penjanaan multimedia yang lebih mendalam untuk prototaip dan aliran kerja media.
Cara mengakses API Gemini 3 Pro
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke CometAPI console. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
Langkah 2: Hantar Permintaan ke API Gemini 3 Pro
Pilih titik akhir “gemini-3-pro” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumentasi API di laman web kami. Laman kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Gemini Generating Content dan Chat
Masukkan soalan atau permintaan anda ke dalam medan content—ini ialah perkara yang akan dijawab oleh model. Proseskan respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proseskan respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API akan membalas dengan status tugas dan data output.