Gemini 3 Flash vs Gemini 3 Pro: Harga, Kelajuan & Penaakulan

Keluarga Gemini 3 lewat 2025 daripada Google kini merangkumi dua model yang diposisikan dengan jelas untuk pembangun dan pengguna kuasa: Gemini 3 Flash — dioptimumkan untuk kadar hantaran mentah, kependaman rendah, dan kecekapan kos — serta Gemini 3 Pro — dioptimumkan untuk penaakulan multimodal paling mendalam, tetingkap konteks terbesar dan siling penanda aras tertinggi. Dari segi praktikal, Flash direka untuk mengalihkan sempadan “productive-flow” bagi aplikasi pembangun berfrekuensi tinggi dan interaktif; Pro direka untuk memaksimumkan kecerdasan bagi pertanyaan tunggal dan mengendalikan input multimodal yang sangat besar atau kompleks. Pertukaran adalah jelas dan boleh diukur: Flash memberikan kependaman yang jauh lebih rendah dan kos per token yang ketara lebih rendah sambil mengekalkan banyak keupayaan penaakulan Gemini 3; Pro memberikan skor penanda aras tertinggi, mod paling canggih (contohnya, Deep Think), dan keupayaan yang lebih besar dengan pengawalan keselamatan pada kos dan kependaman yang lebih tinggi.

Apakah Gemini 3 Flash?

(Dan masalah apa yang dibina untuk diselesaikan?)

Gemini 3 Flash ialah ahli terbaharu “speed-first” dalam keluarga Gemini 3 Google. Diumumkan dan dilancarkan pada pertengahan Disember 2025, Flash dioptimumkan secara jelas untuk kependaman rendah, kecekapan token dan kebolehcapaian meluas: ia menjadi model lalai dalam aplikasi Gemini dan AI Mode dalam Google Search, serta tersedia kepada pembangun melalui Gemini API, Google AI Studio, Vertex AI dan Gemini CLI. Matlamat reka bentuk yang dinyatakan adalah untuk membawa “Pro-grade reasoning” pada kelajuan tahap Flash dan titik harga yang jauh lebih rendah supaya kes penggunaan berfrekuensi tinggi dan interaktif (pembantu pengekodan, aplikasi multimodal masa nyata, AI Mode dalam carian, interaksi CLI langsung) boleh beroperasi pada skala.

Kekuatan teras Flash

Kependaman dan kadar hantaran: direkayasa untuk masa giliran pendek dan kadar permintaan tinggi (Google memposisikannya sebagai model terpantas dalam keluarga Gemini 3).
Kecekapan token: Google mendakwa Flash menggunakan lebih sedikit token untuk tugas setara berbanding generasi Flash/Pro terdahulu, mengurangkan kos setiap permintaan.
Keupayaan multimodal dan agentic: walaupun “ringan,” Flash mengekalkan penaakulan multimodal Gemini 3 (teks, imej, audio, video) dan menyokong pemanggilan alat beragen (agentic).

Apakah Gemini 3 Pro?

Gemini 3 Pro ialah model “depth-first” perdana Google dalam keluarga Gemini 3. Ia diposisikan untuk beban kerja penaakulan paling sukar: penyelidikan mendalam, perancangan kompleks jangka panjang, aliran kerja beragen berbilang langkah, pangkalan kod besar, dan tugas di mana peningkatan terakhir dalam ketepatan atau kebolehpercayaan benar-benar penting. Pro menekankan kesetiaan penaakulan, integrasi alat (panggilan fungsi penstriman, pemanggilan alat yang mantap), dan tetingkap konteks yang sangat besar (Google mengiklankan aras token tinggi untuk Pro). Pro tersedia kepada pelanggan berbayar (Google AI Pro / Ultra tiers) dan melalui API perusahaan.

Kekuatan teras Pro

Kedalaman dan kestabilan penaakulan: ditala untuk penaakulan berperingkat dan mod kegagalan lebih rendah pada penanda aras kompleks.
Sokongan konteks besar: disasarkan pada aliran kerja yang memerlukan tetingkap konteks yang sangat panjang (sintesis berbilang dokumen, seluruh repositori, PDF besar).
Ciri perusahaan dan pemanggilan alat: sokongan lebih kaya untuk pelbagai corak alat, integrasi grounding dan pengambilan untuk sistem beragen produksi.

Bagaimana prestasi Gemini 3 Flash dan Gemini 3 Pro pada penanda aras?

Flash berprestasi sangat baik untuk banyak tugas pembangun/agen dunia sebenar (sering merapatkan jurang dengan Pro), dan dalam beberapa penanda aras pengekodan malah mengatasi Pro — manakala Pro kekal sebagai pilihan utama untuk tugas penaakulan paling sukar dan sintesis konteks panjang.

Gemini 3 Flash vs Gemini 3 Pro: Harga, Kelajuan & Penaakulan

Penanda aras di mana Pro mendahului

GPQA Diamond (sains peringkat siswazah): Pro ≈ 91.9% (meningkat kepada ≈ 93.8% dengan Deep Think dalam beberapa larian), menunjukkan prestasi tertinggi pada set soalan sains peringkat siswazah.
Terminal-Bench 2.0 (tugas terminal beragen): Pro: 54.2% — mendahului jelas dalam ujian penggunaan alat/operasi terminal berbanding model terdahulu dan ramai rakan sebaya. Ini ialah penunjuk penting untuk automasi kod/terminal beragen.
ARC-AGI-2 (penaakulan visual abstrak): Pro menunjukkan peningkatan bermakna berbanding versi Gemini terdahulu (contohnya, Pro 31.1% vs sebelumnya 4.9% dalam model lama; Deep Think meningkatkan lagi). Ini ialah lonjakan relatif besar, walaupun peratus mutlak kekal sederhana untuk tugas paling sukar.

Penanda aras di mana Flash cemerlang atau bersaing baik

GPQA / MMMU / tugas praktikal: Laporan awal menunjukkan Flash menghasilkan skor gaya GPQA yang sangat tinggi dalam banyak larian (liputan media menyenaraikan GPQA Diamond ≈ 90.4% dan MMMU Pro ≈ 81.2%), menunjukkan bahawa Flash menghampiri ketepatan setara Pro pada rangkaian tugas yang luas sambil jauh lebih pantas dan murah.
Pengekodan dan tugas pendek: Flash boleh lebih pantas dan kadangkala mengatasi Pro pada tugas pengekodan satu pusingan pantas atau penilaian pendek kerana kependaman lebih rendah dan kecekapan token; Flash memperoleh skor lebih tinggi pada ujian pengekodan terpilih sambil menelan kos jauh lebih rendah setiap larian. Keputusan komuniti ini adalah awal dan berbeza mengikut rangka ujian.

Maksud angka untuk kedalaman penaakulan

Siling mutlak: Gemini 3 Pro masih menetapkan siling tertinggi pada penanda aras paling sukar (contohnya, LMArena Elo, Humanity’s Last Exam dengan Deep Think). Ini bermakna jika anda memerlukan peningkatan terakhir dalam ketepatan untuk masalah paling sukar (penyelidikan peringkat PhD, penaakulan saintifik baharu, ketepatan matematik maksimum), Pro ialah pilihan yang lebih selamat.
Kecekapan Pareto: Gemini 3 Flash merapatkan jurang pada banyak tugas praktikal (QA, pengekodan, pengekstrakan multimodal) sambil memberikan keuntungan besar dalam kelajuan/kos. Untuk banyak tugas produksi yang mengutamakan responsif dan kadar hantaran, Flash mewakili pertukaran prestasi-kos yang lebih baik.
Skor ≠ keunggulan sejagat. Penanda aras menangkap tingkah laku pada tugas terkurasi. Nombor SWE-bench/pengekodan Flash yang cemerlang menunjukkan ia dioptimumkan untuk tugas berstruktur, beragen dan berkemungkinan mendapat manfaat daripada seni bina dan tetapan penyahkodan yang sepadan dengan beban kerja pengekodan umum.
Kependaman dan kos mengubah pertukaran praktikal. Jika model sedikit lebih baik pada ketepatan mutlak tetapi 3× lebih perlahan dan 6× lebih mahal untuk dijalankan, Flash selalunya menjadi pilihan pintar untuk sistem produksi yang memerlukan responsif dan kos rendah. Gemini 3Flash kira-kira 3× lebih pantas daripada garis dasar Gemini 2.5 Pro sambil mengekalkan kualiti penaakulan tinggi.

Gemini 3 Flash vs Gemini 3 Pro: harga dan spesifikasi

Ringkasan teknikal model

Tetingkap konteks (input): Kedua-dua Gemini 3 Pro dan Gemini 3 Flash diterbitkan dengan sehingga 1,000,000 token tetingkap konteks input; Pro turut mengiklankan output 64k dan varian imej khusus dengan tetingkap mereka sendiri. (Nota: tingkah laku UI web dunia sebenar dan had kadar mungkin berbeza mengikut produk; lihat "Caveats" di bawah.)
Input multimodal disokong: teks, imej, audio, video, dan PDF untuk kedua-dua Pro dan Flash (dengan keupayaan imej/video tersedia melalui Google AI Studio / API / Vertex).
Mod khas: Pro menyokong Deep Think dan ciri beragen khusus Pro (Google Antigravity / tooling) dan digunakan untuk beban kerja keselamatan lebih tinggi. Flash menyokong tahap penaakulan boleh dikonfigurasi dan output berstruktur tetapi dioptimumkan untuk kependaman dan kos lebih rendah.

Harga pembangun/API (aras harga pembangun diterbitkan — per 1M token)

(Nilai di bawah diambil daripada Gemini API / dokumen model Google yang diterbitkan untuk keluarga Gemini 3. Ia mencerminkan harga pratonton yang diterbitkan per 1M token untuk input/output; rujuk pengebilan untuk kadar produksi tepat yang akan dicaj kepada anda.)

gemini-3-flash-preview (Flash):

Input: $0.50 per 1M token
Output: $3.00 per 1M token.

gemini-3-pro-preview (Pro)

Tier A (<200k tokens konteks): $2 / $12 per 1M token (input / output)
Tier B (>200k tokens konteks atau konteks berat): $4 / $18 per 1M token — harga meningkat untuk konteks yang sangat besar.

Maksud praktikal: untuk penggunaan token setara dalam jalur biasa (<200k tokens), Flash berharga kira-kira 4× lebih rendah per token pada input dan 4× lebih rendah pada output berbanding Pro dalam harga pratonton yang diterbitkan. Untuk konteks besar (>200k), kos Pro boleh menjadi jauh lebih tinggi.

CometAPI menyediakan akses API kepada Gemini 3 Flash dan Gemini 3 Pro, dan harga API adalah didiskaunkan.

Harga pengguna / langganan (aplikasi Gemini / pelan Google AI)

Google AI Pro (aras pengguna/kuasa yang membuka ciri Gemini 3 Pro dalam aplikasi Gemini dan integrasi ruang kerja) diterbitkan pada $19.99 sebulan (ketersediaan dan penukaran mata wang tempatan terpakai). Google juga menawarkan aras "AI Ultra" dengan had lebih tinggi pada kos bulanan yang jauh lebih tinggi untuk akses gred perusahaan

Gemini 3 Flash vs Gemini 3 Pro: penaakulan dan pemahaman multimodal

Kedalaman penaakulan: Pro vs Flash

Gemini 3 Pro secara konsisten dibentangkan sebagai model penaakulan yang lebih dalam. Pada penanda aras sains peringkat siswazah (GPQA Diamond) dan penanda aras penggunaan alat beragen (Terminal-Bench 2.0), Pro mencatat pada atau hampir tahap tercanggih (contohnya, GPQA Diamond ≈ 91.9% untuk Pro dengan penambahbaikan Deep Think kepada 93.8% dalam beberapa larian). Nombor tersebut meletakkan Pro di hadapan ramai pesaing pada tugas kompleks dan khusus domain.

Beragen, pengekodan dan sintesis multimodal: Pilihan seni bina dan penalaan Gemini 3 Flash membolehkannya berprestasi mengejutkan baik pada beberapa penanda aras pengekodan dan penaakulan berstruktur, dan dalam banyak tugas sebenar perbezaan yang dapat dilihat pengguna berbanding Pro adalah kecil — terutamanya apabila kawalan API “thinking level” ditala. Ujian awal bebas dan liputan media menunjukkan Gemini 3 Flash menyamai atau mengatasi Pro pada penanda aras pengekodan beragen terpilih. Tetapi itu tidak bermakna Gemini 3 Flash menyamai Gemini 3 Pro merentasi setiap senario penyelidikan bentuk panjang atau penaakulan berambigu tinggi.

Sebaliknya, Flash dioptimumkan untuk mengimbangi kualiti dan kelajuan. Gemini 3 Flash memberikan penaakulan yang tinggi untuk majoriti tugas seharian sambil tidak menyamai prestasi peringkat tertinggi Pro pada masalah akademik atau berbilang langkah paling sukar. Pertukaran ini adalah jelas: respons lebih pantas dengan rantaian penaakulan yang sedikit lebih cetek.

Prestasi multimodal (imej/video/audio)

Kedua-dua Flash dan Pro dalam keluarga Gemini 3 menyokong input multimodal (imej, video, audio). Gemini 3 Flash menyokong bilangan imej yang sangat besar setiap prompt (sehingga 900 imej setiap prompt bergantung pada konteks), had saiz fail untuk muat naik sebaris (contohnya, 7 MB setiap fail sebaris, sehingga 30 MB dari Cloud Storage untuk beberapa penggunaan), dan had MIME/jenis/resolusi yang jelas, menunjukkan bahawa antara muka multimodal Flash adalah gred produksi dan ditujukan untuk penggunaan berat. Kekuatan multimodal Gemini 3 Pro muncul dalam penanda aras yang memerlukan penaakulan visual dan mengintegrasikan alat untuk pelaksanaan kod/terminal. Untuk tugas penaakulan visual paling kompleks, Gemini 3 Pro mengekalkan kelebihan; untuk pensaransian multimedia ber-throughput tinggi dan tugas penglihatan langsung, Flash boleh lebih menjimatkan kos dan lebih pantas.

Contoh kontras penanda aras

Penaakulan visual (ARC-AGI-2): Gemini 3 Pro menunjukkan peningkatan besar berbanding Gemini 2.5 Pro dan mengatasi ramai rakan sebaya, isyarat bahawa penambahbaikan seni bina Pro secara khusus meningkatkan penaakulan visual abstrak. Gemini 3 Flash mencatat baik pada tugas multimodal praktikal tetapi tidak menyamai Pro pada penanda aras teka-teki visual paling sukar.

Bagaimana mereka dibandingkan dari segi kelajuan mentah — adakah Gemini 3 Flash benar-benar lebih pantas?

Gemini 3 Flash boleh memberikan sehingga ~3× kadar hantaran / kependaman lebih rendah berbanding garis dasar Flash/Pro terdahulu (kenyataan umumnya membandingkan Flash dengan Gemini 2.5 Pro atau model Pro generasi sebelumnya). Kelebihan kelajuan itu ialah titik jualan utama Gemini 3 Flash: memberikan jawapan “Pro-grade” pada kependaman tahap Flash. Gemini 3 Flash kerap mengatasi Pro pada tugas sensitif throughput (contohnya, prompt pengekodan pendek, kependaman giliran chat) sambil masih mencatat berdaya saing pada banyak penanda aras yang mengukur ketepatan per unit masa.

Token, token “thinking” dan caching

Google membezakan token input (apa yang anda hantar), token output (apa yang model pulangkan, termasuk token “thinking” dalaman dalam beberapa mod) dan kos cache konteks. Flash dioptimumkan untuk menggunakan lebih sedikit token thinking bagi banyak tugas (~30% kurang daripada 2.5 Pro untuk tugas setara), yang mengurangkan kos efektif per permintaan diselesaikan dalam banyak senario praktikal. Harga dan penggunaan token Pro mencerminkan lintasan penaakulan dalaman yang lebih dalam yang boleh meningkatkan penggunaan token dan kos, terutamanya untuk konteks yang sangat besar.

Cara mentafsir “lebih pantas” dalam praktik

Chat interaktif: Gemini 3 Flash akan terasa lebih tangkas; gunakannya untuk UI perbualan di mana pengalaman pengguna bergantung pada respons sub-saat.

Kerja besar, berat pengiraan: Untuk rantaian pemikiran panjang dan berat pengiraan di mana token thinking bertambah, penaakulan lebih dalam Pro mungkin memerlukan lebih banyak pengiraan dan dengan itu kependaman lebih tinggi. Dalam beberapa senario beragen, lintasan dalaman tambahan Pro (contohnya, mod Deep Think) mungkin sengaja mengambil masa lebih lama untuk mencapai jawapan berkualiti lebih tinggi.

Apakah kes penggunaan dunia sebenar dan saranan?

Pilih Gemini 3 Flash jika anda perlukan:

Chat interaktif ber-throughput tinggi, kependaman rendah (aplikasi pengguna, bot sokongan, carian perbualan).
Pensaransian multimodal yang murah dan pantas (video, set imej) di mana kelajuan respons dan throughput lebih penting daripada tahap tertinggi penaakulan berbilang langkah.
Ujian A/B pukal, pembantu dalam produk, dan pelengkapan kod di mana iterasi pendek per panggilan mendominasi.

Pilih Gemini 3 Pro jika anda perlukan:

Soal jawab sains tercanggih, penyelesaian masalah matematik/fizik di mana kebolehpercayaan tahap siswazah diperlukan.
Sistem beragen yang mesti mengoperasikan terminal, melaksanakan langkah-langkah alat, menjalankan dan menyahpepijat kod, atau mengorkestrakan rantaian alat berbilang langkah (kekuatan Terminal-Bench Pro penting di sini).
Beban kerja di mana peningkatan ketepatan atau penaakulan bukan verbal yang meningkat berbaloi dengan kos token dan kependaman yang bertambah.

Corak penggunaan hibrid (amalan terbaik praktikal)

Ramai pasukan produksi mengamalkan strategi model dwiguna:

Pintu depan = Gemini 3 Flash: layani kebanyakan pengguna interaktif dengan Flash untuk kawalan kos dan responsif.
Eskalasikan = Pro: halakan permintaan penyelidikan bentuk panjang, larian agen khusus atau “eskalasi” kepada Pro, mungkin selepas laluan awal Flash telah menjangkau masalah. Corak ini mengimbangi kos, kependaman dan ketepatan.

Kesimpulan

Gemini 3 Flash dan Gemini 3 Pro bukan semata-mata “lebih pantas vs. lebih pintar” dalam erti binari tulen — ia adalah pertukaran yang direka pada paksi kelajuan/kependaman, kos, dan penaakulan. Flash memajukan sempadan praktikal untuk beban kerja interaktif, ber-throughput tinggi dengan menawarkan banyak keupayaan penaakulan Gemini 3 pada sebahagian kecil kos dan kependaman; Pro mengekalkan dan memperluas siling penaakulan gred penyelidikan Gemini, kesetiaan multimodal, dan perusahaan

Pembangun boleh mengakses Gemini 3 Pro API dan Gemini 3 Flash melalui CometAPI. Untuk bermula, terokai keupayaan model CometAPI dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. Com e tAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda berintegrasi.

Sedia untuk bermula?→ Percubaan percuma Gemini 3 !