Gemini 3 Flash vs Gemini 3 Pro: Harga, Kecepatan & Penalaran

Keluarga Gemini 3 milik Google pada akhir 2025 kini mencakup dua model dengan posisi yang jelas untuk pengembang dan pengguna tingkat lanjut: Gemini 3 Flash — dioptimalkan untuk throughput mentah, latensi rendah, dan efisiensi biaya — serta Gemini 3 Pro — dioptimalkan untuk penalaran multimodal terdalam, jendela konteks terbesar, dan batas atas tolok ukur tertinggi. Secara praktis, Flash dirancang untuk mendorong batas “productive-flow” bagi aplikasi pengembang frekuensi tinggi dan interaktif; Pro dirancang untuk memaksimalkan kecerdasan kueri tunggal dan menangani masukan multimodal yang sangat besar atau kompleks. Komprominya lugas dan terukur: Flash menghadirkan latensi yang jauh lebih rendah dan biaya per token yang secara material lebih rendah sambil mempertahankan banyak kemampuan penalaran Gemini 3; Pro menghadirkan skor tolok ukur tertinggi, mode paling canggih (mis., Deep Think), dan kapabilitas yang lebih besar dengan penjagaan keselamatan pada biaya dan latensi yang lebih tinggi.

Apa itu Gemini 3 Flash?

(Dan masalah apa yang ditujukan untuk diselesaikan?)

Gemini 3 Flash adalah anggota terbaru berorientasi “kecepatan-utama” dalam keluarga Gemini 3 dari Google. Diumumkan dan diluncurkan pada pertengahan Desember 2025, Flash secara eksplisit dioptimalkan untuk latensi rendah, efisiensi token, dan aksesibilitas luas: ia menjadi model default di aplikasi Gemini dan AI Mode di Google Search, serta tersedia bagi pengembang melalui Gemini API, Google AI Studio, Vertex AI, dan Gemini CLI. Tujuan desain yang dinyatakan adalah menghadirkan “penalaran kelas Pro” pada kecepatan level Flash dan titik harga yang secara material lebih rendah sehingga use case frekuensi tinggi dan interaktif (asisten coding, aplikasi multimodal waktu nyata, AI Mode pada penelusuran, interaksi CLI langsung) dapat berjalan pada skala.

Kekuatan inti Flash

Latensi dan throughput: direkayasa untuk waktu putar yang singkat dan tingkat permintaan yang tinggi (Google memposisikannya sebagai model tercepat dalam keluarga Gemini 3).
Efisiensi token: Google mengklaim Flash menggunakan lebih sedikit token untuk tugas yang setara dibanding generasi Flash/Pro sebelumnya, mengurangi biaya per permintaan.
Kemampuan multimodal dan agentik: meskipun “ringan,” Flash mempertahankan penalaran multimodal Gemini 3 (teks, gambar, audio, video) dan mendukung pemanggilan alat agentik.

Apa itu Gemini 3 Pro?

Gemini 3 Pro adalah model andalan “kedalaman-utama” dalam keluarga Gemini 3. Model ini diposisikan untuk beban kerja penalaran paling sulit: riset mendalam, perencanaan jangka panjang yang kompleks, alur kerja agentik multi-langkah, basis kode besar, dan tugas-tugas di mana peningkatan akurasi atau keandalan terakhir sangat bernilai. Pro menekankan fidelitas penalaran, integrasi alat (pemanggilan fungsi secara streaming, pemanggilan alat yang tangguh), dan jendela konteks yang sangat besar (Google mengiklankan tier token tinggi untuk Pro). Pro tersedia untuk pelanggan berbayar (Google AI Pro / tier Ultra) dan melalui API enterprise.

Kekuatan inti Pro

Kedalaman penalaran dan stabilitas: dituning untuk penalaran multi-tahap dan mode kegagalan yang lebih rendah pada tolok ukur kompleks.
Dukungan konteks besar: ditargetkan pada alur kerja yang membutuhkan jendela konteks sangat panjang (sintesis multi-dokumen, seluruh repositori, PDF besar).
Fitur enterprise dan pemanggilan alat: dukungan lebih kaya untuk pola alat berbeda, integrasi grounding dan retrieval untuk sistem agentik produksi.

Bagaimana performa Gemini 3 Flash dan Gemini 3 Pro pada tolok ukur?

Flash berkinerja sangat baik untuk banyak tugas pengembang/agentik dunia nyata (sering kali menutup jarak dengan Pro), dan dalam beberapa tolok ukur coding bahkan melampaui Pro — sementara Pro tetap menjadi andalan untuk penalaran tersulit dan tugas sintesis konteks panjang.

Gemini 3 Flash vs Gemini 3 Pro: Harga, Kecepatan & Penalaran

Tolok ukur di mana Pro unggul

GPQA Diamond (ilmu tingkat magister): Pro ≈ 91,9% (naik hingga ≈ 93,8% dengan Deep Think dalam beberapa run), menunjukkan performa puncak pada set pertanyaan ilmiah tingkat magister.
Terminal-Bench 2.0 (tugas terminal agentik): Pro: 54,2% — keunggulan jelas pada pengujian penggunaan alat/operasi terminal dibandingkan model sebelumnya dan banyak rekan. Ini merupakan indikator kunci untuk otomasi kode/terminal yang bersifat agentik.
ARC-AGI-2 (penalaran visual abstrak): Pro menunjukkan peningkatan yang berarti dibanding versi Gemini sebelumnya (mis., Pro 31,1% vs sebelumnya 4,9% pada model lama; Deep Think lebih lanjut meningkatkannya). Ini adalah kenaikan relatif besar, meski persentase absolut tetap rendah untuk tugas tersulit.

Tolok ukur di mana Flash unggul atau bersaing dengan baik

GPQA / MMMU / tugas praktis: Laporan awal menunjukkan Flash menghasilkan skor gaya GPQA yang sangat tinggi dalam banyak run (liputan pers mencantumkan GPQA Diamond ≈ 90,4% dan MMMU Pro ≈ 81,2%), menunjukkan bahwa Flash mendekati akurasi level Pro pada beragam tugas sambil jauh lebih cepat dan lebih murah.
Coding dan tugas pendek: Flash bisa lebih cepat dan terkadang bahkan melampaui Pro pada tugas coding satu putaran atau evaluasi pendek karena latensi yang lebih rendah dan efisiensi token; Flash meraih skor lebih tinggi pada beberapa tes coding terpilih sambil berbiaya jauh lebih rendah per run. Hasil komunitas ini masih awal dan bervariasi menurut harness pengujian.

Apa makna angka-angka tersebut bagi kedalaman penalaran

Batas atas absolut: Gemini 3 Pro tetap menetapkan batas atas tertinggi pada tolok ukur tersulit (mis., LMArena Elo, Humanity’s Last Exam dengan Deep Think). Artinya jika Anda memerlukan tingkat akurasi tertinggi pada masalah tersulit (riset tingkat PhD, penalaran ilmiah baru, akurasi matematika maksimum), Pro adalah pilihan yang lebih aman.
Efisiensi Pareto: Gemini 3 Flash menutup celah pada banyak tugas praktis (QA, coding, ekstraksi multimodal) sambil menghadirkan peningkatan besar pada kecepatan/biaya. Untuk banyak tugas produksi yang memprioritaskan responsivitas dan throughput, Flash menawarkan kompromi biaya-performa yang lebih baik.
Skor ≠ superioritas universal. Tolok ukur menangkap perilaku pada tugas yang dikurasi. Skor SWE-bench/coding Flash yang sangat baik menunjukkan model ini dioptimalkan untuk tugas terstruktur yang bersifat agentik dan kemungkinan mendapat manfaat dari arsitektur serta default decoding yang cocok untuk beban kerja coding umum.
Latensi dan biaya mengubah kompromi praktis. Jika sebuah model sedikit lebih baik pada akurasi absolut namun 3× lebih lambat dan 6× lebih mahal untuk dijalankan, Flash sering menjadi pilihan cerdas untuk sistem produksi yang mengutamakan responsivitas dan biaya. Gemini 3Flash kira-kira 3× lebih cepat daripada baseline Gemini 2.5 Pro sebelumnya sambil mempertahankan kualitas penalaran yang tinggi.

Gemini 3 Flash vs Gemini 3 Pro: Harga dan spesifikasi

Ringkasan teknis model

Jendela konteks (input): Baik Gemini 3 Pro maupun Gemini 3 Flash dipublikasikan dengan hingga 1.000.000 token jendela konteks input; Pro juga mengiklankan output 64k dan varian gambar khusus dengan jendela mereka sendiri. (Catatan: perilaku UI web dunia nyata dan batas laju dapat berbeda antar produk; lihat "Caveats" di bawah.)
Masukan multimodal yang didukung: teks, gambar, audio, video, dan PDF untuk Pro dan Flash (dengan kapabilitas gambar/video tersedia melalui Google AI Studio / API / Vertex).
Mode khusus: Pro mendukung Deep Think dan fitur agentik eksklusif Pro (Google Antigravity / tooling) dan digunakan untuk beban kerja dengan keselamatan lebih tinggi. Flash mendukung level penalaran yang dapat dikonfigurasi dan output terstruktur namun dioptimalkan untuk latensi dan biaya lebih rendah.

Harga pengembang/API (tingkatan harga pengembang yang dipublikasikan — per 1M token)

(Nilai di bawah diambil dari Gemini API / dokumen model Google yang dipublikasikan untuk keluarga Gemini 3. Nilai tersebut mencerminkan harga pratinjau yang dipublikasikan per 1M token untuk input/output; konsultasikan penagihan untuk tarif produksi tepat yang akan dibebankan kepada Anda.)

gemini-3-flash-preview (Flash):

Input: $0.50 per 1M token
Output: $3.00 per 1M token.

gemini-3-pro-preview (Pro)

Tier A (<200k token konteks): $2 / $12 per 1M token (input / output)
Tier B (>200k token konteks atau konteks berat): $4 / $18 per 1M token — harga meningkat untuk konteks yang sangat besar.

Makna praktis: untuk penggunaan token yang setara dalam pita umum (<200k token), Flash berbiaya sekitar 4× lebih rendah per token pada input dan 4× lebih rendah pada output dibanding Pro dalam harga pratinjau yang dipublikasikan. Untuk konteks besar (>200k), biaya Pro bisa secara material lebih tinggi.

CometAPI menyediakan akses API ke Gemini 3 Flash dan Gemini 3 Pro, dan harga API didiskon.

Harga konsumen / langganan (aplikasi Gemini / paket Google AI)

Google AI Pro (tier konsumen/kuat yang membuka fitur Gemini 3 Pro di aplikasi Gemini dan integrasi workspace) dipublikasikan sebesar $19.99 per bulan (ketersediaan dan konversi mata uang lokal berlaku). Google juga menawarkan tier "AI Ultra" dengan batas lebih tinggi pada biaya bulanan yang jauh lebih besar untuk akses tingkat enterprise

Gemini 3 Flash vs Gemini 3 Pro: penalaran dan pemahaman multimodal

Kedalaman penalaran: Pro vs Flash

Gemini 3 Pro secara konsisten disajikan sebagai model penalaran yang lebih dalam. Pada tolok ukur ilmu tingkat magister (GPQA Diamond) dan tolok ukur penggunaan alat yang bersifat agentik (Terminal-Bench 2.0), Pro mencetak skor di tingkat atau mendekati state-of-the-art (mis., GPQA Diamond ≈ 91,9% untuk Pro dengan peningkatan Deep Think hingga 93,8% pada beberapa run). Angka-angka tersebut menempatkan Pro di depan banyak pesaing pada tugas kompleks dan spesifik domain.

Agentik, coding, dan sintesis multimodal: Pilihan arsitektur dan tuning Gemini 3 Flash memungkinkan kinerja yang mengejutkan pada beberapa tolok ukur coding dan penalaran terstruktur, dan dalam banyak tugas nyata perbedaan yang terlihat pengguna dibanding Pro kecil — terutama ketika kontrol API “tingkat pemikiran” disetel. Pengujian awal independen dan liputan pers menunjukkan Gemini 3 Flash menyamai atau melampaui Pro pada tolok ukur coding agentik terpilih. Namun itu tidak berarti Gemini 3 Flash menyamai Gemini 3 Pro pada setiap skenario riset bentuk panjang atau penalaran dengan ambiguitas tinggi.

Sebaliknya, Flash dioptimalkan untuk menyeimbangkan kualitas dan kecepatan. Gemini 3 Flash memberikan penalaran yang tinggi untuk mayoritas tugas sehari-hari sambil tidak menyamai performa puncak Pro pada masalah akademik atau multi-langkah yang paling sulit. Komprominya eksplisit: respons lebih cepat dengan rantai penalaran yang sedikit lebih dangkal.

Performa multimodal (gambar/video/audio)

Baik Flash maupun Pro dalam keluarga Gemini 3 mendukung input multimodal (gambar, video, audio). Gemini 3 Flash mendukung jumlah gambar yang sangat besar per prompt (hingga 900 gambar per prompt tergantung konteks), batas ukuran file untuk unggahan inline (mis., 7 MB per file inline, hingga 30 MB dari Cloud Storage untuk beberapa deployment), dan batas MIME/tipe/resolusi eksplisit, yang menunjukkan antarmuka multimodal Flash siap produksi dan ditujukan untuk penggunaan berat. Kekuatan multimodal Gemini 3 Pro muncul pada tolok ukur yang membutuhkan penalaran visual dan integrasi alat untuk eksekusi kode/terminal. Untuk tugas penalaran visual paling kompleks, Gemini 3 Pro mempertahankan keunggulan; untuk ringkasan multimedia throughput tinggi dan tugas visi yang lugas, Flash bisa lebih hemat biaya dan lebih cepat.

Kontras contoh tolok ukur

Penalaran visual (ARC-AGI-2): Gemini 3 Pro menunjukkan peningkatan besar dibanding Gemini 2.5 Pro dan melampaui banyak rekan, sebuah sinyal bahwa peningkatan arsitektur Pro secara spesifik mengangkat penalaran visual abstrak. Gemini 3 Flash meraih skor baik pada tugas multimodal praktis namun tidak menyamai Pro pada tolok ukur teka-teki visual yang paling sulit.

Bagaimana perbandingan kecepatan mentah — apakah Gemini 3 Flash benar-benar lebih cepat?

Gemini 3 Flash dapat menghadirkan hingga ~3× throughput / latensi lebih rendah dibanding baseline Flash/Pro sebelumnya (pernyataan umumnya membandingkan Flash dengan Gemini 2.5 Pro atau model Pro generasi sebelumnya). Keunggulan kecepatan tersebut adalah poin jual utama Gemini 3 Flash: memberikan jawaban “kelas Pro” pada latensi Flash. Gemini 3 Flash sering mengungguli Pro pada tugas yang sensitif terhadap throughput (mis., prompt coding pendek, latensi giliran obrolan) sambil tetap mencetak skor yang kompetitif pada banyak tolok ukur yang mengukur akurasi per unit waktu.

Token, token “pemikiran”, dan caching

Google membedakan token input (apa yang Anda kirim), token output (apa yang dikembalikan model, termasuk token “pemikiran” internal pada beberapa mode) dan biaya caching konteks. Flash dioptimalkan untuk menggunakan lebih sedikit token pemikiran untuk banyak tugas (~30% lebih sedikit daripada 2.5 Pro untuk tugas yang sebanding), yang mengurangi biaya efektif per permintaan terselesaikan dalam banyak skenario praktis. Harga dan penggunaan token Pro mencerminkan lintasan penalaran internal yang lebih dalam yang dapat meningkatkan penggunaan token dan biaya, terutama untuk konteks yang sangat besar.

Cara menafsirkan “lebih cepat” dalam praktik

Obrolan interaktif: Gemini 3 Flash akan terasa lebih sigap; gunakan untuk UI percakapan di mana pengalaman pengguna bergantung pada respons sub-detik.

Pekerjaan besar berbiaya komputasi tinggi: Untuk rantai pemikiran panjang dan berat komputasi di mana token pemikiran terakumulasi, penalaran yang lebih dalam pada Gemini 3 Pro dapat memerlukan komputasi lebih banyak dan karenanya latensi lebih tinggi. Pada beberapa skenario agentik, lintasan internal tambahan Pro (mis., mode Deep Think) mungkin sengaja memakan waktu lebih lama untuk mencapai jawaban berkualitas lebih tinggi.

Apa saja use case nyata dan rekomendasi?

Pilih Gemini 3 Flash jika Anda membutuhkan:

Obrolan interaktif throughput tinggi, latensi rendah (aplikasi konsumen, bot dukungan, penelusuran percakapan).
Ringkasan multimodal yang murah dan cepat (video, set gambar) di mana kecepatan respons dan throughput lebih penting daripada tingkat tertinggi penalaran multi-langkah.
Pengujian A/B massal, asisten dalam-produk, dan pelengkapan otomatis coding di mana iterasi pendek per panggilan mendominasi.

Pilih Gemini 3 Pro jika Anda membutuhkan:

Q&A ilmiah mutakhir, pemecahan masalah matematika/fisika di mana keandalan tingkat magister diperlukan.
Sistem agentik yang harus mengoperasikan terminal, menjalankan langkah alat, menjalankan dan men-debug kode, atau mengorkestrasi rantai alat multi-langkah (keunggulan Terminal-Bench Pro penting di sini).
Beban kerja di mana peningkatan akurasi atau penalaran non-verbal yang bertahap sepadan dengan peningkatan biaya token dan latensi.

Pola penerapan hibrida (praktik terbaik yang praktis)

Pintu depan = Gemini 3 Flash: layani sebagian besar pengguna interaktif dengan Flash untuk responsivitas dan kontrol biaya.
Eskalasikan = Pro: rute permintaan riset format panjang, run agen khusus atau “eskalasi” ke Pro, mungkin setelah pass awal Flash telah menjabarkan masalah. Pola ini menyeimbangkan biaya, latensi, dan akurasi.

Kesimpulan

Gemini 3 Flash dan Gemini 3 Pro bukan sekadar “lebih cepat vs. lebih pintar” dalam arti biner murni — keduanya adalah kompromi yang direkayasa pada sumbu kecepatan/latensi, biaya, dan penalaran. Flash memajukan batas praktis untuk beban kerja interaktif dan throughput tinggi dengan menawarkan banyak kemampuan penalaran Gemini 3 pada sebagian kecil biaya dan latensi; Pro mempertahankan dan memperluas batas atas penalaran tingkat riset, fidelitas multimodal, dan enterprise

Pengembang dapat mengakses Gemini 3 Pro API dan Gemini 3 Flash melalui CometAPI. Untuk memulai, jelajahi kapabilitas model dariCometAPI di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. Com e tAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda berintegrasi.

Siap mulai?→ Uji coba gratis Gemini 3 !