Keluarga Gemini 3 milik Google pada akhir 2025 kini mencakup dua model yang diposisikan secara jelas untuk pengembang dan pengguna tingkat lanjut: Gemini 3 Flash — dioptimalkan untuk throughput mentah, latensi rendah, dan efisiensi biaya — dan Gemini 3 Pro — dioptimalkan untuk penalaran multimodal terdalam, jendela konteks terbesar, dan plafon benchmark tertinggi. Secara praktis, Flash dirancang untuk mendorong batas depan “productive-flow” bagi aplikasi pengembang berfrekuensi tinggi dan interaktif; Pro dirancang untuk memaksimalkan kecerdasan pada kueri tunggal dan menangani input multimodal yang sangat besar atau kompleks. Komprominya jelas dan terukur: Flash menghadirkan latensi yang jauh lebih rendah dan biaya per token yang secara signifikan lebih rendah sambil tetap mempertahankan banyak kemampuan penalaran Gemini 3; Pro menghadirkan skor benchmark tertinggi, mode paling canggih (mis., Deep Think), dan kapabilitas yang lebih luas dengan pengamanan keselamatan pada biaya dan latensi yang lebih tinggi.
Apa itu Gemini 3 Flash?
(Dan masalah apa yang dibangun untuk diselesaikan?)
Gemini 3 Flash adalah anggota terbaru keluarga Gemini 3 yang “mengutamakan kecepatan.” Diumumkan dan diluncurkan pada pertengahan Desember 2025, Flash secara eksplisit dioptimalkan untuk latensi rendah, efisiensi token, dan aksesibilitas yang luas: ia menjadi model default di aplikasi Gemini dan AI Mode di Google Search, serta tersedia bagi pengembang melalui Gemini API, Google AI Studio, Vertex AI, dan Gemini CLI. Tujuan desain yang dinyatakan adalah menghadirkan “penalaran kelas Pro” pada kecepatan setingkat Flash dan titik harga yang secara signifikan lebih rendah sehingga use case berfrekuensi tinggi dan interaktif (asisten coding, aplikasi multimodal real-time, AI Mode untuk penelusuran, interaksi CLI langsung) dapat berjalan pada skala.
Kekuatan inti Flash
- Latensi dan throughput: direkayasa untuk waktu respons singkat dan laju permintaan tinggi (Google memposisikannya sebagai model tercepat di keluarga Gemini 3).
- Efisiensi token: Google mengklaim Flash menggunakan lebih sedikit token untuk tugas-tugas yang setara dibanding generasi Flash/Pro sebelumnya, menurunkan biaya per permintaan.
- Kapabilitas multimodal dan agentic: meski “ringan,” Flash mempertahankan penalaran multimodal Gemini 3 (teks, gambar, audio, video) dan mendukung pemanggilan alat (tool-calling) yang agentic.
Apa itu Gemini 3 Pro?
Gemini 3 Pro adalah model “depth-first” andalan Google dalam keluarga Gemini 3. Model ini diposisikan untuk beban kerja penalaran tersulit: riset mendalam, perencanaan kompleks berjangka panjang, alur kerja agentic multi-langkah, basis kode besar, dan tugas-tugas di mana peningkatan akurasi atau keandalan yang paling akhir sangat menentukan. Pro menekankan fidelitas penalaran, integrasi tool (pemanggilan fungsi streaming, tool-calling yang andal), dan jendela konteks yang sangat besar (Google mengiklankan tier token tinggi untuk Pro). Pro tersedia untuk pelanggan berbayar (Google AI Pro / Ultra tiers) dan melalui API enterprise.
Kekuatan inti Pro
- Kedalaman dan stabilitas penalaran: disetel untuk penalaran multi-tahap dan mengurangi mode kegagalan pada benchmark kompleks.
- Dukungan konteks besar: ditujukan untuk alur kerja yang memerlukan jendela konteks yang sangat panjang (sintesis multi-dokumen, seluruh repositori, PDF besar).
- Fitur enterprise dan tool-calling: dukungan yang lebih kaya untuk pola alat yang berbeda, grounding dan integrasi retrieval bagi sistem agentic produksi.
Bagaimana performa Gemini 3 Flash dan Gemini 3 Pro pada benchmark?
Flash tampil sangat baik untuk banyak tugas pengembang/agentic di dunia nyata (sering menutup jarak dengan Pro), dan pada beberapa benchmark coding bahkan melampaui Pro — sementara Pro tetap menjadi andalan untuk penalaran tersulit dan sintesis konteks panjang.

Benchmark di mana Pro memimpin
- GPQA Diamond (sains tingkat pascasarjana): Pro ≈ 91.9% (naik hingga ≈ 93.8% dengan Deep Think pada beberapa run), menunjukkan performa puncak pada kumpulan pertanyaan sains tingkat pascasarjana.
- Terminal-Bench 2.0 (tugas terminal agentic): Pro: 54.2% — keunggulan jelas pada pengujian penggunaan alat/operasi terminal dibanding model-model sebelumnya dan banyak pesaing. Ini adalah indikator kunci untuk otomasi kode/terminal yang bersifat agentic.
- ARC-AGI-2 (penalaran visual abstrak): Pro menunjukkan peningkatan bermakna dibanding versi Gemini sebelumnya (mis., Pro 31.1% vs sebelumnya 4.9% pada model lama; Deep Think semakin meningkatkan hasil). Ini merupakan kenaikan relatif yang besar, meskipun persentase absolut masih moderat untuk tugas tersulit.
Benchmark di mana Flash unggul atau mampu bersaing
- GPQA / MMMU / tugas praktis: Laporan awal menunjukkan Flash menghasilkan skor gaya GPQA yang sangat tinggi pada banyak run (liputan pers mencantumkan GPQA Diamond ≈ 90.4% dan MMMU Pro ≈ 81.2%), menunjukkan bahwa Flash mendekati akurasi setingkat Pro pada beragam tugas sambil jauh lebih cepat dan lebih murah.
- Coding dan tugas singkat: Flash dapat lebih cepat dan terkadang bahkan mengungguli Pro pada coding satu putaran atau tugas evaluasi singkat karena latensi lebih rendah dan efisiensi token; Flash mencetak nilai lebih tinggi pada pengujian coding tertentu dengan biaya per run yang jauh lebih rendah. Hasil komunitas ini masih awal dan bervariasi menurut kerangka uji.
Makna angka-angka tersebut bagi kedalaman penalaran
- Plafon absolut: Gemini 3 Pro masih menetapkan plafon tertinggi pada benchmark tersulit (mis., LMArena Elo, Humanity’s Last Exam dengan Deep Think). Ini berarti jika Anda memerlukan sedikit peningkatan akurasi terakhir pada masalah tersulit (riset setingkat PhD, penalaran ilmiah baru, akurasi matematika maksimum), Pro adalah pilihan yang lebih aman.
- Efisiensi Pareto: Gemini 3 Flash menutup celah pada banyak tugas praktis (QA, coding, ekstraksi multimodal) sambil memberikan peningkatan besar dalam kecepatan/biaya. Untuk banyak tugas produksi yang memprioritaskan responsivitas dan throughput, Flash mewakili trade-off biaya-performa yang lebih baik.
- Skor ≠ keunggulan universal. Benchmark menangkap perilaku pada tugas-tugas terkurasi. Angka SWE-bench/coding yang sangat baik dari Flash menunjukkan bahwa model ini dioptimalkan untuk tugas-tugas terstruktur dan agentic serta kemungkinan diuntungkan oleh arsitektur dan default decoding yang sesuai dengan beban kerja coding umum.
- Latensi dan biaya mengubah trade-off praktis. Jika sebuah model sedikit lebih baik pada akurasi absolut namun 3× lebih lambat dan 6× lebih mahal untuk dijalankan, Flash sering menjadi pilihan cerdas untuk sistem produksi di mana responsivitas dan biaya penting. Gemini 3Flash sekitar 3× lebih cepat daripada baseline Gemini 2.5 Pro sebelumnya sambil mempertahankan kualitas penalaran yang tinggi.
Gemini 3 Flash vs Gemini 3 Pro: Harga dan spesifikasi
Ringkasan teknis model
- Jendela konteks (input): Baik Gemini 3 Pro maupun Gemini 3 Flash dipublikasikan dengan jendela konteks input hingga 1,000,000 token; Pro juga mengiklankan output 64k dan varian gambar khusus dengan jendela masing-masing. (Catatan: perilaku UI web dunia nyata dan batas laju dapat berbeda antar produk; lihat "Caveats" di bawah.)
- Input multimodal yang didukung: teks, gambar, audio, video, dan PDF untuk Pro maupun Flash (kemampuan gambar/video tersedia melalui Google AI Studio / API / Vertex).
- Mode khusus: Pro mendukung Deep Think dan fitur agentic khusus Pro (Google Antigravity / tooling) dan digunakan untuk beban kerja dengan keselamatan lebih tinggi. Flash mendukung tingkat penalaran yang dapat dikonfigurasi dan output terstruktur tetapi dioptimalkan untuk latensi dan biaya yang lebih rendah.
Harga Developer/API (tier harga developer yang dipublikasikan — per 1M token)
(Nilai di bawah diambil dari Gemini API / dokumen model Google yang dipublikasikan untuk keluarga Gemini 3. Nilai ini mencerminkan harga pratinjau yang dipublikasikan per 1M token untuk input/output; lihat penagihan untuk tarif produksi pasti yang akan dikenakan.)
gemini-3-flash-preview (Flash):
- Input: $0.50 per 1M tokens
- Output: $3.00 per 1M tokens.
gemini-3-pro-preview (Pro)
- Tier A (<200k token konteks): $2 / $12 per 1M tokens (input / output)
- Tier B (>200k token konteks atau konteks berat): $4 / $18 per 1M tokens — harga meningkat untuk konteks yang sangat besar.
Makna praktis: untuk penggunaan token yang setara dalam rentang umum (<200k token), Flash berbiaya sekitar 4× lebih murah per token pada input dan 4× lebih murah pada output dibanding Pro pada harga pratinjau yang dipublikasikan. Untuk konteks besar (>200k), biaya Pro bisa secara material lebih tinggi.
CometAPI menyediakan akses API ke Gemini 3 Flash dan Gemini 3 Pro, dan harga API didiskon.
Harga konsumen / langganan (aplikasi Gemini / paket Google AI)
Google AI Pro (tier konsumen/power yang membuka fitur Gemini 3 Pro di aplikasi Gemini dan integrasi workspace) dipublikasikan sebesar $19.99 per bulan (ketersediaan dan konversi mata uang lokal berlaku). Google juga menawarkan tier "AI Ultra" dengan batas lebih tinggi pada biaya bulanan yang jauh lebih besar untuk akses tingkat enterprise
Gemini 3 Flash vs Gemini 3 Pro: penalaran dan pemahaman multimodal
Kedalaman penalaran: Pro vs Flash
Gemini 3 Pro secara konsisten disajikan sebagai model dengan penalaran lebih dalam. Pada benchmark sains tingkat pascasarjana (GPQA Diamond) dan benchmark penggunaan alat agentic (Terminal-Bench 2.0), Pro mencetak skor di atau mendekati tingkat terbaik (mis., GPQA Diamond ≈ 91.9% untuk Pro dengan peningkatan Deep Think hingga 93.8% pada beberapa run). Angka-angka tersebut menempatkan Pro di depan banyak kompetitor pada tugas yang kompleks dan spesifik domain.
Agentic, coding, dan sintesis multimodal: Pilihan arsitektur dan penyetelan Gemini 3 Flash memungkinkannya tampil sangat baik pada beberapa benchmark coding dan penalaran terstruktur, dan dalam banyak tugas nyata perbedaan yang terlihat pengguna dibanding Pro kecil — terutama ketika kontrol “tingkat thinking” di API disetel. Pengujian awal independen dan liputan pers menunjukkan Gemini 3 Flash menyamai atau melampaui Pro pada benchmark coding agentic tertentu. Namun itu tidak berarti Gemini 3 Flash menyamai Gemini 3 Pro di setiap skenario riset bentuk panjang atau penalaran dengan ambiguitas tinggi.
Sebaliknya, Flash dioptimalkan untuk menyeimbangkan kualitas dan kecepatan. Gemini 3 Flash menghadirkan penalaran yang tinggi untuk mayoritas tugas sehari-hari sambil tidak menyamai kinerja puncak Pro pada masalah akademis atau multi-langkah tersulit. Trade-off-nya eksplisit: respons lebih cepat dengan rantai penalaran yang sedikit lebih dangkal.
Performa multimodal (gambar/video/audio)
Baik Flash maupun Pro dalam keluarga Gemini 3 mendukung input multimodal (gambar, video, audio). Gemini 3 Flash mendukung jumlah gambar yang sangat besar per prompt (hingga 900 gambar per prompt tergantung konteks), batas ukuran file untuk unggahan inline (mis., 7 MB per file inline, hingga 30 MB dari Cloud Storage untuk beberapa deployment), dan batas MIME/tipe/resolusi eksplisit, menunjukkan bahwa antarmuka multimodal Flash berkelas produksi dan ditujukan untuk penggunaan berat. Kekuatan multimodal Gemini 3 Pro tampak pada benchmark yang memerlukan penalaran visual dan integrasi alat untuk eksekusi kode/terminal. Untuk tugas penalaran visual paling kompleks, Gemini 3 Pro mempertahankan keunggulan; untuk ringkasan multimedia ber-throughput tinggi dan tugas visi yang lugas, Flash dapat lebih hemat biaya dan lebih cepat.
Contoh kontras benchmark
Penalaran visual (ARC-AGI-2): Gemini 3 Pro menunjukkan kenaikan besar dibanding Gemini 2.5 Pro dan melampaui banyak pesaing, sinyal bahwa peningkatan arsitektur Pro secara khusus mengangkat penalaran visual abstrak. Gemini 3 Flash mencetak nilai baik pada tugas multimodal praktis tetapi tidak menyamai Pro pada benchmark teka-teki visual tersulit.
Bagaimana perbandingan kecepatan mentah — apakah Gemini 3 Flash benar-benar lebih cepat?
Gemini 3 Flash dapat menghadirkan throughput hingga ~3× / latensi lebih rendah dibanding baseline Flash/Pro sebelumnya (pernyataan umumnya membandingkan Flash dengan Gemini 2.5 Pro atau model Pro generasi sebelumnya). Keunggulan kecepatan itu adalah proposisi utama Gemini 3 Flash: memberikan jawaban “kelas Pro” pada latensi setingkat Flash. Gemini 3 Flash sering mengungguli Pro pada tugas yang peka terhadap throughput (mis., prompt coding singkat, latensi giliran chat) sambil tetap kompetitif pada banyak benchmark yang mengukur akurasi per unit waktu.
Token, token “thinking”, dan caching
Google membedakan token input (apa yang Anda kirim), token output (apa yang dikembalikan model, termasuk token “thinking” internal pada beberapa mode) dan biaya caching konteks. Flash dioptimalkan untuk menggunakan lebih sedikit token thinking untuk banyak tugas (~30% lebih sedikit daripada 2.5 Pro untuk tugas sebanding), yang menurunkan biaya efektif per permintaan terselesaikan pada banyak skenario praktis. Harga dan penggunaan token Pro mencerminkan lintasan penalaran internal yang lebih dalam yang dapat meningkatkan penggunaan token dan biaya, terutama untuk konteks yang sangat besar.
Cara menafsirkan “lebih cepat” dalam praktik
Chat interaktif: Gemini 3 Flash akan terasa lebih sigap; gunakan untuk UI percakapan di mana pengalaman pengguna bergantung pada respons sub-detik.
Pekerjaan besar dan berat komputasi: Untuk rantai pemikiran yang panjang dan berat komputasi di mana token thinking menumpuk, penalaran lebih dalam Gemini 3 Pro mungkin memerlukan komputasi lebih dan dengan demikian latensi lebih tinggi. Pada beberapa skenario agentic, lintasan internal tambahan Pro (mis., mode Deep Think) mungkin sengaja memerlukan waktu lebih lama untuk mencapai jawaban berkualitas lebih tinggi.
Apa use case dunia nyata dan rekomendasinya?
Pilih Gemini 3 Flash jika Anda memerlukan:
- Chat interaktif ber-throughput tinggi dan latensi rendah (aplikasi konsumen, bot dukungan, penelusuran percakapan).
- Ringkasan multimodal yang murah dan cepat (video, kumpulan gambar) di mana kecepatan respons dan throughput lebih penting daripada tingkat penalaran multi-langkah tertinggi.
- Pengujian A/B massal, asisten dalam-produk, dan pelengkapan otomatis coding di mana iterasi singkat per panggilan mendominasi.
Pilih Gemini 3 Pro jika Anda memerlukan:
- Tanya jawab ilmiah mutakhir, pemecahan masalah matematika/fisika di mana keandalan setingkat pascasarjana diperlukan.
- Sistem agentic yang harus mengoperasikan terminal, melakukan langkah-langkah tooling, menjalankan dan debug kode, atau mengorkestrasi rantai alat multi-langkah (keunggulan Pro pada Terminal-Bench penting di sini).
- Beban kerja di mana peningkatan akurasi atau penalaran non-verbal yang tambahan sepadan dengan biaya token dan latensi yang meningkat.
Pola penerapan hibrida (praktik terbaik yang praktis)
Banyak tim produksi mengadopsi strategi model ganda:
- Front door = Gemini 3 Flash: layani sebagian besar pengguna interaktif dengan Flash untuk responsivitas dan kontrol biaya.
- Escalate = Pro: rute permintaan riset bentuk panjang, run agent khusus atau “eskalasi” ke Pro, mungkin setelah tahap awal dengan Flash untuk memetakan masalah. Pola ini menyeimbangkan biaya, latensi, dan akurasi.
Kesimpulan
Gemini 3 Flash dan Gemini 3 Pro tidak sekadar “lebih cepat vs. lebih pintar” dalam arti biner murni — keduanya adalah kompromi yang direkayasa pada sumbu kecepatan/latensi, biaya, dan penalaran. Flash mendorong batas praktis untuk beban kerja interaktif ber-throughput tinggi dengan menawarkan banyak kemampuan penalaran Gemini 3 pada sebagian kecil biaya dan latensi; Pro mempertahankan dan memperluas plafon penalaran setingkat riset, fidelitas multimodal, dan enterprise
Pengembang dapat mengakses Gemini 3 Pro API dan Gemini 3 Flash melalui CometAPI. Untuk memulai, jelajahi kapabilitas model di CometAPI dalam Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah login ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap mulai?→ Free trial of Gemini 3 !
