Gemini 2.5 Flash dirancang untuk memberikan respons cepat tanpa mengorbankan kualitas keluaran. Model ini mendukung input multimodal, termasuk teks, gambar, audio, dan video, sehingga cocok untuk berbagai aplikasi. Model ini dapat diakses melalui platform seperti Google AI Studio dan Vertex AI, menyediakan alat yang diperlukan bagi pengembang untuk integrasi yang mulus ke berbagai sistem.
Informasi Dasar (Fitur)
Gemini 2.5 Flash memperkenalkan sejumlah fitur menonjol yang membedakannya di dalam keluarga Gemini 2.5:
- Penalaran Hibrida: Pengembang dapat menetapkan parameter thinking_budget untuk mengontrol secara presisi berapa banyak token yang didedikasikan model untuk penalaran internal sebelum keluaran.
- Frontier Pareto: Berada pada titik biaya-kinerja yang optimal, Flash menawarkan rasio harga terhadap kecerdasan terbaik di antara model 2.5.
- Dukungan Multimodal: Memproses teks, gambar, video, dan audio secara native, memungkinkan kemampuan percakapan dan analitik yang lebih kaya.
- Konteks 1 Juta Token: Panjang konteks yang tak tertandingi memungkinkan analisis mendalam dan pemahaman dokumen panjang dalam satu permintaan.
Versi Model
Gemini 2.5 Flash telah melalui versi-versi kunci berikut:
- gemini-2.5-flash-lite-preview-09-2025: Peningkatan kegunaan alat: Kinerja lebih baik pada tugas kompleks, multi-langkah, dengan peningkatan 5% pada skor SWE-Bench Verified (dari 48.9% menjadi 54%). Efisiensi yang ditingkatkan: Saat mengaktifkan penalaran, keluaran berkualitas lebih tinggi dicapai dengan lebih sedikit token, mengurangi latensi dan biaya.
- Preview 04-17: Rilis akses awal dengan kemampuan “thinking”, tersedia melalui gemini-2.5-flash-preview-04-17.
- Ketersediaan Umum Stabil (GA): Per 17 Juni 2025, endpoint stabil gemini-2.5-flash menggantikan versi pratinjau, memastikan keandalan setara produksi tanpa perubahan API dari pratinjau 20 Mei.
- Penghentian Pratinjau: Endpoint pratinjau dijadwalkan untuk dimatikan pada 15 Juli 2025; pengguna harus bermigrasi ke endpoint GA sebelum tanggal tersebut.
Per Juli 2025, Gemini 2.5 Flash kini tersedia untuk publik dan stabil (tanpa perubahan dari gemini-2.5-flash-preview-05-20). Jika Anda menggunakan gemini-2.5-flash-preview-04-17, harga pratinjau yang ada akan berlanjut hingga jadwal penghentian endpoint model pada 15 Juli 2025, saat endpoint tersebut akan dimatikan. Anda dapat bermigrasi ke model yang tersedia secara umum "gemini-2.5-flash".
Lebih cepat, lebih murah, lebih cerdas:
- Tujuan desain: latensi rendah + throughput tinggi + biaya rendah;
- Peningkatan kecepatan menyeluruh dalam penalaran, pemrosesan multimodal, dan tugas teks panjang;
- Penggunaan token berkurang 20–30%, secara signifikan menurunkan biaya penalaran.
Spesifikasi Teknis
Input Context Window: Hingga 1 juta token, memungkinkan retensi konteks yang luas.
Output Tokens: Mampu menghasilkan hingga 8,192 token per respons.
Modalitas yang Didukung: Teks, gambar, audio, dan video.
Platform Integrasi: Tersedia melalui Google AI Studio dan Vertex AI.
Harga: Model harga berbasis token yang kompetitif, memudahkan penerapan yang hemat biaya.
Rincian Teknis
Di balik layar, Gemini 2.5 Flash adalah model bahasa besar berbasis transformer yang dilatih pada campuran data web, kode, gambar, dan video. Spesifikasi teknis utama meliputi:
Pelatihan Multimodal: Dilatih untuk menyelaraskan berbagai modalitas, Flash dapat memadukan teks dengan gambar, video, atau audio secara mulus, berguna untuk tugas seperti peringkasan video atau pembuatan caption audio.
Proses Berpikir Dinamis: Menerapkan loop penalaran internal di mana model merencanakan dan memecah prompt kompleks sebelum keluaran akhir.
Anggaran Berpikir yang Dapat Dikonfigurasi: thinking_budget dapat diatur dari 0 (tanpa penalaran) hingga 24,576 tokens, memungkinkan kompromi antara latensi dan kualitas jawaban.
Integrasi Alat: Mendukung Grounding with Google Search, Code Execution, URL Context, dan Function Calling, memungkinkan tindakan di dunia nyata langsung dari prompt bahasa alami.
Kinerja Benchmark
Dalam evaluasi yang ketat, Gemini 2.5 Flash menunjukkan kinerja terdepan di industri:
- LMArena Hard Prompts: Meraih peringkat kedua setelah 2.5 Pro pada benchmark Hard Prompts yang menantang, menunjukkan kemampuan penalaran multi-langkah yang kuat.
- Skor MMLU 0.809: Melampaui kinerja rata-rata model dengan akurasi MMLU 0.809, mencerminkan keluasan pengetahuan domain dan ketangguhan penalarannya.
- Latensi dan Throughput: Mencapai kecepatan dekode 271.4 tokens/sec dengan 0.29 s Time-to-First-Token, menjadikannya ideal untuk beban kerja yang sensitif terhadap latensi.
- Pemimpin Harga-ke-Kinerja: Pada \$0.26/1 M tokens, Flash mengungguli banyak pesaing dari sisi biaya sambil menyamai atau melampaui mereka pada benchmark kunci.
Hasil ini menunjukkan keunggulan kompetitif Gemini 2.5 Flash dalam penalaran, pemahaman ilmiah, pemecahan masalah matematika, pengkodean, interpretasi visual, dan kemampuan multibahasa:
Keterbatasan
Meski kuat, Gemini 2.5 Flash memiliki beberapa keterbatasan:
- Risiko Keamanan: Model dapat menampilkan nada yang “menggurui” dan mungkin menghasilkan keluaran yang terdengar masuk akal tetapi salah atau bias (halusinasi), khususnya pada kueri kasus tepi. Pengawasan manusia yang ketat tetap penting.
- Batas Laju: Penggunaan API dibatasi oleh rate limit (10 RPM, 250,000 TPM, 250 RPD pada tingkat default), yang dapat memengaruhi pemrosesan batch atau aplikasi ber-volume tinggi.
- Ambang Kecerdasan: Meskipun sangat mumpuni untuk model flash, akurasinya tetap di bawah 2.5 Pro pada tugas agentic yang paling menuntut seperti pengodean tingkat lanjut atau koordinasi multi-agen.
- Kompromi Biaya: Walaupun menawarkan harga-kinerja terbaik, penggunaan mode thinking secara ekstensif meningkatkan konsumsi token secara keseluruhan, sehingga menaikkan biaya untuk prompt yang membutuhkan penalaran mendalam.




