Gemini 2.5 Flash

Google
gemini-2.5-flash-preview-09-2025
Masukan:$0.24/M
Keluaran:$2.00/M
Konteks:1M
Keluaran Maksimum:65K
Gemini 2.5 Flash adalah model AI yang dikembangkan oleh Google, yang dirancang untuk menyediakan solusi cepat dan hemat biaya bagi para pengembang, terutama untuk aplikasi yang memerlukan kapabilitas Inference yang ditingkatkan. Menurut pengumuman pratinjau Gemini 2.5 Flash, model ini dirilis dalam pratinjau pada 17 April 2025, mendukung input Multimodal, dan memiliki jendela konteks sebesar 1 juta token. Model ini mendukung panjang konteks maksimum sebesar 65,536 token.

Gemini 2.5 Flash dirancang untuk memberikan respons cepat tanpa mengorbankan kualitas keluaran. Model ini mendukung masukan multimodal, termasuk teks, gambar, audio, dan video, sehingga cocok untuk beragam aplikasi. Model ini dapat diakses melalui platform seperti Google AI Studio dan Vertex AI, menyediakan alat yang diperlukan bagi pengembang untuk integrasi yang mulus ke berbagai sistem.


Informasi Dasar (Fitur)

Gemini 2.5 Flash menghadirkan sejumlah fitur menonjol yang membedakannya dalam keluarga Gemini 2.5:

  • Hybrid Reasoning: Pengembang dapat mengatur parameter thinking_budget untuk mengontrol secara presisi berapa banyak token yang didedikasikan model untuk penalaran internal sebelum keluaran.
  • Frontier Pareto: Berada pada titik biaya-kinerja yang optimal, Flash menawarkan rasio harga-ke-kecerdasan terbaik di antara model 2.5.
  • Dukungan Multimodal: Memproses teks, gambar, video, dan audio secara native, memungkinkan kemampuan percakapan dan analisis yang lebih kaya.
  • Konteks 1 Juta Token: Panjang konteks yang tak tertandingi memungkinkan analisis mendalam dan pemahaman dokumen panjang dalam satu permintaan.

Versi Model

Gemini 2.5 Flash telah melalui beberapa versi utama berikut:

  • gemini-2.5-flash-lite-preview-09-2025: Peningkatan kegunaan alat: Performa lebih baik pada tugas kompleks dan bertahap, dengan peningkatan 5% pada skor SWE-Bench Verified (dari 48.9% menjadi 54%). Efisiensi meningkat: Saat mengaktifkan penalaran, keluaran berkualitas lebih tinggi dicapai dengan lebih sedikit token, mengurangi latensi dan biaya.
  • Preview 04-17: Rilis akses awal dengan kemampuan “thinking”, tersedia melalui gemini-2.5-flash-preview-04-17.
  • Ketersediaan Umum Stabil (GA): Per 17 Juni 2025, endpoint stabil gemini-2.5-flash menggantikan pratinjau, memastikan keandalan tingkat produksi tanpa perubahan API dari pratinjau 20 Mei.
  • Penghapusan Pratinjau: Endpoint pratinjau dijadwalkan ditutup pada 15 Juli 2025; pengguna harus bermigrasi ke endpoint GA sebelum tanggal tersebut.

Per Juli 2025, Gemini 2.5 Flash kini tersedia untuk publik dan stabil (tanpa perubahan dari gemini-2.5-flash-preview-05-20). Jika Anda menggunakan gemini-2.5-flash-preview-04-17, harga pratinjau yang ada akan berlanjut hingga waktu pensiun terjadwal untuk endpoint model pada 15 Juli 2025, ketika akan dimatikan. Anda dapat bermigrasi ke model yang tersedia secara umum "gemini-2.5-flash".

Lebih cepat, lebih murah, lebih pintar:

  • Tujuan desain: latensi rendah + throughput tinggi + biaya rendah;
  • Peningkatan kecepatan keseluruhan dalam penalaran, pemrosesan multimodal, dan tugas teks panjang;
  • Penggunaan token berkurang 20–30%, secara signifikan menurunkan biaya penalaran.

Spesifikasi Teknis

Jendela Konteks Masukan: Hingga 1 juta token, memungkinkan retensi konteks yang luas.

Token Keluaran: Mampu menghasilkan hingga 8,192 token per respons.

Modalitas yang Didukung: Teks, gambar, audio, dan video.

Platform Integrasi: Tersedia melalui Google AI Studio dan Vertex AI.

Harga: Model harga berbasis token yang kompetitif, memfasilitasi penerapan yang hemat biaya.


Detail Teknis

Di balik layar, Gemini 2.5 Flash adalah model bahasa besar berbasis transformer yang dilatih pada campuran data web, kode, gambar, dan video. Spesifikasi teknis utama meliputi:

Pelatihan Multimodal: Dilatih untuk menyelaraskan berbagai modalitas, Flash dapat memadukan teks dengan gambar, video, atau audio secara mulus, berguna untuk tugas seperti peringkasan video atau pembuatan deskripsi audio.

Proses Berpikir Dinamis: Mengimplementasikan loop penalaran internal di mana model merencanakan dan menguraikan prompt kompleks sebelum keluaran akhir.

Anggaran Thinking yang Dapat Dikonfigurasi: thinking_budget dapat diatur dari 0 (tanpa penalaran) hingga 24,576 tokens, memungkinkan kompromi antara latensi dan kualitas jawaban.

Integrasi Alat: Mendukung Grounding with Google Search, Code Execution, URL Context, dan Function Calling, memungkinkan tindakan dunia nyata langsung dari prompt bahasa alami.


Performa Benchmark

Dalam evaluasi yang ketat, Gemini 2.5 Flash menunjukkan performa terdepan di industri:

  • LMArena Hard Prompts: Meraih peringkat kedua setelah 2.5 Pro pada benchmark Hard Prompts yang menantang, menunjukkan kemampuan penalaran multilangkah yang kuat.
  • Skor MMLU 0.809: Melampaui performa model rata-rata dengan akurasi MMLU 0.809, mencerminkan keluasan pengetahuan domain dan ketangguhan penalarannya.
  • Latensi dan Throughput: Mencapai kecepatan decoding 271.4 token/detik dengan 0.29 s Time-to-First-Token, menjadikannya ideal untuk beban kerja yang sensitif terhadap latensi.
  • Pemimpin Harga-terhadap-Performa: Pada \$0.26/1 M tokens, Flash lebih murah daripada banyak pesaing sekaligus menyamai atau melampaui mereka pada benchmark kunci.

Hasil ini menunjukkan keunggulan kompetitif Gemini 2.5 Flash dalam penalaran, pemahaman ilmiah, pemecahan masalah matematika, pengodean, interpretasi visual, dan kemampuan multibahasa:

Gemini 2.5 Flash


Keterbatasan

Meski kuat, Gemini 2.5 Flash memiliki beberapa keterbatasan:

  • Risiko Keamanan: Model dapat menunjukkan nada “menggurui” dan mungkin menghasilkan keluaran yang terdengar masuk akal tetapi salah atau bias (halusinasi), terutama pada kueri kasus batas. Pengawasan manusia yang ketat tetap penting.
  • Batas Laju: Penggunaan API dibatasi oleh rate limit (10 RPM, 250,000 TPM, 250 RPD pada tier default), yang dapat memengaruhi pemrosesan batch atau aplikasi ber-volume tinggi.
  • Batas Bawah Kecerdasan: Meskipun sangat mumpuni untuk model flash, akurasinya tetap di bawah 2.5 Pro pada tugas agentic paling menuntut seperti pengodean tingkat lanjut atau koordinasi multi-agen.
  • Pertukaran Biaya: Meskipun menawarkan harga-performa terbaik, penggunaan mode thinking secara ekstensif meningkatkan konsumsi token keseluruhan, sehingga menaikkan biaya untuk prompt yang memerlukan penalaran mendalam.