ModelHargaPerusahaan
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Perusahaan
Tentang kamiPerusahaan
Sumber Daya
Model AIBlogCatatan PerubahanDukungan
Syarat dan Ketentuan LayananKebijakan Privasi
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Masukan:$0.24/M
Keluaran:$2/M
Konteks:1M
Keluaran Maksimum:65K
Gemini 2.5 Flash adalah model AI yang dikembangkan oleh Google, yang dirancang untuk menyediakan solusi cepat dan hemat biaya bagi para pengembang, terutama untuk aplikasi yang memerlukan kapabilitas Inference yang ditingkatkan. Menurut pengumuman pratinjau Gemini 2.5 Flash, model ini dirilis dalam pratinjau pada 17 April 2025, mendukung input Multimodal, dan memiliki jendela konteks sebesar 1 juta token. Model ini mendukung panjang konteks maksimum sebesar 65,536 token.
Baru
Penggunaan komersial
Playground
Ikhtisar
Fitur
Harga
API
Versi

Gemini 2.5 Flash dirancang untuk memberikan respons cepat tanpa mengorbankan kualitas keluaran. Model ini mendukung input multimodal, termasuk teks, gambar, audio, dan video, sehingga cocok untuk berbagai aplikasi. Model ini dapat diakses melalui platform seperti Google AI Studio dan Vertex AI, menyediakan alat yang diperlukan bagi pengembang untuk integrasi yang mulus ke berbagai sistem.


Informasi Dasar (Fitur)

Gemini 2.5 Flash memperkenalkan sejumlah fitur menonjol yang membedakannya di dalam keluarga Gemini 2.5:

  • Penalaran Hibrida: Pengembang dapat menetapkan parameter thinking_budget untuk mengontrol secara presisi berapa banyak token yang didedikasikan model untuk penalaran internal sebelum keluaran.
  • Frontier Pareto: Berada pada titik biaya-kinerja yang optimal, Flash menawarkan rasio harga terhadap kecerdasan terbaik di antara model 2.5.
  • Dukungan Multimodal: Memproses teks, gambar, video, dan audio secara native, memungkinkan kemampuan percakapan dan analitik yang lebih kaya.
  • Konteks 1 Juta Token: Panjang konteks yang tak tertandingi memungkinkan analisis mendalam dan pemahaman dokumen panjang dalam satu permintaan.

Versi Model

Gemini 2.5 Flash telah melalui versi-versi kunci berikut:

  • gemini-2.5-flash-lite-preview-09-2025: Peningkatan kegunaan alat: Kinerja lebih baik pada tugas kompleks, multi-langkah, dengan peningkatan 5% pada skor SWE-Bench Verified (dari 48.9% menjadi 54%). Efisiensi yang ditingkatkan: Saat mengaktifkan penalaran, keluaran berkualitas lebih tinggi dicapai dengan lebih sedikit token, mengurangi latensi dan biaya.
  • Preview 04-17: Rilis akses awal dengan kemampuan “thinking”, tersedia melalui gemini-2.5-flash-preview-04-17.
  • Ketersediaan Umum Stabil (GA): Per 17 Juni 2025, endpoint stabil gemini-2.5-flash menggantikan versi pratinjau, memastikan keandalan setara produksi tanpa perubahan API dari pratinjau 20 Mei.
  • Penghentian Pratinjau: Endpoint pratinjau dijadwalkan untuk dimatikan pada 15 Juli 2025; pengguna harus bermigrasi ke endpoint GA sebelum tanggal tersebut.

Per Juli 2025, Gemini 2.5 Flash kini tersedia untuk publik dan stabil (tanpa perubahan dari gemini-2.5-flash-preview-05-20). Jika Anda menggunakan gemini-2.5-flash-preview-04-17, harga pratinjau yang ada akan berlanjut hingga jadwal penghentian endpoint model pada 15 Juli 2025, saat endpoint tersebut akan dimatikan. Anda dapat bermigrasi ke model yang tersedia secara umum "gemini-2.5-flash".

Lebih cepat, lebih murah, lebih cerdas:

  • Tujuan desain: latensi rendah + throughput tinggi + biaya rendah;
  • Peningkatan kecepatan menyeluruh dalam penalaran, pemrosesan multimodal, dan tugas teks panjang;
  • Penggunaan token berkurang 20–30%, secara signifikan menurunkan biaya penalaran.

Spesifikasi Teknis

Input Context Window: Hingga 1 juta token, memungkinkan retensi konteks yang luas.

Output Tokens: Mampu menghasilkan hingga 8,192 token per respons.

Modalitas yang Didukung: Teks, gambar, audio, dan video.

Platform Integrasi: Tersedia melalui Google AI Studio dan Vertex AI.

Harga: Model harga berbasis token yang kompetitif, memudahkan penerapan yang hemat biaya.


Rincian Teknis

Di balik layar, Gemini 2.5 Flash adalah model bahasa besar berbasis transformer yang dilatih pada campuran data web, kode, gambar, dan video. Spesifikasi teknis utama meliputi:

Pelatihan Multimodal: Dilatih untuk menyelaraskan berbagai modalitas, Flash dapat memadukan teks dengan gambar, video, atau audio secara mulus, berguna untuk tugas seperti peringkasan video atau pembuatan caption audio.

Proses Berpikir Dinamis: Menerapkan loop penalaran internal di mana model merencanakan dan memecah prompt kompleks sebelum keluaran akhir.

Anggaran Berpikir yang Dapat Dikonfigurasi: thinking_budget dapat diatur dari 0 (tanpa penalaran) hingga 24,576 tokens, memungkinkan kompromi antara latensi dan kualitas jawaban.

Integrasi Alat: Mendukung Grounding with Google Search, Code Execution, URL Context, dan Function Calling, memungkinkan tindakan di dunia nyata langsung dari prompt bahasa alami.


Kinerja Benchmark

Dalam evaluasi yang ketat, Gemini 2.5 Flash menunjukkan kinerja terdepan di industri:

  • LMArena Hard Prompts: Meraih peringkat kedua setelah 2.5 Pro pada benchmark Hard Prompts yang menantang, menunjukkan kemampuan penalaran multi-langkah yang kuat.
  • Skor MMLU 0.809: Melampaui kinerja rata-rata model dengan akurasi MMLU 0.809, mencerminkan keluasan pengetahuan domain dan ketangguhan penalarannya.
  • Latensi dan Throughput: Mencapai kecepatan dekode 271.4 tokens/sec dengan 0.29 s Time-to-First-Token, menjadikannya ideal untuk beban kerja yang sensitif terhadap latensi.
  • Pemimpin Harga-ke-Kinerja: Pada \$0.26/1 M tokens, Flash mengungguli banyak pesaing dari sisi biaya sambil menyamai atau melampaui mereka pada benchmark kunci.

Hasil ini menunjukkan keunggulan kompetitif Gemini 2.5 Flash dalam penalaran, pemahaman ilmiah, pemecahan masalah matematika, pengkodean, interpretasi visual, dan kemampuan multibahasa:


Keterbatasan

Meski kuat, Gemini 2.5 Flash memiliki beberapa keterbatasan:

  • Risiko Keamanan: Model dapat menampilkan nada yang “menggurui” dan mungkin menghasilkan keluaran yang terdengar masuk akal tetapi salah atau bias (halusinasi), khususnya pada kueri kasus tepi. Pengawasan manusia yang ketat tetap penting.
  • Batas Laju: Penggunaan API dibatasi oleh rate limit (10 RPM, 250,000 TPM, 250 RPD pada tingkat default), yang dapat memengaruhi pemrosesan batch atau aplikasi ber-volume tinggi.
  • Ambang Kecerdasan: Meskipun sangat mumpuni untuk model flash, akurasinya tetap di bawah 2.5 Pro pada tugas agentic yang paling menuntut seperti pengodean tingkat lanjut atau koordinasi multi-agen.
  • Kompromi Biaya: Walaupun menawarkan harga-kinerja terbaik, penggunaan mode thinking secara ekstensif meningkatkan konsumsi token secara keseluruhan, sehingga menaikkan biaya untuk prompt yang membutuhkan penalaran mendalam.

Fitur untuk Gemini 2.5 Flash

Jelajahi fitur-fitur utama dari Gemini 2.5 Flash, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk Gemini 2.5 Flash

Jelajahi harga kompetitif untuk Gemini 2.5 Flash, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana Gemini 2.5 Flash dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Kode contoh dan API untuk Gemini 2.5 Flash

Gemini 2.5 Flash API adalah model AI multimodal terbaru dari Google, dirancang untuk tugas berkecepatan tinggi yang hemat biaya, dengan kemampuan penalaran yang dapat dikendalikan, memungkinkan pengembang untuk mengaktifkan atau menonaktifkan fitur "thinking" tingkat lanjut melalui Gemini API.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Versi Gemini 2.5 Flash

Alasan Gemini 2.5 Flash memiliki beberapa _snapshot_ mungkin mencakup faktor-faktor potensial seperti variasi keluaran setelah pembaruan yang memerlukan _snapshot_ lama untuk konsistensi, memberikan masa transisi bagi pengembang untuk beradaptasi dan bermigrasi, serta _snapshot_ berbeda yang sesuai dengan _endpoint_ global atau regional untuk mengoptimalkan pengalaman pengguna. Untuk perbedaan detail antar versi, silakan merujuk ke dokumentasi resmi.
version
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-preview-04-17

Model Lainnya

C

Claude Opus 4.7

Masukan:$3/M
Keluaran:$15/M
Model paling cerdas untuk agen dan pemrograman
A

Claude Sonnet 4.6

Masukan:$2.4/M
Keluaran:$12/M
Claude Sonnet 4.6 adalah model Sonnet kami yang paling mumpuni sejauh ini. Ini merupakan peningkatan menyeluruh atas keahlian model di bidang pemrograman, penggunaan komputer, penalaran konteks panjang, perencanaan agen, pekerjaan berbasis pengetahuan, dan desain. Sonnet 4.6 juga menyertakan jendela konteks 1M token dalam tahap beta.
O

GPT 5.5 Pro

Masukan:$24/M
Keluaran:$144/M
Sebuah model canggih yang direkayasa untuk logika yang sangat kompleks dan tuntutan profesional, yang mewakili standar tertinggi penalaran mendalam dan kemampuan analitis yang presisi.
O

GPT 5.5

Masukan:$4/M
Keluaran:$24/M
Model andalan multimodal generasi berikutnya yang menyeimbangkan kinerja luar biasa dengan respons yang efisien, serta didedikasikan untuk menyediakan layanan AI tujuan umum yang komprehensif dan stabil.
O

GPT Image 2 ALL

Per Permintaan:$0.04
GPT Image 2 adalah model pembuatan gambar mutakhir dari OpenAI untuk pembuatan dan pengeditan gambar yang cepat dan berkualitas tinggi. Model ini mendukung ukuran gambar yang fleksibel dan input gambar berfidelitas tinggi.
O

GPT 5.5 ALL

Masukan:$4/M
Keluaran:$24/M
GPT-5.5 unggul dalam penulisan kode, riset daring, analisis data, dan operasi lintas alat. Model ini tidak hanya meningkatkan otonominya dalam menangani tugas multilangkah yang kompleks, tetapi juga secara signifikan meningkatkan kemampuan penalaran dan efisiensi eksekusi, dengan tetap mempertahankan latensi yang sama seperti pendahulunya, yang menandai langkah penting menuju otomatisasi perkantoran yang terotomatisasi dalam AI.

Blog Terkait

Nano Banana 2 Flash Segera hadir – Evolusi berkecepatan tinggi dalam pembuatan gambar AI
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash Segera hadir – Evolusi berkecepatan tinggi dalam pembuatan gambar AI

Google sekali lagi mengguncang lanskap AI generatif dengan Nano Banana 2 Flash yang segera hadir, tambahan terbaru dalam keluarga pembuatan gambar "Nano Banana" yang diakui secara luas. Menyusul kesuksesan besar Nano Banana Pro (Gemini 3 Pro Image) pada akhir tahun lalu, iterasi baru ini menjanjikan demokratisasi sintesis visual kelas profesional dengan menggabungkan kecerdasan terdepan dari arsitektur Gemini 3 dengan kecepatan dan efisiensi yang belum pernah ada sebelumnya.
Diskon Nano Banana: benar-benar menghemat uang pada 2026 untuk para pengembang
Dec 25, 2025
nano-banana-pro

Diskon Nano Banana: benar-benar menghemat uang pada 2026 untuk para pengembang

Kesimpulannya: API Nano Banana resmi tidak menawarkan diskon Natal, Tahun Baru, atau hari libur lainnya. Ini adalah fakta yang harus dipahami oleh semua pengembang yang berencana menggunakan Nano Banana (termasuk Nano Banana Pro) untuk generasi gambar, pembuatan konten, atau integrasi produk pada 2026. Google tidak menawarkan diskon musiman untuk API Nano Banana, baik saat Natal, Black Friday, maupun Tahun Baru. Sistem penetapan harga API resmi bersifat konsisten, stabil, dan transparan, dengan hampir tidak ada ruang untuk diskon. Jadi pertanyaannya adalah: Jika Anda seorang pengembang, dan jika Anda berencana melakukan generasi gambar berskala besar, pengujian model, atau iterasi produk selama Natal atau Tahun Baru, adakah cara untuk menurunkan biaya penggunaan Nano Banana?
Apakah Free Gemini 2.5 Pro API sedang bermasalah? Perubahan kuota gratis pada 2025
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

Apakah Free Gemini 2.5 Pro API sedang bermasalah? Perubahan kuota gratis pada 2025

Google telah sangat memperketat tingkatan gratis untuk Gemini API: Gemini 2.5 Pro telah dihapus dari tingkatan gratis dan permintaan gratis harian Gemini 2.5 Flash dipangkas secara drastis (laporan: ~250 → ~20/hari). Itu tidak berarti model tersebut “mati” selamanya untuk eksperimen — tetapi hal itu berarti akses gratis secara efektif telah dipangkas habis untuk banyak kasus penggunaan di dunia nyata.
Panduan Utama Nano-Banana: Cara Menggunakan dan Meminta untuk Hasil Terbaik
Sep 8, 2025
gemini-2-5-flash-image

Panduan Utama Nano-Banana: Cara Menggunakan dan Meminta untuk Hasil Terbaik

Rilisan terbaru Google Gemini 2.5 Flash Image — dijuluki “Nano-Banana” telah dengan cepat menjadi pilihan utama untuk pengeditan gambar percakapan: ia mempertahankan kemiripan
Bagaimana Cara Menggunakan Nano Banana melalui API?(Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

Bagaimana Cara Menggunakan Nano Banana melalui API?(Gemini-2-5-flash-image)

Nano Banana adalah nama panggilan komunitas (dan singkatan internal) untuk Google Gemini 2.5 Flash Image — sebuah generasi gambar multimoda berkualitas tinggi dan latensi rendah +