API Gemini 2.5 Flash Lite

CometAPI
AnnaJun 26, 2025
API Gemini 2.5 Flash Lite

The API Gemini 2.5 Flash Lite mewakili penawaran terbaru Google dalam keluarga model penalaran hibridanya, yang dirancang untuk memberikan efisiensi biaya yang tak tertandingi dan latensi sangat rendah untuk aplikasi bervolume tinggi dan sensitif terhadap latensi.


Informasi Dasar & Fitur

Diumumkan dalam rilis pratinjau pada 17 Juni 2025, Flash-Lite melengkapi jajaran Gemini 2.5—bersama Flash dan Pro—dengan memberi pengembang opsi yang dioptimalkan untuk kecepatan, harga-kinerja, dan pemikiran adaptif kemampuan.

Anda dapat mulai menggunakan Gemini 2.5 Flash-Lite dengan menentukan "gemini-2.5-flash-lite" dalam kode Anda. Jika Anda menggunakan versi pratinjau, Anda dapat beralih ke "gemini-2.5-flash-lite", yang sama dengan versi pratinjau. Google berencana menghapus alias pratinjau untuk Flash-Lite pada tanggal 25 Agustus.

StabilitasPilih ModelTanggal
Stabil (GA)gemini-2.5-flash-liteJuli 22, 2025
Pratinjau Eksperimentalgemini-2.5-flash-lite-06-17Jendela Ketersediaan: 17 Juni – 25 Agustus 2025
versi terbarugemini-2.5-flash-lite-preview-09-202509-2025
  • Kontrol Pemikiran:Mengimplementasikan anggaran pemikiran dinamis melalui parameter API, dengan berpikir dinonaktifkan secara default untuk memaksimalkan kecepatan dan mengurangi biaya.
  • Latensi Rendah:Direkayasa untuk waktu cepat untuk token pertamaFlash-Lite meminimalkan overhead startup, mencapai latensi sub-100 ms pada infrastruktur Google Cloud standar.
  • Throughput Tinggi:Dengan jaringan decoding yang mumpuni, ini mendukung ratusan token per detik, membuka pengalaman pengguna waktu nyata dalam chatbot dan aplikasi streaming.
  • Dukungan Multimoda:Meskipun dioptimalkan terutama untuk teks, Flash-Lite juga menerima gambar, audio, dan video masukan melalui API Gemini, memungkinkan berbagai kasus penggunaan serbaguna mulai dari meringkas dokumen hingga tugas penglihatan cahaya.

Rincian Teknis

  • Penalaran Adaptif: Gemini 2.5 Flash-Lite mendukung sesuai permintaan pikir, yang memungkinkan pengembang mengalokasikan sumber daya komputasi hanya saat penalaran yang lebih mendalam dibutuhkan.
  • Integrasi Alat:Kompatibilitas penuh dengan alat asli Gemini 2.5, termasuk Grounding dengan Google Search, Eksekusi Kode, Konteks URL, dan Pemanggilan Fungsi untuk alur kerja multimoda yang lancar.
  • Protokol Konteks Model (MCP): Memanfaatkan MCP Google untuk mengambil data web secara real-time, memastikan respons yang mutakhir dan relevan secara kontekstual.
  • Opsi Penerapan:Tersedia melalui API Komet, API Gemini, Verteks AI, dan Google AI Studio, dengan jalur pratinjau bagi pengguna awal untuk bereksperimen dan memberikan masukan.

Kinerja Benchmark dari Gemini 2.5 Flash-Lite

  • Latensi: Mencapai hingga Waktu respons rata-rata 50% lebih rendah dibandingkan dengan Gemini 2.5 Flash, dengan tipikal kurang dari 100 ms latensi pada tolok ukur klasifikasi dan peringkasan standar.
  • Throughput:Dioptimalkan untuk volume tinggi beban kerja, menangani puluhan ribu permintaan per menit tanpa penurunan kinerja.
  • Harga-Kinerja: Menunjukkan sebuah Pengurangan biaya sebesar 25% per 1,000 token dibandingkan dengan Flash, menjadikannya Pareto-optimal pilihan untuk penerapan yang sensitif terhadap biaya.
  • Adopsi Industri: Pengguna awal melaporkan integrasi yang mulus ke dalam jalur produksi, dengan metrik kinerja yang selaras dengan atau melampaui proyeksi awal.

API Gemini 2.5 Flash Lite


Kasus Penggunaan Ideal

  • Tugas Frekuensi Tinggi, Kompleksitas Rendah: Penandaan otomatis, analisis sentimen, dan penerjemahan massal
  • Pipa yang Sensitif terhadap Biaya: Ekstraksi data dari korpora dokumen besar, ringkasan batch berkala
  • Skenario Edge dan Seluler: Ketika latensi sangat penting tetapi anggaran sumber daya terbatas

Keterbatasan Gemini 2.5 Flash-Lite

  • Pratinjau Status: Mungkin mengalami perubahan API sebelum GA; integrasi harus memperhitungkan kemungkinan peningkatan versi.
  • Tidak Ada Penyetelan Halus Secara Langsung: Tidak dapat mengunggah bobot khusus; mengandalkan pesan teknis dan sistem yang cepat.
  • Kreativitas Berkurang:Disesuaikan untuk tugas-tugas deterministik dan berthroughput tinggi; kurang cocok untuk pembuatan tugas-tugas terbuka atau penulisan “kreatif”.
  • Batasan Sumber Daya: Skala linear hanya hingga ~16 vCPU; lebih dari itu, perolehan throughput berkurang.
  • Kendala Multimoda: Mendukung masukan gambar/audio tetapi dengan fidelitas terbatas; tidak ideal untuk tugas penglihatan atau transkripsi audio yang berat.
  • Kompromi Jendela Konteks :Meskipun menerima hingga 1 juta token, inferensi praktis pada skala tersebut mungkin mengalami penurunan throughput.

Bagaimana cara menelepon Gemini 2.5 Flash-Lite API dari CometAPI

Gemini 2.5 Flash Lite Harga API di CometAPI, diskon 20% dari harga resmi:

  • Token Masukan: $0.08/M token
  • Token Keluaran: $0.32/M token

Langkah-langkah yang Diperlukan

  • Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
  • Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.
  • Dapatkan url situs ini: https://api.cometapi.com/

Metode Penggunaan

  1. Pilih "gemini-2.5-flash-lite” untuk mengirim permintaan API dan mengatur isi permintaan. Metode permintaan dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan pengujian Apifox demi kenyamanan Anda.
  2. Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
  3. Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
  4. Memproses respons API untuk mendapatkan jawaban yang dihasilkan.

CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi yang lancar. Detail penting untuk Dokumen API:

Lihat Juga Gemini 2.5 Pro

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%