. API Gemini 2.5 Flash-Lite mewakili tawaran terbaharu Google dalam keluarga model penaakulan hibridnya, yang direka untuk menyampaikan kecekapan kos yang tiada tandingan and kependaman ultra rendah untuk volum tinggi, aplikasi sensitif kependaman.
Maklumat Asas & Ciri
Diumumkan dalam keluaran pratonton pada 17 Jun 2025, Flash-Lite melengkapkan barisan Gemini 2.5—bersama Flash dan Pro—dengan menyediakan pembangun pilihan yang dioptimumkan untuk kelajuan, prestasi harga, dan pemikiran adaptif kemampuan .
Anda boleh mula menggunakan Gemini 2.5 Flash-Lite dengan menyatakan "gemini-2.5-flash-lite" dalam kod anda. Jika anda menggunakan versi pratonton, anda boleh bertukar kepada "gemini-2.5-flash-lite", yang sama dengan versi pratonton. Google merancang untuk mengalih keluar alias pratonton untuk Flash-Lite pada 25 Ogos.
| Kestabilan | model | Tarikh |
| Stabil (GA) | gemini-2.5-flash-lite | Julai 22, 2025 |
| Pratonton Percubaan | gemini-2.5-flash-lite-06-17 | Tetingkap Ketersediaan: 17 Jun – 25 Ogos 2025 |
| versi terkini | gemini-2.5-flash-lite-preview-09-2025 | 09-2025 |
- Kawalan Berfikir: Melaksanakan a belanjawan pemikiran dinamik melalui parameter API, dengan pemikiran dilumpuhkan secara lalai untuk memaksimumkan kelajuan dan mengurangkan kos.
- Latihan Rendah: Direka untuk a cepat masa-untuk-token-pertama, Flash-Lite meminimumkan overhed permulaan, mencapai kependaman sub-100 ms pada infrastruktur Google Cloud standard.
- Throughput Tinggi: Dengan saluran paip penyahkod yang berkebolehan, ia berkekalan beratus-ratus token sesaat, membuka kunci pengalaman pengguna masa nyata dalam chatbots dan aplikasi penstriman.
- Sokongan Multimodal: Walaupun dioptimumkan terutamanya untuk teks, Flash-Lite juga menerima imej, audio, dan video input melalui API Gemini, membolehkan kes penggunaan serba boleh daripada ringkasan dokumen kepada tugas penglihatan ringan .
Butiran Teknikal
- Penaakulan Adaptif:
Gemini 2.5 Flash-Litemenyokong atas permintaan berfikir, membenarkan pembangun memperuntukkan sumber pengiraan hanya apabila penaakulan yang lebih mendalam diperlukan. - Integrasi Alat: Keserasian penuh dengan alat asli Gemini 2.5, termasuk Asas dengan Carian Google, Pelaksanaan Kod, Konteks URL, dan Panggilan Fungsi untuk aliran kerja multimodal yang lancar.
- Protokol Konteks Model (MCP): Memanfaatkan MCP Google untuk mengambil data web masa nyata, memastikan respons adalah up-to-date and relevan secara kontekstual.
- Pilihan Pengeluaran: Tersedia melalui CometAPI, API Gemini, Verteks AI, dan Google AI Studio, dengan trek pratonton untuk pengguna awal untuk mencuba dan memberikan maklum balas.
Prestasi Penanda Aras bagi Gemini 2.5 Flash-Lite
- Latency: Mencapai sehingga Masa tindak balas median 50% lebih rendah berbanding Gemini 2.5 Flash, dengan tipikal sub-100 ms latensi pada pengelasan standard dan tanda aras ringkasan.
- Pemprosesan: Dioptimumkan untuk kelantangan yang tinggi beban kerja, mengekalkan puluhan ribu permintaan seminit tanpa penurunan prestasi.
- Harga-Prestasi: Menunjukkan a 25% pengurangan kos setiap 1,000 token berbanding rakan sejawatannya Flash, menjadikannya sebagai Pareto-optimum pilihan untuk penggunaan sensitif kos.
- Penggunaan Industri: Pengguna awal melaporkan penyepaduan yang lancar ke dalam saluran paip pengeluaran, dengan metrik prestasi sejajar dengan atau melebihi unjuran awal .

Kes Penggunaan Ideal
- Tugasan Frekuensi Tinggi, Rendah Kerumitan: Pengetegan automatik, analisis sentimen dan terjemahan pukal
- Talian Paip Sensitif Kos: Pengekstrakan data daripada korpora dokumen besar, ringkasan kelompok berkala
- Senario Edge dan Mudah Alih: Apabila kependaman adalah kritikal tetapi belanjawan sumber adalah terhad
Batasan Gemini 2.5 Flash-Lite
- Status Pratonton: Boleh mengalami perubahan API sebelum GA; penyepaduan harus mengambil kira kemungkinan bonggol versi.
- Tiada Penalaan Halus On-the-Fly: Tidak boleh memuat naik pemberat tersuai; bergantung pada kejuruteraan segera dan mesej sistem.
- Kreativiti Berkurangan: Ditala untuk tugasan deterministik, berkemampuan tinggi; kurang sesuai untuk penulisan generasi terbuka atau "kreatif".
- Siling Sumber: Skala secara linear hanya sehingga ~16 vCPU; di luar ini, keuntungan daya pengeluaran berkurangan.
- Kekangan Multimodal: Menyokong input imej/audio tetapi dengan kesetiaan terhad; tidak sesuai untuk penglihatan berat atau tugas transkripsi audio.
- Konteks-Tetingkap Trade-Off : Walaupun ia menerima sehingga 1 M token, inferens praktikal pada skala itu mungkin melihat daya pemprosesan yang terdegradasi.
Bagaimana hendak memanggil Gemini 2.5 Flash-Lite API daripada CometAPI
Gemini 2.5 Flash-Lite Harga API dalam CometAPI,diskaun 20% daripada harga rasmi:
- Token Input: token $0.08/ M
- Token Output: $0.32/M token
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Kaedah Penggunaan
- Pilih "
gemini-2.5-flash-lite” titik akhir untuk menghantar permintaan API dan menetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk penghijrahan yang lancar. Butiran penting kepada Dokumen API:
- URL asas: https://api.cometapi.com/v1/chat/completions
- Nama Model: "
gemini-2.5-flash-lite" - Pengesahan:
Bearer YOUR_CometAPI_API_KEYheader
See Also Gemini 2.5 Pro
