Gemini 2.5 Flash-Lite API repræsenterer Googles nyeste tilbud i sin familie af hybride ræsonnementsmodeller, designet til at levere uovertruffen omkostningseffektivitet og ultra-lav latenstid til applikationer med høj volumen og latenstid.
Grundlæggende oplysninger og funktioner
Flash-Lite, der blev annonceret i en forhåndsvisning den 17. juni 2025, fuldender Gemini 2.5-serien – sammen med Flash og Pro – ved at give udviklere en mulighed, der er optimeret til hastighed, pris-ydelseog adaptiv tænkning evner.
Du kan begynde at bruge Gemini 2.5 Flash-Lite ved at angive "gemini-2.5-flash-lite" i din kode. Hvis du bruger en forhåndsvisningsversion, kan du skifte til "gemini-2.5-flash-lite", som er den samme som forhåndsvisningsversionen. Google planlægger at fjerne forhåndsvisningsaliaset for Flash-Lite den 25. august.
| Stabilitet | Model | Dato |
| Stabil (GA) | gemini-2.5-flash-lite | Juli 22, 2025 |
| Eksperimentel forhåndsvisning | gemini-2.5-flash-lite-06-17 | Tilgængelighedsperiode: 17. juni – 25. august 2025 |
| seneste version | gemini-2.5-flash-lite-preview-09-2025 | 09-2025 |
- TænkekontrolImplementerer en dynamisk tænkningsbudget via en API-parameter, med tankegang er deaktiveret som standard for at maksimere hastigheden og reducere omkostningerne.
- Lav latenstid: Konstrueret til en hurtig tid til første token, Flash-Lite minimerer opstartsomkostninger og opnår latenstider på under 100 ms på standard Google Cloud-infrastruktur.
- Høj gennemstrømningMed kapable afkodningspipelines opretholder den hundredvis af tokens i sekundet, der låser op for brugeroplevelser i realtid i chatbots og streamingapplikationer.
- Multimodal supportSelvom Flash-Lite primært er optimeret til tekst, accepterer det også billeder, lydog video input via Gemini API'en, hvilket muliggør alsidige anvendelsesscenarier fra dokumentopsummering til lysvisionsopgaver.
Tekniske detaljer
- Adaptiv ræsonnement:
Gemini 2.5 Flash-Liteunderstøtter on-demand tænker, hvilket kun giver udviklere mulighed for at allokere beregningsressourcer, når dybere ræsonnement er påkrævet. - VærktøjsintegrationerFuld kompatibilitet med Gemini 2.5's native værktøjer, inklusive Jordforbindelse med Google-søgning, Kodeudførelse, URL-kontekstog Funktionsopkald for problemfri multimodale arbejdsgange.
- **Model Context Protocol (MCP)**Udnytter Googles MCP til at hente webdata i realtid og sikrer, at svarene er up-to-date og kontekstuelt relevant.
- DistributionsmulighederTilgængelig via CometAPI, Gemini API, Vertex AIog Google AI Studio, med et forhåndsvisningsspor, hvor tidlige brugere kan eksperimentere og give feedback.
Benchmark-præstation for Gemini 2.5 Flash-Lite
- Latency: Opnår op til 50 % lavere gennemsnitlige svartider sammenlignet med Gemini 2.5 Flash, med typisk under 100 ms latenser på standardklassificerings- og opsummeringsbenchmarks.
- gennemløb: Optimeret til høj volumen arbejdsbelastninger, der håndterer titusindvis af anmodninger i minuttet uden forringelse af ydeevnen.
- Pris-ydelse: Demonstrerer en 25% reduktion i omkostningerne pr. 1,000 tokens i forhold til sin Flash-modpart, hvilket gør den til Pareto-optimal valg til omkostningsfølsomme implementeringer.
- IndustriadoptionTidlige brugere rapporterer problemfri integration i produktionsrørledninger, hvor præstationsmålinger stemmer overens med eller overgår de oprindelige prognoser.

Ideel brugssager
- Højfrekvente, lavkomplekse opgaver: Automatiseret tagging, sentimentanalyse og masseoversættelse
- Omkostningsfølsomme rørledninger: Dataudtrækning fra store dokumentkorpus, periodisk batchopsummering
- Edge- og mobile scenarier: Når latenstid er kritisk, men ressourcebudgetterne er begrænsede
Begrænsninger af Gemini 2.5 Flash-Lite
- ForhåndsvisningsstatusKan gennemgå API-ændringer før GA; integrationer bør tage højde for mulige versionsforskelle.
- Ingen finjustering undervejsKan ikke uploade brugerdefinerede vægte; stol på prompt tekniske meddelelser og systemmeddelelser.
- Reduceret kreativitetTunet til deterministiske opgaver med høj kapacitet; mindre egnet til åben generering eller "kreativ" skrivning.
- RessourceloftSkalerer kun lineært op til ~16 vCPU'er; ud over dette mindskes gennemløbsgevinsterne.
- Multimodale begrænsningerUnderstøtter billed-/lydinput, men med begrænset kvalitet; ikke ideel til opgaver med tungt syn eller lydtransskription.
- Afvejning i kontekstvindue Selvom den accepterer op til 1 mio. tokens, kan praktisk inferens i den skala medføre forringet gennemløbshastighed.
Sådan ringer du Gemini 2.5 Flash-Lite API fra CometAPI
Gemini 2.5 Flash-Lite API-priser i CometAPI, 20 % rabat på den officielle pris:
- Input-tokens: $0.08/M tokens
- Output-tokens: $0.32/M-tokens
Påkrævede trin
- Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, bedes du registrere dig først
- Få adgangslegitimations-API-nøglen til grænsefladen. Klik på "Tilføj token" ved API-tokenet i det personlige center, få token-nøglen: sk-xxxxx og send.
- Hent url'en til dette websted: https://api.cometapi.com/
Brugsmetoder
- Vælg "
gemini-2.5-flash-lite” endepunkt for at sende API-anmodningen og indstille anmodningsteksten. Forespørgselsmetoden og anmodningsteksten er hentet fra vores websteds API-dokument. Vores websted tilbyder også Apifox-test for din bekvemmelighed. - Erstatte med din egentlige CometAPI-nøgle fra din konto.
- Indsæt dit spørgsmål eller din anmodning i indholdsfeltet – det er det, modellen vil reagere på.
- . Behandle API-svaret for at få det genererede svar.
CometAPI leverer en fuldt kompatibel REST API – til problemfri migrering. Vigtige detaljer til API-dok:
- Basis URL: https://api.cometapi.com/v1/chat/completions
- Modelnavne: "
gemini-2.5-flash-lite" - Godkendelse:
Bearer YOUR_CometAPI_API_KEYheader
Se også Gemini 2.5 Pro
