Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite API repræsenterer Googles nyeste tilbud i sin familie af hybride ræsonnementsmodeller, designet til at levere uovertruffen omkostningseffektivitet og ultra-lav latenstid til applikationer med høj volumen og latenstid.

Grundlæggende oplysninger og funktioner

Flash-Lite, der blev annonceret i en forhåndsvisning den 17. juni 2025, fuldender Gemini 2.5-serien – sammen med Flash og Pro – ved at give udviklere en mulighed, der er optimeret til hastighed, pris-ydelseog adaptiv tænkning evner.

Du kan begynde at bruge Gemini 2.5 Flash-Lite ved at angive "gemini-2.5-flash-lite" i din kode. Hvis du bruger en forhåndsvisningsversion, kan du skifte til "gemini-2.5-flash-lite", som er den samme som forhåndsvisningsversionen. Google planlægger at fjerne forhåndsvisningsaliaset for Flash-Lite den 25. august.


Stabilitet	Model	Dato
Stabil (GA)	`gemini-2.5-flash-lite`	Juli 22, 2025
Eksperimentel forhåndsvisning	`gemini-2.5-flash-lite-06-17`	Tilgængelighedsperiode: 17. juni – 25. august 2025
seneste version	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

TænkekontrolImplementerer en dynamisk tænkningsbudget via en API-parameter, med tankegang er deaktiveret som standard for at maksimere hastigheden og reducere omkostningerne.
Lav latenstid: Konstrueret til en hurtig tid til første token, Flash-Lite minimerer opstartsomkostninger og opnår latenstider på under 100 ms på standard Google Cloud-infrastruktur.
Høj gennemstrømningMed kapable afkodningspipelines opretholder den hundredvis af tokens i sekundet, der låser op for brugeroplevelser i realtid i chatbots og streamingapplikationer.
Multimodal supportSelvom Flash-Lite primært er optimeret til tekst, accepterer det også billeder, lydog video input via Gemini API'en, hvilket muliggør alsidige anvendelsesscenarier fra dokumentopsummering til lysvisionsopgaver.

Tekniske detaljer

Adaptiv ræsonnement: Gemini 2.5 Flash-Lite understøtter on-demand tænker, hvilket kun giver udviklere mulighed for at allokere beregningsressourcer, når dybere ræsonnement er påkrævet.
VærktøjsintegrationerFuld kompatibilitet med Gemini 2.5's native værktøjer, inklusive Jordforbindelse med Google-søgning, Kodeudførelse, URL-kontekstog Funktionsopkald for problemfri multimodale arbejdsgange.
**Model Context Protocol (MCP)**Udnytter Googles MCP til at hente webdata i realtid og sikrer, at svarene er up-to-date og kontekstuelt relevant.
DistributionsmulighederTilgængelig via CometAPI, Gemini API, Vertex AIog Google AI Studio, med et forhåndsvisningsspor, hvor tidlige brugere kan eksperimentere og give feedback.

Benchmark-præstation for `Gemini 2.5 Flash-Lite`

Latency: Opnår op til 50 % lavere gennemsnitlige svartider sammenlignet med Gemini 2.5 Flash, med typisk under 100 ms latenser på standardklassificerings- og opsummeringsbenchmarks.
gennemløb: Optimeret til høj volumen arbejdsbelastninger, der håndterer titusindvis af anmodninger i minuttet uden forringelse af ydeevnen.
Pris-ydelse: Demonstrerer en 25% reduktion i omkostningerne pr. 1,000 tokens i forhold til sin Flash-modpart, hvilket gør den til Pareto-optimal valg til omkostningsfølsomme implementeringer.
IndustriadoptionTidlige brugere rapporterer problemfri integration i produktionsrørledninger, hvor præstationsmålinger stemmer overens med eller overgår de oprindelige prognoser.

Gemini 2.5 Flash-Lite API

Ideel brugssager

Højfrekvente, lavkomplekse opgaver: Automatiseret tagging, sentimentanalyse og masseoversættelse
Omkostningsfølsomme rørledninger: Dataudtrækning fra store dokumentkorpus, periodisk batchopsummering
Edge- og mobile scenarier: Når latenstid er kritisk, men ressourcebudgetterne er begrænsede

Begrænsninger af `Gemini 2.5 Flash-Lite`

ForhåndsvisningsstatusKan gennemgå API-ændringer før GA; integrationer bør tage højde for mulige versionsforskelle.
Ingen finjustering undervejsKan ikke uploade brugerdefinerede vægte; stol på prompt tekniske meddelelser og systemmeddelelser.
Reduceret kreativitetTunet til deterministiske opgaver med høj kapacitet; mindre egnet til åben generering eller "kreativ" skrivning.
RessourceloftSkalerer kun lineært op til ~16 vCPU'er; ud over dette mindskes gennemløbsgevinsterne.
Multimodale begrænsningerUnderstøtter billed-/lydinput, men med begrænset kvalitet; ikke ideel til opgaver med tungt syn eller lydtransskription.
Afvejning i kontekstvindue Selvom den accepterer op til 1 mio. tokens, kan praktisk inferens i den skala medføre forringet gennemløbshastighed.

Sådan ringer du `Gemini 2.5 Flash-Lite` API fra CometAPI