Gemini 2.5 Flash-Lite API

Ocuco Gemini 2.5 Flash-Lite API representerer Googles nyeste tilbud i familien av hybride resonneringsmodeller, designet for å levere uovertruffen kostnadseffektivitet og ultra-lav ventetid for applikasjoner med høyt volum og latensfølsomhet.

Grunnleggende informasjon og funksjoner

Flash-Lite, som ble annonsert i en forhåndsvisning 17. juni 2025, avrunder Gemini 2.5-serien – sammen med Flash og Pro – ved å gi utviklere et alternativ optimalisert for fart, pris-ytelseog adaptiv tenkning evner.

Du kan begynne å bruke Gemini 2.5 Flash-Lite ved å spesifisere «gemini-2.5-flash-lite» i koden din. Hvis du bruker en forhåndsvisningsversjon, kan du bytte til «gemini-2.5-flash-lite», som er den samme som forhåndsvisningsversjonen. Google planlegger å fjerne forhåndsvisningsaliaset for Flash-Lite 25. august.


Stabilitet	Modell	Dato
Stabil (GA)	`gemini-2.5-flash-lite`	Juli 22, 2025
Eksperimentell forhåndsvisning	`gemini-2.5-flash-lite-06-17`	Tilgjengelighetsvindu: 17. juni – 25. august 2025
siste versjonen	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

TankekontrollImplementerer en dynamisk tenkningsbudsjett via en API-parameter, med tankegang er deaktivert som standard for å maksimere hastigheten og redusere kostnadene.
Lav latens: Konstruert for en rask tid til første token, Flash-Lite minimerer oppstartskostnader og oppnår forsinkelser på under 100 ms på standard Google Cloud-infrastruktur.
Høy gjennomstrømmingMed kapable dekodingsrørledninger opprettholder den hundrevis av tokens per sekund, og låser opp brukeropplevelser i sanntid i chatboter og strømmeapplikasjoner.
Multimodal støtteSelv om den primært er optimalisert for tekst, godtar Flash-Lite også bilder, lydog video inndata via Gemini API, noe som muliggjør allsidige brukstilfeller fra dokumentsammendrag til lysvisjonsoppgaver.

Tekniske detaljer

Adaptiv resonnement: Gemini 2.5 Flash-Lite støtter on-demand tenker, slik at utviklere bare kan tildele dataressurser når dypere resonnement er nødvendig.
VerktøyintegrasjonerFull kompatibilitet med Gemini 2.5s innebygde verktøy, inkludert Jording med Google Søk, Kodeutførelse, URL-kontekstog Funksjonsanrop for sømløse multimodale arbeidsflyter.
**Model Context Protocol (MCP)**Utnytter Googles MCP til å hente nettdata i sanntid, og sørger for at svarene er up-to-date og kontekstuelt relevant.
DistribusjonsalternativerTilgjengelig gjennom CometAPI, Gemini API, Vertex AIog Google AI Studio, med et forhåndsvisningsspor for tidlige brukere der de kan eksperimentere og gi tilbakemeldinger.

Referanseytelse for `Gemini 2.5 Flash-Lite`

Ventetid: Oppnår opp til 50 % lavere median responstid sammenlignet med Gemini 2.5 Flash, med typisk under 100 ms latenser på standard klassifisering og oppsummeringsbenchmarks.
gjennomstrømming: Optimalisert for høyt volum arbeidsbelastninger, som opprettholder titusenvis av forespørsler per minutt uten forringelse av ytelsen.
Pris-ytelseDemonstrerer en 25 % reduksjon i kostnad per 1,000 tokens sammenlignet med sin Flash-motpart, noe som gjør den til Pareto-optimal valg for kostnadssensitive implementeringer.
IndustriadopsjonTidlige brukere rapporterer sømløs integrering i produksjonsrørledninger, med ytelsesmålinger som samsvarer med eller overgår de opprinnelige prognosene.

Gemini 2.5 Flash-Lite API

Ideelle brukstilfeller

Høyfrekvente, lavkomplekse oppgaver: Automatisert tagging, sentimentanalyse og masseoversettelse
Kostnadsfølsomme rørledninger: Datauttrekk fra store dokumentkorpuser, periodisk batchoppsummering
Edge- og mobile scenarier: Når ventetid er kritisk, men ressursbudsjettene er begrensede

Begrensninger av `Gemini 2.5 Flash-Lite`

ForhåndsvisningsstatusKan bli endret i API-et før GA; integrasjoner bør ta hensyn til mulige versjonsendringer.
Ingen finjustering underveisKan ikke laste opp egendefinerte vekter; stol på umiddelbar teknisk support og systemmeldinger.
Redusert kreativitet: Innstilt for deterministiske oppgaver med høy gjennomstrømning; mindre egnet for åpen generering eller «kreativ» skriving.
RessursgrenseSkalerer lineært bare opp til ~16 vCPU-er; utover dette avtar gjennomstrømningsøkningen.
Multimodale begrensningerStøtter bilde-/lydinnganger, men med begrenset gjengivelse; ikke ideelt for oppgaver med tungt syn eller lydtranskripsjon.
Avveining i kontekstvindu Selv om den aksepterer opptil 1 million tokens, kan praktisk slutning i den skalaen føre til redusert gjennomstrømning.

Hvordan ringe `Gemini 2.5 Flash-Lite` API fra CometAPI