Gemini 2.5 Flash-Lite API

Het Gemini 2.5 Flash-Lite API vertegenwoordigt Google's nieuwste aanbod in zijn familie van hybride redeneermodellen, ontworpen om ongeëvenaarde kostenefficiëntie en ultra-lage latentie voor toepassingen met een groot volume en latentiegevoeligheid.

Basisgegevens en functies

Flash-Lite, aangekondigd in een preview-release op 17 juni 2025, completeert de Gemini 2.5-reeks – naast Flash en Pro – door ontwikkelaars een optie te bieden die is geoptimaliseerd voor snelheid, prijs-prestatieen adaptief denken mogelijkheden.

U kunt Gemini 2.5 Flash-Lite gebruiken door "gemini-2.5-flash-lite" in uw code op te geven. Als u een previewversie gebruikt, kunt u overschakelen naar "gemini-2.5-flash-lite", wat hetzelfde is als de previewversie. Google is van plan de previewalias voor Flash-Lite op 25 augustus te verwijderen.


Stabiliteit	Model	Datum
Stabiel (GA)	`gemini-2.5-flash-lite`	July 22, 2025
Experimentele preview	`gemini-2.5-flash-lite-06-17`	Beschikbaarheidsperiode: 17 juni – 25 augustus 2025
laatste versie	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

Denkcontrole: Implementeert een dynamisch denkbudget via een API-parameter, met denken standaard uitgeschakeld om de snelheid te maximaliseren en de kosten te verlagen.
Lage latentie: Ontworpen voor een snelle time-to-first-token, Flash-Lite minimaliseert de opstartkosten en bereikt een latentie van minder dan 100 ms op standaard Google Cloud-infrastructuur.
Hoge doorvoer: Met capabele decoderingspijplijnen ondersteunt het honderden tokens per seconde, waardoor realtime gebruikerservaringen in chatbots en streamingtoepassingen mogelijk worden.
Multimodale ondersteuning: Hoewel Flash-Lite primair geoptimaliseerd is voor tekst, accepteert het ook afbeeldingen, audioen video- invoer via de Gemini API, waardoor veelzijdige use cases mogelijk zijn, van het samenvatten van documenten tot licht visuele taken.

Technische gegevens

Adaptief redeneren: Gemini 2.5 Flash-Lite ondersteunt on-demand het denkenwaardoor ontwikkelaars computerbronnen alleen kunnen toewijzen wanneer er een diepere redenering nodig is.
Tool-integraties: Volledige compatibiliteit met de native tools van Gemini 2.5, inclusief Gronding met Google Zoeken, Code-uitvoering, URL-contexten Functie Bellen voor naadloze multimodale workflows.
Modelcontextprotocol (MCP): Maakt gebruik van Google's MCP om realtime webgegevens op te halen, zodat de reacties correct zijn. up-to-date en contextueel relevant.
Implementatie opties: Beschikbaar via de KomeetAPI, Gemini-API, Vertex-AIen Google AI Studio, met een preview-traject voor early adopters om te experimenteren en feedback te geven.

Benchmarkprestaties van `Gemini 2.5 Flash-Lite`

Wachttijd: Bereikt tot 50% lagere mediane responstijden vergeleken met Gemini 2.5 Flash, met typische minder dan 100 ms latenties op standaard classificatie- en samenvattingsbenchmarks.
Doorvoer: Geoptimaliseerd voor hoog volume werklasten en kunnen tienduizenden verzoeken per minuut verwerken zonder dat de prestaties verslechteren.
Prijs-prestatieverhouding: Toont een 25% kostenverlaging per 1,000 tokens in vergelijking met zijn Flash-tegenhanger, waardoor het de Pareto-optimaal keuze voor kostenbewuste implementaties.
Adoptie door de industrie:De eerste gebruikers melden een naadloze integratie in productiepijplijnen, waarbij de prestatiegegevens overeenkomen met of de initiële prognoses overtreffen.

Gemini 2.5 Flash-Lite API

Ideale gebruiksgevallen

Hoogfrequente, laagcomplexe taken: Geautomatiseerde tagging, sentimentanalyse en bulkvertaling
Kostengevoelige pijpleidingen: Gegevensextractie uit grote documentcorpora, periodieke batch-samenvatting
Edge- en mobiele scenario's: Wanneer latentie cruciaal is, maar de resourcebudgetten beperkt zijn

Beperkingen van `Gemini 2.5 Flash-Lite`

Voorbeeldstatus: Er kunnen API-wijzigingen plaatsvinden vóór de algemene beschikbaarheid. Integraties moeten rekening houden met mogelijke versiewijzigingen.
Geen snelle fijnafstemming: Het uploaden van aangepaste gewichten is niet mogelijk. Vertrouw op snelle technische en systeemberichten.
Verminderde creativiteit: Afgestemd op deterministische taken met een hoge doorvoersnelheid; minder geschikt voor open-ended generation of 'creatief' schrijven.
Bronplafond: Schaalt lineair tot maximaal ~16 vCPU's. Bij hogere volumes neemt de winst in doorvoer af.
Multimodale beperkingen: Ondersteunt beeld-/audio-invoer, maar met beperkte betrouwbaarheid; niet ideaal voor intensieve beeld- of audiotranscriptietaken.
Context-venster afweging :Hoewel er maximaal 1 miljoen tokens worden geaccepteerd, kan de praktische inferentie op die schaal leiden tot een lagere doorvoer.

Hoe te bellen `Gemini 2.5 Flash-Lite` API van CometAPI