Gemini 2.5 Flash-Lite API

Die Gemini 2.5 Flash-Lite API stellt Googles neuestes Angebot in seiner Familie hybrider Denkmodelle dar, die darauf ausgelegt sind, beispiellose Kosteneffizienz kombiniert mit einem nachhaltigen Materialprofil. extrem niedrige Latenz für latenzempfindliche Anwendungen mit hohem Volumen.

Grundlegende Informationen und Funktionen

Flash-Lite wurde in einer Vorschauversion am 17. Juni 2025 angekündigt und rundet die Gemini 2.5-Reihe – neben Flash und Pro – ab, indem es Entwicklern eine Option bietet, die optimiert ist für Geschwindigkeit, Preis-Leistungs und adaptives Denken Fähigkeiten.

Sie können Gemini 2.5 Flash-Lite verwenden, indem Sie in Ihrem Code „gemini-2.5-flash-lite“ angeben. Wenn Sie eine Vorschauversion verwenden, können Sie zu „gemini-2.5-flash-lite“ wechseln, was der Vorschauversion entspricht. Google plant, den Vorschaualias für Flash-Lite am 25. August zu entfernen.


Stabilität	Modell	Datum
Stabil (GA)	`gemini-2.5-flash-lite`	Juli 22, 2025
Experimentelle Vorschau	`gemini-2.5-flash-lite-06-17`	Verfügbarkeitsfenster: 17. Juni – 25. August 2025
neueste Version	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

Denkkontrolle: Implementiert eine dynamisches Denkbudget über einen API-Parameter, mit dem Gedanken standardmäßig deaktiviert um die Geschwindigkeit zu maximieren und die Kosten zu senken.
Geringe Wartezeit: Entwickelt für eine schnelle Zeit bis zum ersten TokenFlash-Lite minimiert den Startaufwand und erreicht Latenzen von unter 100 ms auf der Standardinfrastruktur von Google Cloud.
Hoher Durchsatz: Mit leistungsfähigen Dekodierungspipelines unterstützt es Hunderte von Token pro Sekunde, wodurch Echtzeit-Benutzererlebnisse in Chatbots und Streaming-Anwendungen ermöglicht werden.
Multimodale Unterstützung: Obwohl Flash-Lite in erster Linie für Text optimiert ist, akzeptiert es auch Bildern, Audio- und Video Eingaben über die Gemini-API, wodurch vielseitige Anwendungsfälle von der Dokumentzusammenfassung bis hin zu Lichtsichtaufgaben ermöglicht werden.

Technische Daten

Adaptives Denken: Gemini 2.5 Flash-Lite unterstützt On-Demand Denken, sodass Entwickler Rechenressourcen nur dann zuweisen können, wenn tiefere Überlegungen erforderlich sind.
Tool-Integrationen: Volle Kompatibilität mit den nativen Tools von Gemini 2.5, einschließlich Erdung mit der Google-Suche, Codeausführung, URL-Kontext und Funktionsaufruf für nahtlose multimodale Arbeitsabläufe.
Model Context Protocol (MCP): Nutzt Googles MCP, um Webdaten in Echtzeit abzurufen und so sicherzustellen, dass die Antworten auf dem neusten Stand kombiniert mit einem nachhaltigen Materialprofil. kontextbezogen.
Bereitstellungsoptionen: Verfügbar über die CometAPI, Gemini-API, Scheitelpunkt AI und Google AI Studio, mit einem Vorschau-Track, auf dem Early Adopters experimentieren und Feedback geben können.

Benchmark-Leistung von `Gemini 2.5 Flash-Lite`

Latency: Erreicht bis zu 50 % kürzere durchschnittliche Reaktionszeiten im Vergleich zu Gemini 2.5 Flash, mit typischen unter 100 ms Latenzen bei Standard-Klassifizierungs- und Zusammenfassungs-Benchmarks.
Durchsatz: Optimiert für hohe Lautstärke Arbeitslasten und kann Zehntausende von Anfragen pro Minute ohne Leistungseinbußen bewältigen.
Preis-Leistung: Demonstriert eine 25 % Kostensenkung pro 1,000 Token im Vergleich zu seinem Flash-Gegenstück, was es zum Pareto-optimal Wahl für kostensensible Bereitstellungen.
Übernahme durch die Industrie: Erste Benutzer berichten von einer nahtlosen Integration in Produktionspipelines, wobei die Leistungsmetriken den ursprünglichen Prognosen entsprechen oder diese übertreffen.

Gemini 2.5 Flash-Lite API

Ideale Anwendungsfälle

Aufgaben mit hoher Frequenz und geringer Komplexität: Automatisiertes Tagging, Stimmungsanalyse und Massenübersetzung
Kostensensitive Pipelines: Datenextraktion aus großen Dokumentkorpora, regelmäßige Batch-Zusammenfassung
Edge- und Mobile-Szenarien: Wenn die Latenz kritisch ist, die Ressourcenbudgets jedoch begrenzt sind

Einschränkungen von `Gemini 2.5 Flash-Lite`

Vorschaustatus: Vor der allgemeinen Verfügbarkeit können API-Änderungen vorgenommen werden; Integrationen sollten mögliche Versionssprünge berücksichtigen.
Keine Feinabstimmung im laufenden Betrieb: Benutzerdefinierte Gewichte können nicht hochgeladen werden. Verlassen Sie sich auf umgehende technische und Systemmeldungen.
Reduzierte Kreativität: Optimiert für deterministische Aufgaben mit hohem Durchsatz; weniger geeignet für die Generierung mit offenem Ende oder „kreatives“ Schreiben.
Ressourcenobergrenze: Skaliert nur linear bis zu ~16 vCPUs; darüber hinaus verringern sich die Durchsatzgewinne.
Multimodale Einschränkungen: Unterstützt Bild-/Audioeingänge, jedoch mit eingeschränkter Wiedergabetreue; nicht ideal für anspruchsvolle Bild- oder Audiotranskriptionsaufgaben.
Kontext-Fenster-Kompromiss : Obwohl bis zu 1 Million Token akzeptiert werden, kann es bei praktischen Inferenzen in diesem Umfang zu einem verringerten Durchsatz kommen.

Wie man anruft `Gemini 2.5 Flash-Lite` API von CometAPI