Gemini 2.5 Flash ist darauf ausgelegt, schnelle Antworten zu liefern, ohne die Ausgabequalität zu beeinträchtigen. Es unterstützt multimodale Eingaben, darunter Text, Bilder, Audio und Video, wodurch es sich für vielfältige Anwendungen eignet. Das Modell ist über Plattformen wie Google AI Studio und Vertex AI zugänglich und stellt Entwicklern die erforderlichen Tools für eine nahtlose Integration in verschiedene Systeme bereit.

Basisinformationen (Funktionen)

Gemini 2.5 Flash führt mehrere herausragende Funktionen ein, die es innerhalb der Gemini-2.5-Familie hervorheben:

Hybrides Reasoning: Entwickler können den Parameter thinking_budget festlegen, um präzise zu steuern, wie viele Token das Modell vor der Ausgabe für internes Reasoning aufwendet .
Pareto-Frontier: Am optimalen Kosten-Leistungs-Punkt positioniert, bietet Flash das beste Preis-zu-Intelligenz-Verhältnis unter den 2.5-Modellen .
Multimodale Unterstützung: Verarbeitet Text, Bilder, Video und Audio nativ und ermöglicht so reichere dialogische und analytische Fähigkeiten .
1-Million-Token-Kontext: Die unerreichte Kontextlänge ermöglicht tiefe Analysen und das Verständnis langer Dokumente in einer einzigen Anfrage .

Modellversionierung

Gemini 2.5 Flash ist durch die folgenden wichtigen Versionen gegangen:

gemini-2.5-flash-lite-preview-09-2025: Verbesserte Tool-Benutzbarkeit: Verbesserte Leistung bei komplexen, mehrstufigen Aufgaben, mit einem Anstieg der SWE-Bench Verified Scores um 5% (von 48.9% auf 54%). Verbesserte Effizienz: Bei aktiviertem Reasoning wird mit weniger Token eine höhere Ausgabequalität erzielt, wodurch Latenz und Kosten sinken.
Preview 04-17: Early-Access-Release mit „thinking“-Funktion, verfügbar über gemini-2.5-flash-preview-04-17.
Stabile General Availability (GA): Ab dem 17. Juni 2025 ersetzt der stabile Endpoint gemini-2.5-flash das Preview und gewährleistet Produktionsreife ohne API-Änderungen gegenüber dem Preview vom 20. Mai .
Abkündigung des Preview: Die Preview-Endpoints waren für die Abschaltung am 15. Juli 2025 geplant; Nutzer müssen vor diesem Datum zum GA-Endpoint migrieren .

Ab Juli 2025 ist Gemini 2.5 Flash nun öffentlich verfügbar und stabil (keine Änderungen gegenüber dem gemini-2.5-flash-preview-05-20 ).Wenn Sie gemini-2.5-flash-preview-04-17 verwenden, gelten die bestehenden Preview-Preise bis zur geplanten Außerdienststellung des Modell-Endpoints am 15. Juli 2025, wenn er abgeschaltet wird. Sie können zum allgemein verfügbaren Modell "gemini-2.5-flash" migrieren .

Schneller, günstiger, intelligenter:

Designziele: geringe Latenz + hoher Durchsatz + niedrige Kosten;
Generelle Beschleunigung beim Reasoning, bei multimodaler Verarbeitung und bei Langtext-Aufgaben;
Der Tokenverbrauch wird um 20–30% reduziert, was die Reasoning-Kosten deutlich senkt.

Technische Spezifikationen

Eingabe-Kontextfenster: Bis zu 1 Million Token, was eine umfangreiche Kontextbeibehaltung ermöglicht.

Ausgabe-Token: Kann bis zu 8,192 Token pro Antwort generieren.

Unterstützte Modalitäten: Text, Bilder, Audio und Video.

Integrationsplattformen: Verfügbar über Google AI Studio und Vertex AI.

Preisgestaltung: Wettbewerbsfähiges tokenbasiertes Preismodell, das eine kosteneffiziente Bereitstellung erleichtert.

Technische Details

Unter der Haube ist Gemini 2.5 Flash ein Transformer-basiertes Large Language Model, das auf einer Mischung aus Web-, Code-, Bild- und Videodaten trainiert wurde. Wichtige technische Spezifikationen umfassen:

Multimodales Training: Darauf trainiert, mehrere Modalitäten abzugleichen, kann Flash Text nahtlos mit Bildern, Video oder Audio kombinieren – nützlich für Aufgaben wie Videozusammenfassungen oder Audiobeschreibungen .

Dynamischer Thinking-Prozess: Implementiert eine interne Reasoning-Schleife, in der das Modell komplexe Prompts plant und in Teilaufgaben zerlegt, bevor die finale Ausgabe erfolgt .

Konfigurierbare Thinking-Budgets: Der thinking_budget kann von 0 (kein Reasoning) bis zu 24,576 tokens eingestellt werden und erlaubt Abwägungen zwischen Latenz und Antwortqualität .

Tool-Integration: Unterstützt Grounding with Google Search, Code Execution, URL Context und Function Calling und ermöglicht reale Aktionen direkt aus natürlichsprachigen Prompts .

Benchmark-Leistung

In rigorosen Evaluierungen zeigt Gemini 2.5 Flash eine branchenführende Leistung:

LMArena Hard Prompts: Belegte den zweiten Platz (nur hinter 2.5 Pro) im anspruchsvollen Hard-Prompts-Benchmark und zeigt starke mehrstufige Reasoning-Fähigkeiten .
MMLU-Score von 0.809: Übertrifft die durchschnittliche Modellleistung mit einer MMLU-Genauigkeit von 0.809 und spiegelt breites Domänenwissen sowie Reasoning-Stärke wider .
Latenz und Durchsatz: Erreicht 271.4 tokens/sec Dekodiergeschwindigkeit bei 0.29 s Time-to-First-Token und ist damit ideal für latenzkritische Workloads.
Preis-Leistungs-Spitzenreiter: Bei \$0.26/1 M tokens unterbietet Flash viele Wettbewerber, während es sie in wichtigen Benchmarks erreicht oder übertrifft .

Diese Ergebnisse zeigen den Wettbewerbsvorsprung von Gemini 2.5 Flash beim Reasoning, wissenschaftlichen Verständnis, der mathematischen Problemlösung, beim Coding, der visuellen Interpretation und bei mehrsprachigen Fähigkeiten:

Einschränkungen

Obwohl leistungsfähig, weist Gemini 2.5 Flash bestimmte Einschränkungen auf:

Sicherheitsrisiken: Das Modell kann einen „preachy“-Ton annehmen und plausibel klingende, aber falsche oder verzerrte Ausgaben (Halluzinationen) erzeugen, insbesondere bei Randfallanfragen. Strenge menschliche Aufsicht bleibt essenziell.
Rate Limits: Die API-Nutzung wird durch Rate Limits beschränkt (10 RPM, 250,000 TPM, 250 RPD in den Standardstufen), was sich auf Batch-Verarbeitung oder Anwendungen mit hohem Volumen auswirken kann.
Intelligenz-Untergrenze: Obwohl es für ein flash-Modell außergewöhnlich leistungsfähig ist, bleibt es bei den anspruchsvollsten agentischen Aufgaben wie fortgeschrittenem Coding oder Multi-Agent-Koordination weniger akkurat als 2.5 Pro.
Kosten-Trade-offs: Obwohl das beste Preis-Leistungs-Verhältnis geboten wird, erhöht die umfangreiche Nutzung des thinking-Modus den gesamten Tokenverbrauch und steigert die Kosten für tiefes Reasoning bei Prompts .

Preise für Gemini 2.5 Flash

Entdecken Sie wettbewerbsfähige Preise für Gemini 2.5 Flash, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Gemini 2.5 Flash Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Beispielcode und API für Gemini 2.5 Flash

Die Gemini 2.5 Flash API ist Googles neuestes multimodales KI-Modell, konzipiert für schnelle, kosteneffiziente Aufgaben mit steuerbaren Reasoning-Fähigkeiten, sodass Entwickler erweiterte "thinking"-Funktionen über die Gemini API ein- oder ausschalten können.

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versionen von Gemini 2.5 Flash

Der Grund, warum Gemini 2.5 Flash mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.

version
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking