Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Eingabe:$0.24/M
Ausgabe:$2/M
Kontext:1M
Maximale Ausgabe:65K
Gemini 2.5 Flash ist ein von Google entwickeltes KI-Modell, das darauf ausgelegt ist, Entwicklern schnelle und kosteneffiziente Lösungen bereitzustellen, insbesondere für Anwendungen, die erweiterte Inferenzfähigkeiten erfordern. Laut der Vorschauankündigung zu Gemini 2.5 Flash wurde das Modell am 17. April 2025 als Vorschau veröffentlicht, unterstützt multimodale Eingaben und verfügt über ein Kontextfenster von 1 Million Token. Dieses Modell unterstützt eine maximale Kontextlänge von 65,536 Token.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API
Versionen

Gemini 2.5 Flash ist darauf ausgelegt, schnelle Antworten zu liefern, ohne die Qualität der Ausgabe zu beeinträchtigen. Es unterstützt multimodale Eingaben, darunter Text, Bilder, Audio und Video, und eignet sich damit für vielfältige Anwendungen. Das Modell ist über Plattformen wie Google AI Studio und Vertex AI zugänglich und stellt Entwicklern die notwendigen Tools für eine nahtlose Integration in verschiedene Systeme bereit.


Grundlegende Informationen (Funktionen)

Gemini 2.5 Flash führt mehrere herausragende Funktionen ein, die es innerhalb der Gemini-2.5-Familie hervorheben:

  • Hybrides Reasoning: Entwickler können einen thinking_budget-Parameter festlegen, um fein zu steuern, wie viele Tokens das Modell vor der Ausgabe für internes Reasoning aufwendet.
  • Pareto-Grenze: An der optimalen Preis-Leistungs-Position platziert, bietet Flash das beste Preis-zu-Intelligenz-Verhältnis unter den 2.5-Modellen.
  • Multimodale Unterstützung: Verarbeitet Text, Bilder, Video und Audio nativ und ermöglicht reichhaltigere Gesprächs- und Analysefunktionen.
  • 1-Millionen-Token-Kontext: Unerreichte Kontextlänge ermöglicht tiefgehende Analysen und das Verständnis langer Dokumente in einer einzigen Anfrage.

Modellversionierung

Gemini 2.5 Flash hat die folgenden wichtigen Versionen durchlaufen:

  • gemini-2.5-flash-lite-preview-09-2025: Verbesserte Tool-Bedienbarkeit: Bessere Leistung bei komplexen, mehrschrittigen Aufgaben mit einer 5%igen Steigerung der SWE-Bench Verified-Scores (von 48.9% auf 54%). Verbesserte Effizienz: Bei aktiviertem Reasoning wird mit weniger Tokens eine höhere Ausgabequalität erzielt, was Latenz und Kosten reduziert.
  • Preview 04-17: Frühzugangsversion mit „thinking“-Fähigkeit, verfügbar über gemini-2.5-flash-preview-04-17.
  • Stabile allgemeine Verfügbarkeit (GA): Seit dem 17. Juni 2025 ersetzt der stabile Endpunkt gemini-2.5-flash die Preview und gewährleistet Produktionsreife ohne API-Änderungen gegenüber der Preview vom 20. Mai.
  • Abschaltung der Preview: Preview-Endpunkte waren für die Abschaltung am 15. Juli 2025 geplant; Nutzer müssen vor diesem Datum auf den GA-Endpunkt migrieren.

Mit Stand Juli 2025 ist Gemini 2.5 Flash nun öffentlich verfügbar und stabil (keine Änderungen gegenüber gemini-2.5-flash-preview-05-20).Wenn Sie gemini-2.5-flash-preview-04-17 verwenden, gelten die bestehenden Preview-Preise bis zur planmäßigen Außerdienststellung des Modellendpunkts am 15. Juli 2025, wenn er abgeschaltet wird. Sie können auf das allgemein verfügbare Modell "gemini-2.5-flash" migrieren.

Schneller, günstiger, intelligenter:

  • Designziele: geringe Latenz + hoher Durchsatz + niedrige Kosten;
  • Gesamtbeschleunigung beim Reasoning, in der Multimodal-Verarbeitung und bei Langtextaufgaben;
  • Der Token-Verbrauch wird um 20–30% reduziert, was die Reasoning-Kosten deutlich senkt.

Technische Spezifikationen

Eingabekontextfenster: Bis zu 1 Million Tokens, was umfangreiche Kontextbeibehaltung ermöglicht.

Ausgabe-Tokens: Kann bis zu 8.192 Tokens pro Antwort generieren.

Unterstützte Modalitäten: Text, Bilder, Audio und Video.

Integrationsplattformen: Verfügbar über Google AI Studio und Vertex AI.

Preisgestaltung: Wettbewerbsfähiges tokenbasiertes Preismodell, das eine kosteneffiziente Bereitstellung erleichtert.


Technische Details

Unter der Haube ist Gemini 2.5 Flash ein transformer-basiertes großes Sprachmodell, das auf einer Mischung aus Web-, Code-, Bild- und Videodaten trainiert wurde. Wichtige technische Spezifikationen umfassen:

Multimodales Training: Trainiert zur Ausrichtung mehrerer Modalitäten, kann Flash Text nahtlos mit Bildern, Video oder Audio kombinieren, nützlich für Aufgaben wie Videosummarization oder Audiobeschreibung.

Dynamischer Denkprozess: Implementiert eine interne Reasoning-Schleife, in der das Modell plant und komplexe Prompts aufschlüsselt, bevor die finale Ausgabe erfolgt.

Konfigurierbare Thinking-Budgets: Der thinking_budget kann von 0 (kein Reasoning) bis 24,576 tokens gesetzt werden und ermöglicht Abwägungen zwischen Latenz und Antwortqualität.

Tool-Integration: Unterstützt Grounding with Google Search, Code Execution, URL Context und Function Calling und ermöglicht reale Aktionen direkt aus natürlichsprachigen Prompts.


Benchmark-Leistung

In rigorosen Evaluierungen zeigt Gemini 2.5 Flash führende Performance:

  • LMArena Hard Prompts: Erreichte zweiten Platz nur hinter 2.5 Pro auf dem anspruchsvollen Hard-Prompts-Benchmark und demonstriert starkes mehrstufiges Reasoning.
  • MMLU-Score von 0.809: Übertrifft die durchschnittliche Modellleistung mit einer 0.809 MMLU-Genauigkeit und spiegelt breites Domänenwissen und Reasoning-Kompetenz wider.
  • Latenz und Durchsatz: Erzielt 271.4 tokens/sec Dekodiergeschwindigkeit mit 0.29 s Time-to-First-Token und ist damit ideal für latenzkritische Workloads.
  • Preis-Leistungs-Führer: Bei \$0.26/1 M tokens unterbietet Flash viele Wettbewerber und erreicht auf wichtigen Benchmarks gleiche oder bessere Ergebnisse.

Diese Ergebnisse deuten auf den Wettbewerbsvorteil von Gemini 2.5 Flash in den Bereichen Reasoning, wissenschaftliches Verständnis, mathematische Problemlösung, Programmierung, visuelle Interpretation und Mehrsprachigkeit hin:

Gemini 2.5 Flash


Einschränkungen

Trotz seiner Leistungsfähigkeit weist Gemini 2.5 Flash einige Einschränkungen auf:

  • Sicherheitsrisiken: Das Modell kann einen "preachy"-Ton annehmen und plausibel klingende, aber falsche oder voreingenommene Ausgaben (Halluzinationen) erzeugen, insbesondere bei Randfallanfragen. Strenge menschliche Aufsicht bleibt essenziell.
  • Ratenlimits: Die API-Nutzung ist durch Limits (10 RPM, 250,000 TPM, 250 RPD auf Standardstufen) beschränkt, was sich auf Batch-Verarbeitung oder Anwendungen mit hohem Volumen auswirken kann.
  • Intelligenz-Untergrenze: Obwohl für ein Flash-Modell außergewöhnlich leistungsfähig, ist es bei den anspruchsvollsten agentischen Aufgaben wie fortgeschrittenem Coding oder Multi-Agent-Koordination weniger genau als 2.5 Pro.
  • Kostenabwägungen: Obwohl es die beste Preis-Leistung bietet, erhöht umfangreiche Nutzung des thinking-Modus den gesamten Token-Verbrauch und damit die Kosten bei tiefem Reasoning.

Funktionen für Gemini 2.5 Flash

Entdecken Sie die wichtigsten Funktionen von Gemini 2.5 Flash, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für Gemini 2.5 Flash

Entdecken Sie wettbewerbsfähige Preise für Gemini 2.5 Flash, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Gemini 2.5 Flash Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Beispielcode und API für Gemini 2.5 Flash

Die Gemini 2.5 Flash API ist das neueste multimodale KI-Modell von Google, entwickelt für schnelle, kosteneffiziente Aufgaben mit steuerbaren Reasoning-Fähigkeiten, sodass Entwickler über die Gemini API erweiterte „Thinking“-Funktionen ein- oder ausschalten können.
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versionen von Gemini 2.5 Flash

Der Grund, warum Gemini 2.5 Flash mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.
version
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-preview-05-20-thinking
gemini-2.5-flash
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-image
gemini-2.5-flash-lite

Weitere Modelle