Gemini 2.5 Flash ist darauf ausgelegt, schnelle Antworten zu liefern, ohne die Qualität der Ausgabe zu beeinträchtigen. Es unterstützt multimodale Eingaben, darunter Text, Bilder, Audio und Video, und eignet sich damit für vielfältige Anwendungen. Das Modell ist über Plattformen wie Google AI Studio und Vertex AI zugänglich und stellt Entwicklern die notwendigen Tools für eine nahtlose Integration in verschiedene Systeme bereit.
Gemini 2.5 Flash führt mehrere herausragende Funktionen ein, die es innerhalb der Gemini-2.5-Familie hervorheben:
Gemini 2.5 Flash hat die folgenden wichtigen Versionen durchlaufen:
Mit Stand Juli 2025 ist Gemini 2.5 Flash nun öffentlich verfügbar und stabil (keine Änderungen gegenüber gemini-2.5-flash-preview-05-20).Wenn Sie gemini-2.5-flash-preview-04-17 verwenden, gelten die bestehenden Preview-Preise bis zur planmäßigen Außerdienststellung des Modellendpunkts am 15. Juli 2025, wenn er abgeschaltet wird. Sie können auf das allgemein verfügbare Modell "gemini-2.5-flash" migrieren.
Schneller, günstiger, intelligenter:
Eingabekontextfenster: Bis zu 1 Million Tokens, was umfangreiche Kontextbeibehaltung ermöglicht.
Ausgabe-Tokens: Kann bis zu 8.192 Tokens pro Antwort generieren.
Unterstützte Modalitäten: Text, Bilder, Audio und Video.
Integrationsplattformen: Verfügbar über Google AI Studio und Vertex AI.
Preisgestaltung: Wettbewerbsfähiges tokenbasiertes Preismodell, das eine kosteneffiziente Bereitstellung erleichtert.
Unter der Haube ist Gemini 2.5 Flash ein transformer-basiertes großes Sprachmodell, das auf einer Mischung aus Web-, Code-, Bild- und Videodaten trainiert wurde. Wichtige technische Spezifikationen umfassen:
Multimodales Training: Trainiert zur Ausrichtung mehrerer Modalitäten, kann Flash Text nahtlos mit Bildern, Video oder Audio kombinieren, nützlich für Aufgaben wie Videosummarization oder Audiobeschreibung.
Dynamischer Denkprozess: Implementiert eine interne Reasoning-Schleife, in der das Modell plant und komplexe Prompts aufschlüsselt, bevor die finale Ausgabe erfolgt.
Konfigurierbare Thinking-Budgets: Der thinking_budget kann von 0 (kein Reasoning) bis 24,576 tokens gesetzt werden und ermöglicht Abwägungen zwischen Latenz und Antwortqualität.
Tool-Integration: Unterstützt Grounding with Google Search, Code Execution, URL Context und Function Calling und ermöglicht reale Aktionen direkt aus natürlichsprachigen Prompts.
In rigorosen Evaluierungen zeigt Gemini 2.5 Flash führende Performance:
Diese Ergebnisse deuten auf den Wettbewerbsvorteil von Gemini 2.5 Flash in den Bereichen Reasoning, wissenschaftliches Verständnis, mathematische Problemlösung, Programmierung, visuelle Interpretation und Mehrsprachigkeit hin:

Trotz seiner Leistungsfähigkeit weist Gemini 2.5 Flash einige Einschränkungen auf:
| Comet-Preis (USD / M Tokens) | Offizieller Preis (USD / M Tokens) |
|---|---|
Eingabe:$0.24/M Ausgabe:$2.00/M | Eingabe:$0.30/M Ausgabe:$2.50/M |
from google import genai
import os
# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"
client = genai.Client(
http_options={"api_version": "v1beta", "base_url": BASE_URL},
api_key=COMETAPI_KEY,
)
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Tell me a three sentence bedtime story about a unicorn.",
)
print(response.text)