ModellePreiseUnternehmen
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Unternehmen
Über unsUnternehmen
Ressourcen
KI-ModelleBlogÄnderungsprotokollSupport
NutzungsbedingungenDatenschutzrichtlinie
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Eingabe:$0.24/M
Ausgabe:$2/M
Kontext:1M
Maximale Ausgabe:65K
Gemini 2.5 Flash ist ein von Google entwickeltes KI-Modell, das darauf ausgelegt ist, Entwicklern schnelle und kosteneffiziente Lösungen bereitzustellen, insbesondere für Anwendungen, die erweiterte Inferenzfähigkeiten erfordern. Laut der Vorschauankündigung zu Gemini 2.5 Flash wurde das Modell am 17. April 2025 als Vorschau veröffentlicht, unterstützt multimodale Eingaben und verfügt über ein Kontextfenster von 1 Million Token. Dieses Modell unterstützt eine maximale Kontextlänge von 65,536 Token.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API
Versionen

Gemini 2.5 Flash ist darauf ausgelegt, schnelle Antworten zu liefern, ohne die Ausgabequalität zu beeinträchtigen. Es unterstützt multimodale Eingaben, darunter Text, Bilder, Audio und Video, wodurch es sich für vielfältige Anwendungen eignet. Das Modell ist über Plattformen wie Google AI Studio und Vertex AI zugänglich und stellt Entwicklern die erforderlichen Tools für eine nahtlose Integration in verschiedene Systeme bereit.


Basisinformationen (Funktionen)

Gemini 2.5 Flash führt mehrere herausragende Funktionen ein, die es innerhalb der Gemini-2.5-Familie hervorheben:

  • Hybrides Reasoning: Entwickler können den Parameter thinking_budget festlegen, um präzise zu steuern, wie viele Token das Modell vor der Ausgabe für internes Reasoning aufwendet .
  • Pareto-Frontier: Am optimalen Kosten-Leistungs-Punkt positioniert, bietet Flash das beste Preis-zu-Intelligenz-Verhältnis unter den 2.5-Modellen .
  • Multimodale Unterstützung: Verarbeitet Text, Bilder, Video und Audio nativ und ermöglicht so reichere dialogische und analytische Fähigkeiten .
  • 1-Million-Token-Kontext: Die unerreichte Kontextlänge ermöglicht tiefe Analysen und das Verständnis langer Dokumente in einer einzigen Anfrage .

Modellversionierung

Gemini 2.5 Flash ist durch die folgenden wichtigen Versionen gegangen:

  • gemini-2.5-flash-lite-preview-09-2025: Verbesserte Tool-Benutzbarkeit: Verbesserte Leistung bei komplexen, mehrstufigen Aufgaben, mit einem Anstieg der SWE-Bench Verified Scores um 5% (von 48.9% auf 54%). Verbesserte Effizienz: Bei aktiviertem Reasoning wird mit weniger Token eine höhere Ausgabequalität erzielt, wodurch Latenz und Kosten sinken.
  • Preview 04-17: Early-Access-Release mit „thinking“-Funktion, verfügbar über gemini-2.5-flash-preview-04-17.
  • Stabile General Availability (GA): Ab dem 17. Juni 2025 ersetzt der stabile Endpoint gemini-2.5-flash das Preview und gewährleistet Produktionsreife ohne API-Änderungen gegenüber dem Preview vom 20. Mai .
  • Abkündigung des Preview: Die Preview-Endpoints waren für die Abschaltung am 15. Juli 2025 geplant; Nutzer müssen vor diesem Datum zum GA-Endpoint migrieren .

Ab Juli 2025 ist Gemini 2.5 Flash nun öffentlich verfügbar und stabil (keine Änderungen gegenüber dem gemini-2.5-flash-preview-05-20 ).Wenn Sie gemini-2.5-flash-preview-04-17 verwenden, gelten die bestehenden Preview-Preise bis zur geplanten Außerdienststellung des Modell-Endpoints am 15. Juli 2025, wenn er abgeschaltet wird. Sie können zum allgemein verfügbaren Modell "gemini-2.5-flash" migrieren .

Schneller, günstiger, intelligenter:

  • Designziele: geringe Latenz + hoher Durchsatz + niedrige Kosten;
  • Generelle Beschleunigung beim Reasoning, bei multimodaler Verarbeitung und bei Langtext-Aufgaben;
  • Der Tokenverbrauch wird um 20–30% reduziert, was die Reasoning-Kosten deutlich senkt.

Technische Spezifikationen

Eingabe-Kontextfenster: Bis zu 1 Million Token, was eine umfangreiche Kontextbeibehaltung ermöglicht.

Ausgabe-Token: Kann bis zu 8,192 Token pro Antwort generieren.

Unterstützte Modalitäten: Text, Bilder, Audio und Video.

Integrationsplattformen: Verfügbar über Google AI Studio und Vertex AI.

Preisgestaltung: Wettbewerbsfähiges tokenbasiertes Preismodell, das eine kosteneffiziente Bereitstellung erleichtert.


Technische Details

Unter der Haube ist Gemini 2.5 Flash ein Transformer-basiertes Large Language Model, das auf einer Mischung aus Web-, Code-, Bild- und Videodaten trainiert wurde. Wichtige technische Spezifikationen umfassen:

Multimodales Training: Darauf trainiert, mehrere Modalitäten abzugleichen, kann Flash Text nahtlos mit Bildern, Video oder Audio kombinieren – nützlich für Aufgaben wie Videozusammenfassungen oder Audiobeschreibungen .

Dynamischer Thinking-Prozess: Implementiert eine interne Reasoning-Schleife, in der das Modell komplexe Prompts plant und in Teilaufgaben zerlegt, bevor die finale Ausgabe erfolgt .

Konfigurierbare Thinking-Budgets: Der thinking_budget kann von 0 (kein Reasoning) bis zu 24,576 tokens eingestellt werden und erlaubt Abwägungen zwischen Latenz und Antwortqualität .

Tool-Integration: Unterstützt Grounding with Google Search, Code Execution, URL Context und Function Calling und ermöglicht reale Aktionen direkt aus natürlichsprachigen Prompts .


Benchmark-Leistung

In rigorosen Evaluierungen zeigt Gemini 2.5 Flash eine branchenführende Leistung:

  • LMArena Hard Prompts: Belegte den zweiten Platz (nur hinter 2.5 Pro) im anspruchsvollen Hard-Prompts-Benchmark und zeigt starke mehrstufige Reasoning-Fähigkeiten .
  • MMLU-Score von 0.809: Übertrifft die durchschnittliche Modellleistung mit einer MMLU-Genauigkeit von 0.809 und spiegelt breites Domänenwissen sowie Reasoning-Stärke wider .
  • Latenz und Durchsatz: Erreicht 271.4 tokens/sec Dekodiergeschwindigkeit bei 0.29 s Time-to-First-Token und ist damit ideal für latenzkritische Workloads.
  • Preis-Leistungs-Spitzenreiter: Bei \$0.26/1 M tokens unterbietet Flash viele Wettbewerber, während es sie in wichtigen Benchmarks erreicht oder übertrifft .

Diese Ergebnisse zeigen den Wettbewerbsvorsprung von Gemini 2.5 Flash beim Reasoning, wissenschaftlichen Verständnis, der mathematischen Problemlösung, beim Coding, der visuellen Interpretation und bei mehrsprachigen Fähigkeiten:


Einschränkungen

Obwohl leistungsfähig, weist Gemini 2.5 Flash bestimmte Einschränkungen auf:

  • Sicherheitsrisiken: Das Modell kann einen „preachy“-Ton annehmen und plausibel klingende, aber falsche oder verzerrte Ausgaben (Halluzinationen) erzeugen, insbesondere bei Randfallanfragen. Strenge menschliche Aufsicht bleibt essenziell.
  • Rate Limits: Die API-Nutzung wird durch Rate Limits beschränkt (10 RPM, 250,000 TPM, 250 RPD in den Standardstufen), was sich auf Batch-Verarbeitung oder Anwendungen mit hohem Volumen auswirken kann.
  • Intelligenz-Untergrenze: Obwohl es für ein flash-Modell außergewöhnlich leistungsfähig ist, bleibt es bei den anspruchsvollsten agentischen Aufgaben wie fortgeschrittenem Coding oder Multi-Agent-Koordination weniger akkurat als 2.5 Pro.
  • Kosten-Trade-offs: Obwohl das beste Preis-Leistungs-Verhältnis geboten wird, erhöht die umfangreiche Nutzung des thinking-Modus den gesamten Tokenverbrauch und steigert die Kosten für tiefes Reasoning bei Prompts .

Funktionen für Gemini 2.5 Flash

Entdecken Sie die wichtigsten Funktionen von Gemini 2.5 Flash, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für Gemini 2.5 Flash

Entdecken Sie wettbewerbsfähige Preise für Gemini 2.5 Flash, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Gemini 2.5 Flash Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Beispielcode und API für Gemini 2.5 Flash

Die Gemini 2.5 Flash API ist Googles neuestes multimodales KI-Modell, konzipiert für schnelle, kosteneffiziente Aufgaben mit steuerbaren Reasoning-Fähigkeiten, sodass Entwickler erweiterte "thinking"-Funktionen über die Gemini API ein- oder ausschalten können.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Versionen von Gemini 2.5 Flash

Der Grund, warum Gemini 2.5 Flash mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.
version
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking

Weitere Modelle

C

Claude Opus 4.7

Eingabe:$3/M
Ausgabe:$15/M
Das intelligenteste Modell für Agenten und Programmierung
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT 5.5 Pro

Eingabe:$24/M
Ausgabe:$144/M
Ein fortschrittliches Modell, das für äußerst komplexe Logik und professionelle Anforderungen entwickelt wurde und den höchsten Standard tiefgreifenden Schlussfolgerns und präziser analytischer Fähigkeiten repräsentiert.
O

GPT 5.5

Eingabe:$4/M
Ausgabe:$24/M
Ein multimodales Flaggschiffmodell der nächsten Generation, das außergewöhnliche Leistungsfähigkeit mit effizienter Antwortgenerierung vereint und der Bereitstellung umfassender und stabiler KI-Dienste für allgemeine Zwecke gewidmet ist.
O

GPT Image 2 ALL

Pro Anfrage:$0.04
GPT Image 2 ist das modernste Bildgenerierungsmodell von openai für schnelle, hochwertige Bildgenerierung und -bearbeitung. Es unterstützt flexible Bildgrößen und Bildeingaben mit hoher Detailtreue.
O

GPT 5.5 ALL

Eingabe:$4/M
Ausgabe:$24/M
GPT-5.5 überzeugt beim Schreiben von Code, bei der Online-Recherche, bei der Datenanalyse und bei toolübergreifenden Operationen. Das Modell steigert nicht nur seine Autonomie bei der Bewältigung komplexer, mehrstufiger Aufgaben, sondern verbessert bei gleichbleibender Latenz im Vergleich zu seinem Vorgänger auch die Fähigkeiten zum logischen Schlussfolgern und die Ausführungseffizienz erheblich, was einen wichtigen Schritt in Richtung automatisierter Büroautomatisierung in der KI markiert.

Verwandte Blogs

Nano Banana 2 Flash Demnächst – die Hochgeschwindigkeits-Evolution der KI-Bildgenerierung
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash Demnächst – die Hochgeschwindigkeits-Evolution der KI-Bildgenerierung

Google hat die Landschaft der generativen KI erneut aufgemischt, mit dem Nano Banana 2 Flash demnächst, der neuesten Ergänzung seiner vielgelobten "Nano Banana"-Produktfamilie zur Bildgenerierung. Nach dem großen Erfolg von Nano Banana Pro (Gemini 3 Pro Image) Ende letzten Jahres verspricht diese neue Iteration, visuelle Synthese in Profiqualität zu demokratisieren, indem sie die Spitzenintelligenz der Gemini 3-Architektur mit beispielloser Geschwindigkeit und Effizienz verbindet.
Nano Banana-Rabatte: Wirklich Geld sparen im Jahr 2026 für Entwickler
Dec 25, 2025
nano-banana-pro

Nano Banana-Rabatte: Wirklich Geld sparen im Jahr 2026 für Entwickler

Abschließend: Die offizielle Nano Banana API bietet keine Rabatte zu Weihnachten, Neujahr oder anderen Feiertagen. Dies ist eine Tatsache, die alle Entwickler, die 2026 Nano Banana (einschließlich Nano Banana Pro) für Bildgenerierung, Inhaltserstellung oder Produktintegration nutzen möchten, verstehen müssen. Google bietet für die Nano Banana API keine saisonalen Rabatte an, sei es zu Weihnachten, am Black Friday oder zu Neujahr. Das Preissystem der offiziellen API ist durchgängig stabil und transparent, mit praktisch keinem Spielraum für Rabatte. Die Frage lautet also: Wenn Sie Entwickler sind und planen, während Weihnachten oder Neujahr großangelegte Bildgenerierung, Modelltests oder Produktiterationen durchzuführen, gibt es irgendeine Möglichkeit, die Nutzungskosten von Nano Banana zu senken?
Ist die kostenlose Gemini 2.5 Pro API defekt? Änderungen am Freikontingent im Jahr 2025
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

Ist die kostenlose Gemini 2.5 Pro API defekt? Änderungen am Freikontingent im Jahr 2025

Google hat die kostenlose Stufe für die Gemini API deutlich verschärft: Gemini 2.5 Pro wurde aus der kostenlosen Stufe entfernt, und die täglichen kostenlosen Anfragen für Gemini 2.5 Flash wurden drastisch gekürzt (Berichte: ~250 → ~20/Tag). Das bedeutet nicht, dass das Modell für Experimente dauerhaft „tot“ ist — aber es bedeutet, dass der kostenlose Zugang für viele reale Anwendungsfälle faktisch ausgehöhlt wurde.
Ultimativer Leitfaden zur Nano-Banane: Wie man sie am besten verwendet und wie man sie am besten einsetzt
Sep 8, 2025
gemini-2-5-flash-image

Ultimativer Leitfaden zur Nano-Banane: Wie man sie am besten verwendet und wie man sie am besten einsetzt

Googles jüngste Veröffentlichung von Gemini 2.5 Flash Image – Spitzname „Nano-Banana“ – hat sich schnell zum Standard für die dialogorientierte Bildbearbeitung entwickelt: Es behält Ähnlichkeiten
Wie verwende ich Nano Banana über die API? (Gemini-2-5-Flash-Image)
Aug 28, 2025
gemini-2-5-flash-image

Wie verwende ich Nano Banana über die API? (Gemini-2-5-Flash-Image)

Nano Banana ist der Community-Spitzname (und die interne Abkürzung) für Googles Gemini 2.5 Flash Image – eine hochwertige, latenzarme multimodale Bildgenerierung +