Gemini 2.5 Flash Image (auch bekannt als „Nano Banana“) ist Googles neuestes natives Modell zur Bildgenerierung und -bearbeitung in der Gemini 2.5-Familie. Der Schwerpunkt liegt auf der Fusion mehrerer Bilder, präziser Bearbeitung in natürlicher Sprache und schnellen multimodalen Arbeitsabläufen.
Einführung in das Modell
Was es ist – Gemini 2.5 Flash-Image ist ein multimodales Bildgenerierungs- und Bearbeitungsmodell, das auf der Gemini 2.5-Familie basiert. Es ist für die Produktion von fotorealistische Bilder, ausführen gezielte Bearbeitungen (Inpainting, Stilübertragung, Objekttausch) und mehrere Quellbilder mischen in eine einzige zusammenhängende Ausgabe – und wendet dabei die verbesserte Sprachlogik von Gemini an, um Komposition und Semantik zu steuern.
Hauptmerkmale:
- Native Bildgenerierung und -bearbeitung – Erstellen Sie Bilder oder bearbeiten Sie vorhandene Fotos mithilfe von Eingabeaufforderungen in natürlicher Sprache. (Generieren / Bearbeiten).
- Mehrbildfusion – Kombinieren Sie mehrere Eingabebilder zu einer fotorealistischen Szene.
- Zeichenkonsistenz – Behalten Sie bei allen Bearbeitungen und Eingabeaufforderungen das gleiche Erscheinungsbild des Motivs oder der Figur bei. (Konsistenz).
- SynthID-Wasserzeichen — alle Ausgänge enthalten eine unsichtbare SynthID um KI-generierte Inhalte zu identifizieren. (Wasserzeichen).
Technische Details
- Architektur & Positionierung: basiert auf der Gemini 2.5 Flash-Familie – konzipiert als geringe Wartezeit „Flash“-Variante, die ein wenig Modellgröße/Durchsatz gegen eine viel schnellere Reaktion pro Anruf und Kosteneffizienz eintauscht und dabei eine stärkere Argumentation als frühere Flash-Stufen beibehält.
- Eingabeformate und -grenzen: akzeptiert Inline-Base64-Bilder für kleine Eingänge und Datei-Uploads über die File-API für größere Bilder (empfohlen für >20 MB). Unterstützt gängige MIME-Typen (JPEG, PNG).
- Betriebsarten: Text-zu-Bild, Bildbearbeitung (Inpainting / semantische Maskierung), Stilübertragung, Komposition mehrerer Bilder und verschachtelt Text+Bild-Antworten (nützlich für illustrierte Anleitungen, Rezepte oder gemischte Inhalte).
- Herkunft & Sicherheitsmechanismen: sichtbare Wasserzeichen auf KI-Ausgaben sowie versteckte SynthID-Markierungen und Ebenen zur Durchsetzung von Richtlinien, um explizit verbotene Inhalte einzuschränken.
Benchmark-Leistung

Einschränkungen und bekannte Risiken
- Einschränkungen der Inhaltsrichtlinie: Modelle setzen Inhaltsrichtlinien durch (z. B. das Verbot expliziter sexueller Inhalte und einiger illegaler Inhalte), aber die Durchsetzung ist nicht perfekt – die Generierung von Bildern von Persönlichkeiten des öffentlichen Lebens oder umstrittenen Symbolen kann in einigen Szenarien immer noch möglich sein, also Richtlinienprüfungen sind unerlässlich. )
- Fehlermodi: möglich Identitätsdrift bei extremen Bearbeitungen, gelegentlichen semantischen Fehlausrichtungen (wenn Eingabeaufforderungen nicht ausreichend spezifiziert sind) und Artefakten in sehr komplexen Szenen oder extremen Änderungen des Blickwinkels.
- Herkunft & Missbrauch: Wasserzeichen und SynthID sind zwar vorhanden, verhindern jedoch keinen Missbrauch. Sie unterstützen die Erkennung und Zuordnung, sind jedoch kein Ersatz für die menschliche Überprüfung in sensiblen Arbeitsabläufen.
Typische Anwendungsfälle
- Produkt & E-Commerce: Produkte in Lifestyle-Aufnahmen platzieren/katalogisieren durch Multi-Image-Fusion.
- Kreative Werkzeuge/Design: schnelle Iterationen in Design-Apps (Adobe Firefly-Integration zitiert).
- Bildbearbeitung & Retusche: lokalisierte Bearbeitungen aus natürlicher Sprache (Objekte entfernen, Farbe/Beleuchtung ändern, neu gestalten).
- Storytelling / Charaktereigenschaften: Zeichen konsistent halten über Panels und Szenen hinweg.
Wie man anruft Gemini 2.5 Flash-Image API von CometAPI
Gemini 2.5 Flash Image API-Preise in CometAPI, 20 % Rabatt auf den offiziellen Preis:
| Preis | $0.3120 |
Erforderliche Schritte
- Einloggen in cometapi.comWenn Sie noch nicht unser Benutzer sind, registrieren Sie sich bitte zuerst
- Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
- Holen Sie sich die URL dieser Site: https://api.cometapi.com/
Methode verwenden
- Wählen Sie das "
Gemini-2.5 Flash-Image”-Endpunkt, um die API-Anfrage zu senden und den Anfragetext festzulegen. Die Anfragemethode und der Anfragetext stammen aus der API-Dokumentation unserer Website. Unsere Website bietet außerdem einen Apifox-Test für Ihre Bequemlichkeit. - Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
- Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
- . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.
CometAPI bietet eine vollständig kompatible REST-API für eine nahtlose Migration. Wichtige Details zu API-Dokument:
- Endpunkt:
https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent - Modellparameter: Gemini-2.5-Flash-Bild-Vorschau / Gemini-2.5-Flash-Bild
- Authentifizierung:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Hinweis: Setzen Sie beim Aufrufen der API den Parameter „stream“: true.
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Siehe auch GPT-image-1 API



