Googles jüngste Veröffentlichung von Gemini 2.5 Flash Image – Spitzname „Nano-Banane“ hat sich schnell zum Standard für die dialogorientierte Bildbearbeitung entwickelt: Es sorgt für konsistente Ähnlichkeiten über alle Bearbeitungen hinweg, fügt mehrere Bilder sauber zusammen und unterstützt sehr natürliche, auf Eingabeaufforderungen basierende lokale Bearbeitungen. Im Folgenden erkläre ich, was Nano Banana ist, wie man es sowohl über Googles Zwillinge und über Zugriff durch Dritte (z. B. CometAPI), geben Sie konkrete Beispiele für Eingabeaufforderungen und Code, den Sie in ein Projekt einfügen können, und geben Sie Entwicklertipps für die Bearbeitung mehrerer Durchgänge, Hochskalierung und erweiterte Eingabeaufforderungen. Ich schreibe dies als Entwickler, der täglich Bildmodelle verwendet – betrachten Sie dies als ein praktisches, leicht eigenwilliges Playbook.
Was ist Nano-Banane?
Was bedeutet „Gemini 2.5 Flash Image / Nano-Banana“ eigentlich?
Nano-Banane ist der Community-Spitzname / Codename für Gemini 2.5 Flash-Image, Google DeepMinds neuestes Modell zur Bildgenerierung und -bearbeitung. Es ist konzipiert für Eingabeaufforderung zuerst Bearbeitung (Sie geben ihm Anweisungen in natürlicher Sprache) mit besonderem Fokus auf Zeichenkonsistenz (dieselbe Person/dasselbe Haustier/dasselbe Objekt wird bei allen Bearbeitungen gleich angezeigt), Mehrbildfusion (Mischen von Objekten über Quellfotos hinweg) und interaktive Verwendung mit geringer Latenz in Apps wie Gemini und Google AI Studio. Das Modell ist über Googles Gemini API und AI Studio verfügbar und wird bereits in CometAPI angezeigt.
Betrachten Sie Nano-Banana als Entwickler nicht in erster Linie als einen reinen „von Grund auf“-Bildgenerator, sondern als ein hochleistungsfähiges Fotobearbeitungs- und Kompositionsassistent: Es versteht den Inhalt Ihres Bildes, merkt sich das Motiv über Bearbeitungen hinweg und reagiert auf Anweisungen in natürlicher Sprache so, dass es in eine schnelle iterative Designschleife passt. Das macht es besonders nützlich für Produktmodelle, konsistente Charakteraufnahmen, schnelle Konzeptiterationen und soziales kreatives Spielen.
Zusammenfassung für Entwickler
- Modellname: Gemini-2.5-Flash-Image-Vorschau / Gemini-2.5-Flash-Image.
- Konsistenz und Kontinuität: Nano-Banana behält Charakterdetails über Bearbeitungen hinweg zuverlässiger bei als viele Konkurrenten und ist daher für sequenzielle Bearbeitungen und das Geschichtenerzählen vorzuziehen.
- Geschwindigkeit: Benutzer berichten von einer schnellen Generierung – oft weniger als 10 Sekunden für viele Bearbeitungen – hilfreich für iterative Arbeitsabläufe.
- Bearbeitung – Design zuerst: Während viele Modelle für die reine textgesteuerte Generierung optimiert sind, liegt der Schwerpunkt bei der UX und den APIs von Nano-Banana auf der Bearbeitung (One-Shot-Bearbeitungen, Multi-Image-Fusion, Stilübertragung).
Wie kann ich mit Nano-Banana auf CometAPI bearbeiten?
CometAPI ist ein API-Marktplatz/Wrapper, der viele Modelle aggregiert (einschließlich Gemini 2.5 Flash Image API (Nano Banana)) hinter einem einzigen, OpenAI-kompatiblen Endpunkt. Wenn Sie schnell einen Prototyp erstellen oder die Bereitstellung von Google Cloud/Vertex-Konten für einen ersten Test vermeiden möchten, ist CometAPI eine praktische Brücke – Sie erhalten einen API-Schlüssel, wählen gemini-2.5-flash-image (oder gemini-2.5-flash-image-preview ), dann senden Sie Anfragen ähnlich wie bei einer Bildbearbeitung im Chat-Stil. CometAPI bietet auch Beispiele und Guide um das Modell auszuprobieren.
Warum CometAPI verwenden?
- Ein API-Schlüssel für alle – vereinfacht das Testen mehrerer Anbieter.
- Wechseln Sie den Anbieter in der Produktion, wenn sich Preise oder SLAs ändern.
- Nützlich für Teams, die eine Kontrolle auf Serviceebene wünschen (Ratenbegrenzung, zentrale Protokollierung).
So rufen Sie Nano-Banana (CometAPI) auf – praktisches Beispiel
Unten ist ein einfaches Beispiel. Ersetzen YOUR_COMET_KEY und Dateipfade durch Ihre eigenen.
CURL – Grundbearbeitung (Bild + Eingabeaufforderung → bearbeitetes Bild)
Ejemplo:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**Beschreibung:**Konvertieren Sie zunächst Ihre Quellbilddatei in eine Base64-Zeichenfolge und platzieren Sie sie in inline_data.data. Zweitens: Verwenden Sie keine Präfixe wie data:image/jpeg;base64, Der Ausgang befindet sich ebenfalls in candidates.content.parts und beinhaltet:
- Ein optionaler Textteil (Beschreibung oder Eingabeaufforderung).
- Der Bildteil als
inline_data(woherdataist das Base64 des Ausgabebildes).
Wenn Sie die Bildbearbeitung auf der Nano-Banana einfach ausprobieren möchten, bietet CometAPI neuen Nutzern kostenlose Credits an. Sie können die Nano-Banana im Playground ausprobieren oder die Gemini 2.5 Flash Image API nutzen. Für unbegrenzte Nutzung erhalten Sie 20 % Rabatt auf den Gemini-Preis.
Nano-Banana bietet mehrere wesentliche Vorteile: konsistente Ähnlichkeit, gezielte lokale Bearbeitungen über natürliche Sprache und Multi-Image-Fusion.
Als Nächstes werde ich die Vorteile von Nano-Banana anhand mehrerer Anwendungsfälle zeigen und Sie werden seine Magie erleben.
Beispiel 1: Kombinieren Sie mehrere Bilder zu einer einzigen Collage
Laden Sie ein Bild hoch:

Beispiel einer Eingabebeschreibung: Ein Model posiert an einem pinkfarbenen BMW. Sie trägt folgende Kleidung. Die Szene spielt vor einem hellgrauen Hintergrund. Der grüne Alien ist ein Schlüsselanhänger und an der pinkfarbenen Handtasche befestigt. Auf der Schulter des Models sitzt außerdem ein pinkfarbener Papagei. Neben ihr sitzt ein Mops mit pinkfarbenem Halsband und goldenen Kopfhörern.
Zurückgegebenes Base64, zurück in ein Bild konvertiert:

Code:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Hinweise: Konvertieren Sie Ihre Quellbilddatei in eine Base64-Zeichenfolge und fügen Sie sie ein in inline_data.data (keine Präfixe wie data:image/jpeg;base64,).
Anwendungsfallanalyse: Durch die Verwendung von Multi-Image-Fusion können Designer kreativer sein. Beispielsweise können Innenarchitekten Bilder kombinieren, um eine grobe Darstellung des Effekts zu erstellen. Verbraucher können ihre Ganzkörperbilder mit den Dingen kombinieren, die sie kaufen möchten, um ihre Kaufentscheidung zu erleichtern. Dies kann auch als Referenz für die Produktion von Animationen und Comics verwendet werden.
Beispiel 2: Bilder bearbeiten, um Ähnlichkeiten zu bewahren
Nachfolgend werde ich mehrere Bearbeitungsrunden zum Testen von Nano Banana bereitstellen.
Laden Sie zunächst ein Bild hoch:

Zweitens Prompt: Fügen Sie dem Rasen einen Welpen hinzu
Ausgang:

Schließlich Prompt: Verwenden Sie das beigefügte Referenzbild der Figur. Behalten Sie den Hund bei. Platzieren Sie die Figur in einer regnerischen, neonbeleuchteten Straßenszene bei Nacht. Achten Sie darauf, dass die Gesichtszüge mit der Referenz identisch sind.

Anwendungsfallanalyse: Es ist ersichtlich, dass in mehreren Runden der Bildmodifikation eine ziemlich hohe Konsistenz erhalten bleibt.
Beispiel 3: Stilübertragung und Änderung von Gesichtsdetails
Laden Sie ein Bild hoch:

Prompt: Gesicht leicht schärfen, 6 % Filmkörnung hinzufügen, auf 16:9 zuschneiden. Gesichtszüge nicht verändern, sanftes Randlicht auf der rechten Seite hinzufügen.
Ausgabe:

Weitere Anwendungsfälle von Nano-Banana
1) Firmenporträts und professionelle Portraits
Verwendung: Erstellen Sie schnell einheitliche Markenporträts (Marketing, LinkedIn, Unternehmensbiografien). Nano-Banana behält die Gesichtstreue bei, auch wenn Outfit, Hintergrund oder Beleuchtung geändert werden.
Prompt – Outfit + Beleuchtung (Bearbeiten)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
Eingabeaufforderung – Hintergrund austauschen + retuschieren
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2) E-Commerce & Produktvisualisierung
Einsatz: Platzieren Sie Produkte in Lifestyle-Szenen, erstellen Sie einheitliche Produktaufnahmen aus unterschiedlichen Blickwinkeln oder zeigen Sie Farbvarianten.
Eingabeaufforderung – Produkt in Szene (Mehrbildfusion)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
Prompt – Farbvarianten (Bearbeiten)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3) Social Content & Influencer Marketing
Verwendung: Schnelle Stilbearbeitungen, Outfitwechsel, saisonale Überlagerungen oder Zuschnitte in mehreren Formaten für soziale Plattformen.
Prompt – saisonale Bearbeitung für Feed und Story
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
Prompt – stilisierte Promo-Variante
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4) Konsistenz der Charaktere/Markenwerte (Maskottchen, wiederkehrende Charaktere)
Verwendung: Halten Sie Logos, Maskottchen oder Charaktere über Szenen, Kampagnen oder Episoden hinweg optisch identisch.
Eingabeaufforderung – Durchsetzung des Charakterbogens
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5) Reparatur und Kolorierung historischer Fotos
Verwendung: Wiederherstellen oder Kolorieren von Archivbildern unter Beibehaltung der Komposition und feiner Gesichtsdetails.
Eingabeaufforderung – Kolorieren + Reparieren
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
Welche erweiterten Eingabeaufforderungstechniken erhöhen die Zuverlässigkeit?
Nutzen Sie Referenzanker kombiniert mit einem nachhaltigen Materialprofil. Mikrobeschränkungen
Referenzanker sind kurze, überprüfbare Informationen, die Sie hinzufügen, um Mehrdeutigkeiten zu vermeiden: genaue Kleidungsnamen („Marineblauer Blazer, einreihig, Revers“), Beleuchtungsreferenzen („Rembrandt-Beleuchtung“) oder Kamerabegriffe („50-mm-Porträtobjektiv, f/2.8“). Mikrobeschränkungen teilen dem Modell mit, was es nicht ändern darf (z. B. „Verändere die Tattoos auf dem rechten Unterarm nicht“). Diese schränken die Freiheit des Modells auf produktive Weise ein und verbessern in der Regel die Ergebnistreue.
Iterationsschleife: Fragen, Bewerten, Verfeinern
- Erster Durchgang: Verwenden Sie eine präzise, aber prägnante Eingabeaufforderung.
- Ergebnisse auswerten: Beachten Sie, was das Modell falsch gemacht hat (z. B. veränderte Gesichtsform, verlorenes Accessoire).
- Gezielte Korrektur: Senden Sie eine kurze Folgeaufforderung mit Bezug auf das vorherige Ergebnis („Behalten Sie alles von der letzten Ausgabe bei, aber behalten Sie den ursprünglichen Ohrring am linken Ohr und machen Sie die Augenbrauen dicker.“). Dank der Konversationsbearbeitungsstärke von Nano-Banana können Sie sich schnell erholen.
Bearbeitungskette für komplexe Transformationen
Bei größeren Änderungen sollten Sie die Arbeit in mehrere kleinere Schritte unterteilen, anstatt sie in eine einzige Anweisung zu gliedern. Beispielkette: (1) Hintergrundwechsel → (2) Outfit-Update → (3) Farbkorrektur → (4) finale Retusche. So bleibt jede Anweisung fokussiert und unerwartete Wechselwirkungen werden vermieden.
Wie sollte ich Eingabeaufforderungen für Nano-Banana strukturieren? (Anatomie der Eingabeaufforderung)
Gute Bildaufforderungen haben eine konsistente Struktur. Verwenden Sie Folgendes schnelle Anatomie um präzise, wiederholbare Ergebnisse zu erhalten:
Prompte Anatomie (empfohlene Reihenfolge)
- Aktion / Ziel – was soll das Modell do? (z. B. „Bearbeiten Sie dieses Selfie, um ein professionelles Porträtfoto zu erstellen“ oder „Erstellen Sie ein Produkt-Lifestyle-Foto, indem Sie diese beiden Bilder kombinieren“).
- Themen) – Wer oder was ist auf dem Bild zu sehen? Geben Sie genaue Angaben zu Identität, Alter, Anzahl der Personen, Gegenständen usw. an.
- Attribute — visuelle Merkmale: Kleidung, Gesichtsausdruck, Augenfarbe, Haare, Requisiten.
- Umgebung & Beleuchtung — Ort, Tageszeit, Lichtstimmung, Brennweite, Objektivhinweise („35-mm-Porträt“).
- Stil und Ausführung — fotografischer Stil (Kino, Studio, Filmkörnung, hyperreal) oder Kunststil (Ölgemälde, Vektor, Comic).
- Einschränkungen / Sicherheit – alles, was vermieden werden sollte (keine Logos, keine Nacktheit, kein medizinischer Text).
- Konsistenztoken (optional) – kurze Phrase, die Sie wiederverwenden, um die Zeichenerkennung über mehrere Eingabeaufforderungen hinweg aufrechtzuerhalten (z. B. „Verwenden Sie die Zeichenreferenz ‚Luna-Schal‘“).
Hinweise zur Zeichenkonsistenz (praktische Schritte)
- Verwenden Sie eine „Referenzphrase“: Fügen Sie in jede Eingabeaufforderung eine kurze, eindeutige Phrase ein, die mit dem Betreff verknüpft ist (z. B. „Charakter-Token: ‚Maya-blaue-Jacke‘“). Das Modell verknüpft Bearbeitungen zuverlässiger mit demselben Charakter, wenn Sie diese Phrase wiederverwenden.
- Verankerte Details einschließen: Geben Sie charakteristische, unveränderliche Merkmale an (z. B. „Narbe an der linken Augenbraue, grünes Muttermal auf der rechten Wange“), damit das Modell feste Ankerpunkte hat, die es beibehalten kann.
- Behalten Sie nach Möglichkeit Pose und Rahmen bei: Wenn Sie echte Kontinuität wünschen, halten Sie die Beschreibung des Kamerawinkels/der Kamerapose bei allen Eingabeaufforderungen ähnlich.
- Beginnen Sie mit demselben Originalbild: Geben Sie für Bearbeitungsabläufe immer dasselbe Quellbild als Anker an. Wenn Sie Fotos ändern müssen, fügen Sie das Originalbild als zusätzliche Eingabe hinzu und erklären Sie die Transformation.
Was sind häufige Fehlerarten und wie behebe ich sie?
Fehler: Identitätsdrift (das Subjekt sieht anders aus)
Ursache: Das Modell hat einen angeforderten Stil zu stark verallgemeinert oder eine Einschränkung falsch interpretiert.
Fixes: Fügen Sie eine explizite „Preserve“-Klausel hinzu, hängen Sie das Originalbild als Referenz an oder führen Sie Änderungen in kleineren Schritten durch und validieren Sie Zwischenausgaben.
Fehler: inkonsistente Requisiten oder Hände
Ursache: Hände und kleine Accessoires sind für viele Imagemodels historisch gesehen eine heikle Angelegenheit.
Fixes: Fügen Sie Mikrobeschränkungen ein („Uhr am rechten Handgelenk behalten“), stellen Sie eine detaillierte Nahaufnahmereferenz für kleine Elemente bereit oder führen Sie einen letzten gezielten Korrekturschritt durch, der sich nur auf das problematische Element konzentriert.
Fehler: Beleuchtung oder Schatten wirken unnatürlich
Ursache: Große Bearbeitungen (Hintergrundaustausch oder größere Neubeleuchtung) können zu Fehlanpassungen führen.
Fixes: Bitten Sie das Modell, „gerichtetes Licht von oben links, weiche Schatten“ anzupassen oder das gewünschte Beleuchtungsreferenzbild bereitzustellen.
Fazit
Nano-Banana (Gemini 2.5 Flash Image) ist ein bemerkenswerter Fortschritt in der Bildbearbeitung und -generierung für Endverbraucher: schnell, konsistent und integriert in das Gemini-Ökosystem und die Sicherheitstools von Google. Die besten Ergebnisse erzielen Sie mit klare, aufgabenorientierte Eingabeaufforderungen, explizite Anweisungen zur Aufbewahrung, wenn Identitätskonsistenz erforderlich ist, und stufenweise Workflows, die schnelle Vorschauen von endgültigen Renderings trennen. Während sich Modell und Ökosystem weiterentwickeln, sollten die Entwickler weiterhin Tests durchführen, Ergebnisse protokollieren und benutzerorientierte Steuerelemente erstellen, die die Bearbeitung transparent und umkehrbar machen.


