Nano Banana ist der Community-Spitzname (und die interne Abkürzung) für Googles Gemini 2.5 Flash-Image – ein hochwertiges, multimodales Modell zur Bildgenerierung und -bearbeitung mit geringer Latenz. Dieser ausführliche Leitfaden (mit Code, Mustern, Bereitstellungsschritten und CometAPI-Beispielen) zeigt drei praktische Aufrufmethoden, die Sie in der Produktion verwenden können: (1) eine OpenAI-kompatible Chat-Schnittstelle (Text→Bild), (2) Googles offizielle generateContent Text→Bild-Schnittstelle und (3) Googles offizielle generateContent Bild-Bild-Schnittstelle mit Base64-Eingabe/Ausgabe. Unterwegs erhalten Sie schrittweise Anleitungen zur Verteilung/Bereitstellung, zur Einrichtung der Umgebung, zum Abrufen von API-Operationen von CometAPI, Hinweise zu Preisen und Wasserzeichen sowie die besten Tipps für zuverlässige, kosteneffiziente Ergebnisse.
Was ist Nano Banana (Gemini 2.5 Flash Image)?
Nano Banana ist der informelle Name für Gemini 2.5 Flash Image, Googles neuestes Bildmodell der Gemini-Familie. Es ist sowohl für die fotorealistische Bilderzeugung als auch für die präzise Bildbearbeitung (lokale Bearbeitungen, Multi-Image-Fusion, konsistente Zeichenerhaltung über Bearbeitungen hinweg) konzipiert und über Googles Gemini API, Google AI Studio und Vertex AI verfügbar. Das Modell wird mit einem unsichtbaren SynthID-Wasserzeichen zur Herkunftsbestätigung ausgeliefert.
Warum das für Entwickler wichtig ist: Nano Banana bietet Ihnen ein einziges, hochwertiges multimodales Modell, das Folgendes verarbeiten kann:
- Text → Bild (Erstellen Sie neue Bilder aus Textaufforderungen)
- Bild → Bild (ein bereitgestelltes Foto bearbeiten/umwandeln)
- Mehrbild-Mischung (mehrere Bilder zu einem einzigen Bild kombinieren)
All dies ist entweder über Googles offiziellegenerateContentEndpunkte (Vertex AI / Gemini API) oder über OpenAI-kompatible Endpunkte, die von API-Gateways von Drittanbietern wie CometAPI und OpenRouter angeboten werden. Das bedeutet, dass Sie Gemini 2.5 Flash Image in vorhandene OpenAI-kompatible Codebasen integrieren oder die offiziellen SDKs von Google direkt aufrufen können.
Was es auszeichnet
- Gezielte, lokale Bearbeitungen (Ändern der Hemdfarbe, Entfernen von Objekten, Optimieren von Posen).
- Beibehaltung der Konsistenz zwischen Thema und Figur bei Neubearbeitungen.
- Mischen/Zusammenführen mehrerer Bilder zu einem zusammenhängenden Gesamtbild.
- Geringe Latenz und kosteneffiziente Inferenz im Vergleich zu schwereren Forschungsmodellen (Google positioniert „Flash“-Modelle als Optionen mit hohem Durchsatz).
Wie sollte ich meine Entwicklungsumgebung einrichten, um Nano Banana über die API aufzurufen?
Nachfolgend finden Sie eine Schritt-für-Schritt-Checkliste, die Sie als Grundlage für alle drei später beschriebenen Anrufmethoden verwenden können.
Voraussetzungen (Konten, Schlüssel, Kontingent)
- Google-Konto + Cloud-Projekt — Wenn Sie Gemini direkt über Google (Gemini API / Vertex AI) aufrufen möchten, erstellen Sie ein Google Cloud-Projekt und aktivieren Sie die Vertex AI / Gemini APIs. Sie benötigen die Abrechnung und die entsprechenden Rollen (z. B.
Vertex AI AdminorService Accountmit Rückschlussrechten). - Gemini-API-Zugriff – Bei einigen Gemini-Bildmodellen handelt es sich um Vorschaumodelle/eingeschränkte Verfügbarkeit. Je nach Ihrem Konto müssen Sie möglicherweise Zugriff anfordern oder das Modell über Google AI Studio oder Vertex AI verwenden.
- CometAPI (optionales Gateway) – Wenn Sie eine herstellerunabhängige API bevorzugen, die verschiedene Modelle (einschließlich Gemini) proxyen kann, registrieren Sie sich bei CometAPI, um einen API-Schlüssel zu erhalten und die Modellliste zu prüfen (sie bietet Gemini 2.5 Flash-Varianten und einen OpenAI-kompatiblen Endpunkt). CometAPI vereinfacht die Entwicklung und ermöglicht Ihnen den Anbieterwechsel, ohne Ihren App-Code ändern zu müssen.
Lokale Werkzeuge
- Sprachlaufzeiten: Node.js 18+, Python 3.10+ empfohlen.
- HTTP-Client:
fetch/axiosfür JS;requests/httpxfür Python (oder offizielle SDKs). - Bildhelfer:
Pillow(Python) odersharp(Knoten) zur Größenänderung, Formatkonvertierung und Base64-Kodierung/Dekodierung. - Sicherheit: Speichern Sie Schlüssel in Umgebungsvariablen oder einem Secrets Vault (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Übergeben Sie niemals API-Schlüssel.
Installieren Sie das Google/kompatible SDK (optional)
Google bietet SDKs und openai Kompatibilitäts-Shims für Bibliotheken – Sie können die OpenAI-Clientbibliotheken mit Gemini verwenden, indem Sie einige Zeilen (Basis-URL + API-Schlüssel) ändern. Für alle multimodalen Funktionen wird jedoch der native Gemini/Google-Client empfohlen. Bei Verwendung von CometAPI oder einem OpenAI-kompatiblen Gateway kann die Verwendung des OpenAI-Clients die Entwicklung beschleunigen. Beispiele:
Offizielle Google-Route (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
CometAPI / OpenAI-kompatibler Client (Python):
pip install openai requests
Wie wähle ich zwischen den drei Anrufmethoden für Nano Banana?
Die Wahl der Aufrufmethode hängt von Ihrer Architektur, Ihren Latenz-/Kostenanforderungen und davon ab, ob Sie den offiziellen Endpunkt von Google oder ein OpenAI-kompatibles Gateway eines Drittanbieters verwenden möchten. Die drei gängigen Muster sind:
1) OpenAI-kompatible Chat-Schnittstelle (Text-zu-Bild)
Verwenden Sie diese Option, wenn Sie bereits Code oder SDKs im OpenAI-Stil haben und die Modelle mit minimalen Änderungen wechseln möchten. Viele Gateways (CometAPI, OpenRouter) stellen Gemini-Modelle unter einer OpenAI-kompatiblen REST-Oberfläche bereit, sodass Ihre vorhandenen chat or completions Anrufe funktionieren nur mit einem anderen base_url und Modellname. Dies ist oft der schnellste Weg zur Produktion, wenn Sie die Google Cloud-Authentifizierung nicht verwalten möchten.
2) Zwillingsbeamter generateContent — Text-zu-Bild
Verwenden Sie Googles offizielle generateContent über das genai (Google) Client oder Vertex AI, wenn Sie das offizielle, vollständig unterstützte SDK und Zugriff auf die neuesten Funktionen (feinkörnige Generierungsparameter, Streaming, Datei-API für große Assets) sowie Google Cloud-Abrechnung/-Überwachung wünschen. Dies wird empfohlen, wenn Sie Produktionsunterstützung und unternehmensweite Kontrollen benötigen.
3) Zwillingsbeamter generateContent — Bild-zu-Bild (Base64-Eingabe/Ausgabe)
Verwenden Sie dies, wenn Sie binäre Bilder inline (Base64) übermitteln müssen oder Bildbearbeitungs-/Bild-zu-Bild-Pipelines wünschen. Googles generateContent Unterstützt Inline-Bilder (Base64) und eine Datei-API für größere oder wiederverwendbare Assets. Antworten für generierte/bearbeitete Bilder werden typischerweise als Base64-Strings zurückgegeben, die Sie dekodieren und speichern. Dies ermöglicht die umfassendste multimodale Steuerung.
Wie kann ich Nano Banana über eine OpenAI-kompatible Chat-Schnittstelle (Text-zu-Bild) anrufen?
Ein OpenAI-kompatibler Chat-Endpunkt akzeptiert eine Sequenz von {role, content} Nachrichten; Sie beschreiben das gewünschte Bild in einer Benutzernachricht und das Gateway (CometAPI oder ein OpenAI-kompatibles Shim) übersetzt dies in einen Aufruf des zugrunde liegenden Gemini-Modells. Dies ist praktisch, wenn Ihre App bereits Chat-Flows verwendet oder Sie Text- und Bildgenerierung in einem einzigen Austausch kombinieren möchten.
Shritte
1.Melden Sie sich bei CometAPI an und erhalten Sie einen API-Schlüssel: Registrieren Sie sich bei CometAPI, erstellen Sie ein Projekt und kopieren Sie Ihren API-Schlüssel. CometAPI stellt viele Modelle hinter einem einzigen base_url. ()
-
Installieren Sie einen OpenAI-kompatiblen Client: Python:
pip install openaioder verwenden Sie die neuereopenai/OpenAISDK-Wrapper, der von vielen Gateways verwendet wird. -
Richten Sie das SDK auf CometAPI und rufen Sie den Endpunkt für Chat-Abschlüsse auf:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Anmerkungen:
-
Stream muss wahr sein; die Antwort wird als Stream zurückgegeben;
-
Die Antwortstruktur wird zur Kompatibilität mit OpenAI von CometAPI umschlossen.
-
Die Antwort enthält ein Base64-Bild. Dekodieren und speichern Sie es nach Bedarf auf dem Client.
Wie kann ich Nano Banana mit dem offiziellen Gemini-Telefon anrufen? generateContent Text-zu-Bild-Schnittstelle?
Google bietet eine Gemini-Entwickler-API (die Gemini-API) und stellt auch Gemini-Modelle bereit über Scheitelpunkt AI. Für den programmatischen Zugriff auf Gemini 2.5 Flash Image (Nano Banana) in einer unterstützten Weise, die offizielle generateContent Methode ist der kanonische Einstiegspunkt für die Nur-Text- oder multimodale Generierung. Verwenden Sie Googles GenAI SDK (Python: google-genai) oder rufen Sie den REST-Endpunkt direkt auf. Dies ermöglicht direkten Zugriff auf die Parameter und Modalitäten des Modells und ist die empfohlene Methode, um erweiterte Funktionen (präzise Bearbeitung, Multi-Image-Fusion) beim Aufrufen der Endpunkte von Google zu verwenden.
1.Verwenden Sie Googles GenAI SDK (Python: google-genai)
Verteilungs-/Aufrufschritte (Übersicht):
- Holen Sie sich einen API-Schlüssel von Google AI Studio oder richten Sie ein Vertex AI-Dienstkonto ein (je nach Plattform).
- SDK installieren (
pip install --upgrade google-genai) und authentifizieren (API-Schlüssel oder Standardanmeldeinformationen der Google-Anwendung). - Wählen das Modell:
gemini-2.5-flash-imageoder der in den Dokumenten angezeigte Vorschau-Slug (der genaue Slug hängt vom GA-/Vorschaustatus ab). - Telefon
client.models.generate_content(...)mit einer einfachen Textaufforderung (Text-zu-Bild). - Dekodieren zurückgegebene Bilder (falls Base64 zurückgegeben) und speichern/aufbewahren.
Python (offizieller Client) Beispiel – Text→Bild:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Hinweis: Überprüfen Sie die genauen Parameternamen in der offiziellen Client-API. Die obigen Beispiele folgen den Mustern in den Google-Dokumenten.)
2. Anruf Nano Banan über den REST-Endpunkt
EST-Endpunkt (Beispiel für Text-zu-Bild): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Authentifizierungsoptionen: Header bereitstellen x-goog-api-key: $CometAPI_API_KEY. (Erstellen Sie einen Schlüssel in CometAPI.)
Dadurch wird eine Textaufforderung angezeigt und das zurückgegebene Base64-Bild gespeichert:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Hinweise: Die Bild-Binärdatei wird als Base64 zurückgegeben in
candidates.content.parts.inline_data.dataDas obige Beispiel verwendetjqum die Inline-Daten auszuwählen und zu dekodieren. Die offiziellen Dokumente zeigen den gleichen Ablauf.
Wie kann ich Nano Banana mit dem offiziellen Gemini-Telefon anrufen? generateContent Bild-zu-Bild-Schnittstelle (Base64 ein/aus)?
Wann sollten Sie Image-to-Image (Base64 In/Out) verwenden?
Verwenden Sie Bild-zu-Bild, wenn Sie Folgendes benötigen:
- Bearbeiten Sie ein vorhandenes Foto (Inpainting, Stilübertragung, Objektaustausch).
- Kombinieren Sie mehrere Quellbilder zu einer einzigen Komposition.
- Bewahren Sie die Identität eines Motivs über alle Bearbeitungen hinweg (eine der Stärken von Nano Banana).
Zwillinge generateContent unterstützt Inline-Bilddaten über Base64 (oder als Datei-URIs) und gibt generierte oder bearbeitete Bilder als Base64-Strings zurück. Die Dokumentation enthält explizite Beispiele für die Bereitstellung inline_data mit mime_type kombiniert mit einem nachhaltigen Materialprofil. data.
Verteilungs-/Aufrufschritte (Bild-zu-Bild)
- Danach Eingabebild(er): Dateibytes lesen, Base64-kodieren oder Rohbytes über SDK-Helfer übergeben.
- Konstruieren a
contentsArray, wobei ein Teil das Inline-Bild ist (mitmimeTypekombiniert mit einem nachhaltigen Materialprofil.data) und die nachfolgenden Teile enthalten die Anweisungen zur Textbearbeitung. - jetzt lesen zu
generateContent(offizielles SDK oder REST). - Eingang Antwort: Die API gibt generierte/bearbeitete Bilder zurück, die als Base64-Strings codiert sind. Decodieren und speichern Sie sie lokal.
Beispiel – Python (Bild-zu-Bild mit Inline-Bytes über das GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Python-Beispiel: Bild→Bild mit Base64 über Ruhepunkt
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Wenn Sie über den CometAPI-Restport darauf zugreifen möchten:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
Für Inline: Lesen Sie das Bild und kodieren Sie es in Base64. Für wiederholte Verwendung oder bei >20 MB laden Sie es über die Datei-API hoch und verweisen Sie auf den Datei-Handle in
generateContent.Am besten für präzise Bearbeitungen und Arbeitsabläufe geeignet, die Eingabebilder sowie textuelle Bearbeitungsanweisungen erfordern.
Was sind die besten Tipps für die Arbeit mit Nano Banana?
Schnelles Engineering & Steuerung
- Seien Sie explizit: Geben Sie das gewünschte Seitenverhältnis, Stilreferenzen (Künstlernamen nur, wenn erlaubt), Kameraobjektiv, Beleuchtung und Komposition an. Z. B. „Fotorealistisch, 3:2, geringe Tiefenschärfe, goldene Stunde, Nikon 50-mm-Objektiv.“
- Verwenden Sie die sukzessive Bearbeitung: bevorzugen Sie kleinere, lokale Bearbeitungen in mehreren Durchgängen gegenüber großen Einzelschritten – so bleibt die Themenkonsistenz erhalten. Die Stärke von Nano Banana liegt in der iterativen Bearbeitung.
Bildhygiene
- Eingaben vorverarbeiten: Farbraum normalisieren, eingebettete EXIF-Daten entfernen, wenn Datenschutz erforderlich ist, auf sinnvolle Auflösungen skalieren, um Token zu sparen.
- Nachbearbeitungsausgaben: Gesichtserkennung ausführen, kleinere Artefakte mithilfe leichter Filter (Pillow/Sharp) bereinigen, bevor sie an die Benutzer zurückgegeben werden.
Sicherheits-, Compliance- und Inhaltsrichtlinien
- Implementieren Sie eine automatisierte Inhaltssicherheitsprüfung (Vision-Moderationsmodelle oder Blacklist-Prüfungen), bevor Sie Bilder speichern/bereitstellen.
- Wenn Sie Bilder von Personen hochladen, befolgen Sie die geltenden Datenschutzgesetze (DSGVO/CCPA) und holen Sie die erforderlichen Einwilligungen ein.
- Beachten Sie die Richtlinien zur Modellnutzung und die Urheberrechtsregeln, wenn Sie nach urheberrechtlich geschützten Charakteren oder vorhandenen Kunstwerken fragen.
Schlussnotizen
Nano Banana (Gemini 2.5 Flash Image) stellt einen pragmatischen, hochpräzisen Schritt für die multimodale Bilderzeugung und -bearbeitung dar: Es ist auf Konsistenz über Bearbeitungen hinweg und ein umfassenderes multimodales Denken ausgelegt. Nano Banana (Gemini 2.5 Flash Image) ist ein wichtiger Schritt bei der Bilderzeugung/-bearbeitung – es bietet hohe Konsistenz für mehrstufige Bearbeitungen und mehrere Integrationsoberflächen (OpenAI-kompatible Gateways wie CometAPI und Googles generateContent APIs). Um die Einführung zu beschleunigen, können Sie mit Gateways wie CometAPI Code im OpenAI-Stil wiederverwenden. Überprüfen Sie stets die Antworten auf ihre Plausibilität, beachten Sie Inhaltsrichtlinien und Herkunftsmerkmale (SynthID) und überwachen Sie die Kosten während der Iteration.
Erste Schritte
CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.
Entwickler können zugreifen Gemini 2.5 Flash-Image(Nano Banana CometAPI-Liste gemini-2.5-flash-image-preview/gemini-2.5-flash-image Stileinträge in ihrem Katalog.) über CometAPI, die neuesten Modellversionen sind zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells in der Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.



