Wie verwendet man die Nano Banana Pro(Gemini 3 Pro Image) API?

CometAPI
AnnaNov 20, 2025
Wie verwendet man die Nano Banana Pro(Gemini 3 Pro Image) API?

Nano Banana Pro — offiziell Gemini 3 Pro Image — ist das neue Bildgenerierungs- und -bearbeitungsmodell von Google/DeepMind in Studioqualität, das fortgeschrittenes multimodales Reasoning, hochpräzise Textdarstellung, Mehrbild-Komposition und kreative Steuerungen auf Studio-Niveau kombiniert.

Was ist Nano Banana Pro und warum sollte es Sie interessieren?

Nano Banana Pro ist Googles neuestes Modell zur Bildgenerierung und -bearbeitung — das Release „Gemini 3 Pro Image“ — entwickelt, um kontextbewusste Bilder und Text im Bild in hoher Qualität bis zu 4K zu erzeugen. Es ist der Nachfolger der früheren Nano Banana-Modelle (Gemini 2.5 Flash Image / „Nano Banana“) mit verbessertem Reasoning, Search Grounding (realweltliche Fakten), stärkerer Textdarstellung und leistungsfähigeren lokalen Editierkontrollen. Das Modell ist in der Gemini-App für interaktive Nutzer verfügbar und über die Standard-Gemini-API zugänglich; für die programmgesteuerte Nutzung wählen Sie die spezifische Modellkennung (gemini-3-pro-image-preview oder ihren stabilen Nachfolger). für die programmgesteigerte Nutzung.

Warum das wichtig ist: Nano Banana Pro wurde nicht nur entwickelt, um schöne Bilder zu erzeugen, sondern um Informationen zu visualisieren — Infografiken, datengesteuerte Snapshots (Wetter, Sport), textlastige Poster, Produkt-Mockups und Mehrbild-Fusionen (bis zu 14 Eingabebilder und Wahrung der Charakterkonsistenz über bis zu 5 Personen). Für Designer, Produktteams und Entwickler eröffnet diese Kombination aus Genauigkeit, Text im Bild und programmgesteuertem Zugriff Produktions-Workflows, die bisher schwer zu automatisieren waren.

Welche Funktionen sind über die API verfügbar?

Typische, für Entwickler bereitgestellte API-Fähigkeiten umfassen:

  • Text → Bild-Generierung (Einzel- oder mehrstufige „Thinking“-Kompositionsabläufe).
  • Bildbearbeitung (lokale Masken, Inpainting, Stil-Anpassungen).
  • Mehrbild-Fusion (Referenzbilder kombinieren).
  • Erweiterte Request-Kontrollen: Auflösung, Seitenverhältnis, Post-Processing-Schritte und „composition thought“-Spuren für Debug/Inspektionszwecke in Preview-Modi.

Zentrale Innovationen und Funktionen von Nano Banana Pro

Schlaueres inhaltliches Reasoning

Nutzen Sie den Reasoning-Stack von Gemini 3 Pro, um komplexe, mehrstufige visuelle Anweisungen zu interpretieren (z. B. „Erstelle eine Infografik mit 5 Schritten aus diesem Datensatz und füge eine zweisprachige Bildunterschrift hinzu“). Die API stellt einen „Thinking“-Mechanismus bereit, der vorläufige Kompositionstests erzeugen kann, um das Endergebnis zu verfeinern.

Warum das wichtig ist: Anstatt eines einzigen Durchlaufs, der Prompt → Pixel abbildet, führt das Modell einen internen „Thinking“-Prozess aus, der die Komposition verfeinert und externe Tools aufrufen kann (z. B. Google Search) zur faktischen Untermauerung (z. B. korrekte Diagrammbeschriftungen oder lokalisierte Beschilderung). Dadurch entstehen Bilder, die nicht nur schöner, sondern für Aufgaben wie Infografiken, Diagramme oder Produkt-Mockups auch semantisch korrekter sind.

So gelingt es: Nano Banana Pros „Thinking“ ist ein kontrollierter interner Reasoning-/Kompositionsdurchlauf, bei dem das Modell Zwischenvisualisierungen und Reasoning-Traces erzeugt, bevor das endgültige Bild entsteht. Die API legt offen, dass das Modell bis zu zwei Zwischenbilder erstellen kann und dass das Endbild die letzte Stufe dieser Kette ist. In der Produktion hilft dies bei Komposition, Platzierung von Text und Layout-Entscheidungen.

Genauere Textdarstellung

Deutlich verbesserte, lesbare und lokalisierte Texte innerhalb von Bildern (Menüs, Poster, Diagramme). Nano Banana Pro erreicht neue Höhen in der Textdarstellung im Bild:

  • Text in Bildern ist klar, leserlich und korrekt geschrieben;
  • Unterstützt mehrsprachige Generierung (einschließlich Chinesisch, Japanisch, Koreanisch, Arabisch usw.);
  • Ermöglicht, lange Absätze oder mehrzeilige Beschreibungen direkt in Bilder zu schreiben;
  • Automatische Übersetzung und Lokalisierung sind verfügbar.

Warum das wichtig ist: Traditionell haben Bildmodelle Schwierigkeiten, lesbaren, gut ausgerichteten Text zu rendern. Nano Banana Pro ist explizit für verlässliche Textdarstellung und Lokalisierung optimiert (z. B. Übersetzen und Erhalt des Layouts), was echte kreative Use Cases wie Poster, Verpackungen oder mehrsprachige Anzeigen ermöglicht.

So gelingt es: Verbesserungen bei der Textdarstellung stammen aus der zugrunde liegenden multimodalen Architektur und dem Training auf Datensätzen mit Schwerpunkt „Text-im-Bild“-Beispiele, kombiniert mit gezielten Evaluationssätzen (manuelle Bewertungen und Regressionssets). Das Modell lernt, Glyphenformen, Schriftarten und Layout-Zwänge auszurichten, um lesbaren, lokalisierten Text im Bild zu erzeugen — kleine Schrift und extrem dichte Absätze können dennoch fehleranfällig bleiben.

Höhere visuelle Konsistenz und Treue

Studio-Kontrollen (Beleuchtung, Fokus, Kamerawinkel, Color Grading) und Mehrbild-Komposition (bis zu 14 Referenzbilder, mit Sonderregelungen für mehrere menschliche Subjekte) helfen, Charakterkonsistenz (die gleiche Person/den gleichen Charakter über Edits hinweg erhalten) und Markenidentität über generierte Assets zu wahren. Das Modell unterstützt native 1K/2K/4K-Ausgaben.

Warum das wichtig ist: Marketing- und Entertainment-Workflows benötigen konsistente Charaktere über Shots und Edits hinweg. Das Modell kann die Ähnlichkeit für bis zu fünf Personen aufrechterhalten und bis zu 14 Referenzbilder in einer einzigen Komposition mischen, während es von Skizze → 3D-Render produziert. Dies ist nützlich für Werbekreativ, Verpackungen oder mehrteilige Storytelling-Szenen.

So gelingt es: Modelleingaben akzeptieren mehrere Bilder mit expliziten Rollen (z. B. „Bild A: Pose“, „Bild B: Gesichtsreferenz“, „Bild C: Hintergrundtextur“). Die Architektur konditioniert die Generierung auf diese Bilder, um Identität/Pose/Stil zu erhalten, während Transformationen (Beleuchtung, Kamera) angewendet werden.

Leistungsbenchmarks von Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) „überzeugt bei Text→Bild-AI-Benchmarks“ und demonstriert verbessertes Reasoning und kontextuelles Grounding im Vergleich zu früheren Nano Banana-Modellen. Es betont höhere Treue und verbesserte Textdarstellung gegenüber früheren Releases.

Wie verwendet man die Nano Banana Pro(Gemini 3 Pro Image) API?

Praktische Leistungsrichtlinien

Erwarten Sie höhere Latenz und Kosten für hochfidele 2K/4K-Renderings als für 1K oder die auf Geschwindigkeit optimierten „Flash“-Modelle. Wenn Durchsatz/Latenz kritisch sind, verwenden Sie die Flash-Variante (z. B. Gemini 2.5 Flash / Nano Banana) für hohes Volumen; nutzen Sie Nano Banana Pro / gemini-3-pro-image für Qualität und komplexe Reasoning-Aufgaben.

Wie können Entwickler auf Nano Banana Pro zugreifen?

Welche Endpunkte und Modelle man wählen sollte

Modellkennung (Preview / Pro): gemini-3-pro-image-preview (Preview) — verwenden Sie diese, wenn Sie die Nano Banana Pro-Funktionen wünschen. Für schnellere, günstigere Aufgaben bleibt gemini-2.5-flash-image (Nano Banana) verfügbar.

Zu nutzende Oberflächen

  • Gemini API (generativelanguage-Endpunkt): Sie können einen CometAPI-Schlüssel verwenden, um xx zu nutzen. CometAPI bietet dieselbe API zu einem günstigeren Preis als die offizielle Website. Direkte HTTP-/SDK-Aufrufe an generateContent für die Bildgenerierung (Beispiele unten).
  • Google AI Studio: Weboberfläche für schnelle Experimente und das Remixen von Demo-Apps.
  • Vertex AI (Enterprise): Bereitgestellter Durchsatz, Abrechnungsoptionen (Pay-as-you-go / Enterprise-Tiers) und Safety-Filter für großskalige Produktion. Verwenden Sie Vertex bei der Integration in große Pipelines oder Batch-Rendering-Jobs.

Die kostenlose Stufe hat ein begrenztes Nutzungskontingent; bei Überschreitung wird auf Nano Banana zurückgeschaltet. Die Plus-/Pro-/Ultra-Tarife bieten höhere Limits und ausgabeseitig keine Wasserzeichen, aber Ultra kann in Flow-Video-Tools und der Antigravity IDE im 4K-Modus verwendet werden.

Wie generiere ich ein Bild mit Nano Banana Pro (Schritt für Schritt)?

1) Schnelles interaktives Rezept zur Nutzung der Gemini-App

  1. Öffnen Sie Gemini → Tools → Create images.
  2. Wählen Sie Thinking (Nano Banana Pro) als Modell.
  3. Geben Sie einen Prompt ein: Erklären Sie Motiv, Aktion, Stimmung, Beleuchtung, Kamera, Seitenverhältnis und jeglichen Text, der im Bild erscheinen soll. Beispiel:
    „Erstelle ein 4K-Poster für einen Robotik-Workshop: ein vielfältiges Team um einen Tisch, Blueprint-Overlay, fette Überschrift ‚Roboter in Aktion‘ in serifenloser Schrift, warmes Wolframlicht, geringe Schärfentiefe, cineastisch, 16:9.“
  4. (Optional) Laden Sie bis zu 14 Bilder hoch, um sie zu fusionieren oder als Referenzen zu verwenden. Nutzen Sie das Auswahl-/Maskenwerkzeug für lokale Edits.
  5. Generieren Sie, iterieren Sie mit natürlicher Sprache (z. B. „Mache die Überschrift blau und richte sie oben zentriert aus; erhöhe den Kontrast beim Blueprint“), und exportieren Sie anschließend.

2) HTTP verwenden, um an den Gemini-Bildendpunkt zu senden

Sie müssen sich bei CometAPI anmelden, um den Schlüssel zu erhalten.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Dieses Beispiel schreibt die Base64-Bildnutzlast in eine PNG-Datei. Der Parameter generationConfig.imageConfig.resolution fordert eine 4K-Ausgabe an (verfügbar für das 3 Pro Image-Modell).

3) Direkte SDK-Aufrufe an generateContent für die Bildgenerierung

Erfordert die Installation des Google SDK und Google-Authentifizierung. Python-Beispiel (Text + Referenzbilder + Grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Dieses Beispiel zeigt das Hochladen eines Inline-Referenzbildes und die Anforderung einer 4K-Komposition bei gleichzeitiger Aktivierung von google_search als Tool. Das Python-SDK übernimmt die Low-Level-REST-Details.

Mehrbild-Fusion & Charakterkonsistenz

Um eine Komposition zu erzeugen, die die gleiche Person über Szenen hinweg beibehält, übergeben Sie mehrere inline_data-Teile (aus Ihrem Fotoset ausgewählt) und geben Sie in der kreativen Anweisung an, dass das Modell „die Identität über Ausgaben hinweg bewahren“ soll.

Kurzes Praxisbeispiel — ein echter Prompt und erwarteter Ablauf

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Erwartete Pipeline: App → Prompt-Vorlage + CSV-Daten → Platzhalter im Prompt ersetzen → API-Aufruf mit image_size=2048x1152 → Base64-PNG empfangen → Asset + Herkunftsmetadaten speichern → optional genaue Schrift via Compositor überlagern, falls nötig.

Wie sollte ich eine Produktions-Pipeline entwerfen und Sicherheit/Herkunft handhaben?

Empfohlene Produktionsarchitektur

  1. Prompt + Entwurfspass (schnelles Modell): Nutzen Sie gemini-2.5-flash-image (Nano Banana), um viele Varianten in kleiner Auflösung kostengünstig zu erzeugen.
  2. Auswahl & Verfeinerung: beste Kandidaten wählen, Prompts verfeinern, Inpainting-/Masken-Edits für Präzision anwenden.
  3. Hochfidele End-Render: gemini-3-pro-image-preview (Nano Banana Pro) für finale 2K/4K-Render und Postprocessing (Upsampling, Color Grade) aufrufen.
  4. Herkunft & Metadaten: Prompt, Modellversion, Zeitstempel und SynthID-Infos in Ihrem Asset-Metadaten-Store speichern — das Modell versieht Ausgaben mit einem SynthID-Wasserzeichen, und Outputs können für Compliance und Content-Audit zurückverfolgt werden.

Sicherheit, Rechte und Moderation

  • Urheberrecht & Rechteklärung: Laden oder generieren Sie keine Inhalte, die Rechte verletzen. Holen Sie explizite Nutzerbestätigungen ein für nutzergelieferte Bilder oder Prompts, die erkennbaren Personenähnlichkeiten erzeugen könnten. Googles „Prohibited Use Policy“ und die Modell-Sicherheitsfilter sind einzuhalten.
  • Filterung & automatisierte Checks: Führen Sie generierte Bilder vor der weiteren Nutzung oder öffentlichen Anzeige durch eine interne Content-Moderations-Pipeline (NSFW, Hass-Symbole, politische/bindende Inhalte-Erkennung).

Wie mache ich Bildbearbeitung (Inpainting), Mehrbild-Komposition und Textdarstellung?

Nano Banana Pro unterstützt multimodale Editier-Workflows: Geben Sie ein oder mehrere Eingabebilder und eine Textanweisung zu den Edits (Objekt entfernen, Himmel verändern, Text hinzufügen). Die API akzeptiert Bild + Text in derselben Anfrage; das Modell kann als Antwort verschachtelten Text und Bilder erzeugen. Beispielmuster umfassen maskierte Edits und Mehrbild-Mischungen (Stiltransfer/Komposition). Siehe die Doku zu contents-Arrays, die Textblöcke und Binärbilder kombinieren.

Beispiel: Edit (Python Pseudo-Flow)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Diese dialogische Bearbeitung ermöglicht es, Ergebnisse iterativ anzupassen, bis ein produktionsreifes Asset erreicht ist.

Node.js-Beispiel — Bildbearbeitung mit Maske und mehreren Referenzen

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(APIs akzeptieren manchmal Cloud-Storage-URIs oder Base64-Bildnutzlasten; prüfen Sie die Gemini-API-Dokumentation für genaue Eingabeformate.)

Informationen zur Generierung und Bearbeitung von Bildern mit CometAPI finden Sie im Leitfaden zum Aufruf von gemini-3-pro-image .

Fazit

Nano Banana Pro (Gemini 3 Pro Image) ist ein produktionsreifer Sprung in der Bildgenerierung: ein Werkzeug zum Visualisieren von Daten, zum Erstellen lokalisierter Edits und zum Antreiben von Entwickler-Workflows. Nutzen Sie die Gemini-App für schnelles Prototyping, die API für Produktionsintegration, und befolgen Sie die obigen Empfehlungen, um Kosten zu steuern, Sicherheit zu gewährleisten und Markenqualität zu wahren. Testen Sie stets reale Nutzer-Workflows und speichern Sie Herkunftsmetadaten, um Transparenz- und Audit-Anforderungen zu erfüllen.

Verwenden Sie Nano Banana Pro, wenn Sie Assets in Studioqualität benötigen, präzise Kontrolle über die Komposition, verbesserte Textdarstellung im Bild und die Fähigkeit, mehrere Referenzen zu einer kohärenten Ausgabe zu verschmelzen.

Entwickler können über CometAPI auf die Gemini 3 Pro Image (Nano Banana Pro) API zugreifen. Beginnen Sie, indem Sie die Modellfähigkeiten von CometAPI im Playground erkunden und die API-Anleitung für detaillierte Anweisungen konsultieren. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bietet einen Preis, der weit unter dem offiziellen Preis liegt, um Ihnen die Integration zu erleichtern.

Bereit? → Melden Sie sich noch heute bei CometAPI an!

Wenn Sie weitere Tipps, Guides und News zu KI möchten, folgen Sie uns auf VK, X und Discord!

Zugang zu Top-Modellen zu niedrigen Kosten

Mehr lesen