Nano Banana Pro — offiziell Gemini 3 Pro Bild — ist das neue Bildgenerierungs- und Bearbeitungsmodell von Google/DeepMind in Studioqualität, das fortschrittliches multimodales Denken, hochauflösende Textwiedergabe, Mehrbildkomposition und kreative Steuerungsmöglichkeiten auf Studioebene kombiniert.
Was ist Nano Banana Pro und warum sollte es Sie interessieren?
Nano Banana Pro ist Googles neuestes Modell zur Bildgenerierung und -bearbeitung – die „Gemini 3 Pro Image“-Version – entwickelt, um detailgetreue, kontextbezogene Bilder und Text direkt im Bild in Studioqualität bis zu 4K zu erzeugen. Es ist der Nachfolger der früheren Nano Banana-Modelle (Gemini 2.5 Flash Image / „Nano Banana“) und bietet verbesserte Logik, Suchgrundlagen (reale Fakten), eine optimierte Textdarstellung und leistungsfähigere lokale Bearbeitungsfunktionen. Das Modell ist in der Gemini-App für interaktive Nutzer verfügbar und kann über die Standard-Gemini-API aufgerufen werden, wobei die spezifische Modellkennung ausgewählt wird (gemini-3-pro-image-preview oder dessen stabilem Nachfolger). für den programmatischen Zugriff.
Warum das wichtig ist: Nano Banana Pro wurde nicht nur für die Erstellung schöner Bilder entwickelt, sondern auch für Informationen visualisieren — Infografiken, datenbasierte Momentaufnahmen (Wetter, Sport), textlastige Poster, Produkt-Mockups und Bildfusionen (bis zu 14 Eingangsbilder und einheitliche Darstellung von bis zu 5 Personen). Für Designer, Produktteams und Entwickler eröffnet diese Kombination aus Genauigkeit, Text im Bild und programmatischem Zugriff Produktionsabläufe, die zuvor schwer zu automatisieren waren.
Welche Funktionen werden über die API bereitgestellt?
Typische API-Funktionen, die Entwicklern zur Verfügung stehen, umfassen:
- Text → Bildgenerierung (einstufige oder mehrstufige „Denkprozesse“).
- Bildbearbeitung (lokale Masken, Retusche, Stilanpassungen).
- Mehrbildfusion (Referenzbilder kombinieren).
- Erweiterte Anforderungssteuerung: Auflösung, Seitenverhältnis, Nachbearbeitungsschritte und „Kompositionsgedanken“-Spuren zur Fehlersuche/Überprüfung in Vorschaumodi.
Kerninnovationen und Funktionen von Nano Banana Pro
Intelligentere Inhaltslogik
Es nutzt den Reasoning-Stack von Gemini 3 Pro, um komplexe, mehrstufige visuelle Anweisungen zu interpretieren (z. B. „Erstellen Sie aus diesem Datensatz eine 5-stufige Infografik und fügen Sie eine zweisprachige Bildunterschrift hinzu“). Die API stellt einen „Denkmechanismus“ bereit, der Zwischenergebnisse für die Komposition generieren kann, um das Endergebnis zu optimieren.
Warum es darauf ankommt: Anstatt eines einfachen Durchlaufs, der Eingabeaufforderung und Pixel direkt zuordnet, führt das Modell einen internen „Denkprozess“ durch, der die Komposition verfeinert und externe Tools (z. B. die Google-Suche) zur faktischen Untermauerung heranziehen kann (z. B. für korrekte Diagrammbeschriftungen oder ortsgerechte Beschilderung). Dadurch entstehen Bilder, die nicht nur ästhetischer, sondern auch semantisch korrekter für Aufgaben wie Infografiken, Diagramme oder Produktmodelle sind.
So erreichen Sie: Die „Denkfunktion“ von Nano Banana Pro ist ein kontrollierter interner Berechnungs- und Kompositionsprozess, bei dem das Modell Zwischenbilder und Berechnungsspuren generiert, bevor das endgültige Bild erzeugt wird. Die API zeigt an, dass das Modell bis zu zwei Zwischenbilder erstellen kann und das endgültige Bild die letzte Stufe dieser Kette darstellt. In der Produktion unterstützt dies die Komposition, die Textplatzierung und Layoutentscheidungen.
Genauere Textdarstellung
Deutlich verbesserte Lesbarkeit und lokalisierte Textdarstellung in Bildern (Menüs, Poster, Diagramme). Nano Banana Pro setzt neue Maßstäbe in der Bildtextwiedergabe:
- Der Text in den Bildern ist klar, lesbar und korrekt geschrieben;
- Unterstützt die mehrsprachige Generierung (einschließlich Chinesisch, Japanisch, Koreanisch, Arabisch usw.);
- Ermöglicht es Benutzern, lange Absätze oder mehrzeilige beschreibende Texte direkt in Bilder einzufügen;
- Automatische Übersetzung und Lokalisierung sind verfügbar.
Warum es darauf ankommt: Herkömmliche Bildmodelle haben Schwierigkeiten, lesbaren und korrekt ausgerichteten Text darzustellen. Nano Banana Pro ist speziell für zuverlässiges Textrendering und Lokalisierung (z. B. Übersetzung unter Beibehaltung des Layouts) optimiert und ermöglicht so vielfältige kreative Anwendungsmöglichkeiten wie Poster, Verpackungen oder mehrsprachige Werbung.
So erreichen Sie: Die Verbesserungen bei der Textdarstellung basieren auf der zugrundeliegenden multimodalen Architektur und dem Training mit Datensätzen, die Beispiele für Text in Bildern hervorheben, kombiniert mit gezielten Evaluierungsdatensätzen (menschliche Bewertungen und Regressionsdatensätze). Das Modell lernt, Glyphenformen, Schriftarten und Layoutvorgaben so auszurichten, dass lesbarer, lokalisierter Text in Bildern erzeugt wird – obwohl kleine Texte und sehr dichte Absätze weiterhin fehleranfällig sein können.
Stärkere visuelle Konsistenz und Wiedergabetreue
Studio-Steuerung (Beleuchtung, Fokus, Kamerawinkel, Farbkorrektur) und die Komposition mehrerer Bilder (bis zu 14 Referenzbilder, mit speziellen Funktionen für mehrere Personen) tragen zur Wahrung der Charakterkonsistenz (dieselbe Person/derselbe Charakter wird in allen Bearbeitungen beibehalten) und der Markenidentität in den generierten Assets bei. Das Modell unterstützt native 1K/2K/4K-Ausgabe.
Warum es darauf ankommt: Für Marketing- und Entertainment-Workflows ist ein einheitliches Erscheinungsbild der Charaktere über verschiedene Einstellungen und Bearbeitungen hinweg erforderlich. Das Modell kann die Ähnlichkeit bis zu … beibehalten. fünf Menschen und vermischen sich bis zu 14 Referenzbilder werden in einer einzigen Komposition zusammengeführt, während Sketch → 3D Render erstellt wird. Dies ist nützlich für Werbegrafiken, Verpackungsdesign oder Storytelling mit mehreren Einstellungen.
So erreichen Sie: Das Modell akzeptiert mehrere Bilder mit expliziten Rollenzuweisungen (z. B. „Bild A: Pose“, „Bild B: Gesichtsreferenz“, „Bild C: Hintergrundtextur“). Die Architektur generiert Bilder basierend auf diesen Bildern, um Identität, Pose und Stil beizubehalten, während Transformationen (Beleuchtung, Kamera) angewendet werden.
Leistungsvergleich von Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) erzielt hervorragende Ergebnisse in KI-Benchmarks für die Text-zu-Bild-Erkennung und bietet im Vergleich zu früheren Nano Banana-Modellen ein verbessertes Denkvermögen und eine tiefere Kontextualisierung. Es zeichnet sich durch eine höhere Wiedergabetreue und ein verbessertes Text-Rendering im Vergleich zu früheren Versionen aus.

Praktische Leistungsanleitung
Erwarten höhere Latenz Die Kosten für hochauflösende 2K/4K-Renderings sind höher als für 1K- oder die auf Geschwindigkeit optimierten „Flash“-Modelle. Wenn Durchsatz und Latenz entscheidend sind, verwenden Sie für hohe Datenmengen die Flash-Variante (z. B. Gemini 2.5 Flash / Nano Banana); für hohe Qualität und komplexe Analyseaufgaben die Nano Banana Pro / Gemini-3-Pro-Image.
Wie können Entwickler auf Nano Banana Pro zugreifen?
Welche Endpunkte und Modelle auswählen
Modellkennung (Vorschau / Pro): gemini-3-pro-image-preview (Vorschau) – Verwenden Sie diese Option, wenn Sie die Funktionen des Nano Banana Pro nutzen möchten. Für schnelleres und kostengünstigeres Arbeiten. gemini-2.5-flash-image (Nano Banana) ist weiterhin erhältlich.
Zu verwendende Oberflächen
- Gemini API (Endpunkt für generative Sprachen): Sie können einen CometAPI-Schlüssel verwenden, um auf xx zuzugreifen. CometAPI bietet dieselbe API zu einem günstigeren Preis als die offizielle Website. Direkte HTTP-/SDK-Aufrufe an
generateContentzur Bildgenerierung (Beispiele unten). - Google AI Studio: Weboberfläche für schnelles Experimentieren und Remixen von Demo-Apps.
- Vertex AI (Unternehmen): Bereitgestellter Durchsatz, Abrechnungsoptionen (Pay-as-you-go / Enterprise-Tarife) und Sicherheitsfilter für die Produktion im großen Maßstab. Verwenden Sie Vertex bei der Integration in große Pipelines oder Batch-Rendering-Aufträge.
Die kostenlose Version hat ein begrenztes Nutzungslimit; bei Überschreitung dieses Limits wird automatisch auf Nano Banana umgeschaltet. Die Plus-/Pro-/Ultra-Versionen bieten höhere Limits und eine Ausgabe ohne Wasserzeichen. Die Ultra-Version kann jedoch in Flow-Videotools und der Antigravity IDE im 4K-Modus verwendet werden.
Wie generiere ich ein Bild mit Nano Banana Pro (Schritt für Schritt)?
1) Schnelles interaktives Rezept zur Verwendung der Gemini-App
- Gemini öffnen → Werkzeuge → Erstellen Sie Bilder.
- Auswählen Thinking (Nano Banana Pro) als Modell.
- Geben Sie eine Vorgabe ein: Beschreiben Sie Motiv, Handlung, Stimmung, Beleuchtung, Kamera, Seitenverhältnis und jeglichen Text, der auf dem Bild erscheinen soll. Beispiel:
„Erstellen Sie ein 4K-Poster für einen Robotik-Workshop: ein diverses Team um einen Tisch, Bauplan-Overlay, fette Überschrift ‚Robots in Action‘ in serifenloser Schriftart, warmes Wolframlicht, geringe Schärfentiefe, filmisches 16:9-Format.“ - (Optional) Laden Sie bis zu 14 Bilder hoch, um sie zu fusionieren oder als Referenzen zu verwenden. Nutzen Sie das Auswahl-/Maskierungswerkzeug, um Bereiche lokal zu bearbeiten.
- Generieren, iterativ mit natürlicher Sprache (z. B. „Überschrift blau und oben zentriert ausrichten; Kontrast im Bauplan erhöhen“), dann exportieren
2) Verwenden Sie HTTP, um Bilder an den Gemini-Bildendpunkt zu senden.
Sie müssen sich bei CometAPI anmelden, um den Schlüssel zu erhalten.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Dieses Beispiel schreibt die Base64-kodierte Bildnutzlast in eine PNG-Datei. generationConfig.imageConfig.resolution Parameteranforderung 4K-Ausgabe (verfügbar für das 3 Pro Image-Modell)
3) SDK-Aufrufe direkt an generateContent zur Bilderzeugung
Erfordert die Installation des Google SDK und die Google-Authentifizierung. Python-Beispiel (Text + Referenzbilder + Erläuterungen):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Dieses Beispiel zeigt das Hochladen eines Inline-Referenzbildes und das Anfordern einer 4K-Komposition bei aktivierter Funktion. google_search als Werkzeug. Das Python SDK kümmert sich um die Details der REST-Schnittstelle auf niedriger Ebene.
Mehrbildfusion und Zeichenkonsistenz
Um ein Composite zu erstellen, das dieselbe Person in verschiedenen Szenen beibehält, mehrere inline_data Teile (aus Ihrem Fotoset ausgewählt) und geben Sie die kreative Anweisung an, dass das Model „in allen Ausgaben seine Identität bewahren“ soll.
Kurzes praktisches Beispiel – ein realer, prompter und erwarteter Ablauf
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Erwartete Pipeline: App → Eingabeaufforderungsvorlage + CSV-Daten → Platzhalter in der Eingabeaufforderung ersetzen → API-Aufruf mit image_size=2048x1152 → Base64-PNG empfangen → Asset + Herkunftsmetadaten speichern → bei Bedarf optional die exakte Schriftart über den Compositor einblenden.
Wie sollte ich eine Produktionspipeline gestalten und Sicherheit/Herkunftsnachverfolgung gewährleisten?
Empfohlene Produktionsarchitektur
- Prompt + Entwurfspass (Schnellmodell): Nutzen Sie
gemini-2.5-flash-image(Nano Banana) zur kostengünstigen Herstellung vieler Variationen mit geringer Auflösung. - Auswahl und Veredelung: Die besten Kandidaten auswählen, Vorgaben verfeinern, Inpainting-/Maskierungsbearbeitungen für Präzision anwenden.
- Hochauflösendes Endergebnis-Rendering: rufen Sie uns an!
gemini-3-pro-image-preview(Nano Banana Pro) für finale 2K/4K-Renderings und Nachbearbeitung (Upsampling, Farbkorrektur). - Herkunft & Metadaten: Speichern Sie Eingabeaufforderung, Modellversion, Zeitstempel und SynthID-Informationen in Ihrem Asset-Metadatenspeicher – das Modell fügt ein SynthID-Wasserzeichen hinzu und die Ausgaben können zur Einhaltung von Vorschriften und zur Inhaltsprüfung zurückverfolgt werden.
Sicherheit, Rechte und Mäßigung
- Urheberrechts- und Rechteklärung: Laden Sie keine Inhalte hoch oder erstellen Sie keine Inhalte, die Rechte verletzen. Verwenden Sie explizite Nutzerbestätigungen für nutzergenerierte Bilder oder Eingabeaufforderungen, die erkennbare Ähnlichkeiten erzeugen könnten. Googles Richtlinien zur verbotenen Nutzung und die Modellsicherheitsfilter müssen beachtet werden.
- Filterung und automatisierte Prüfungen: Die generierten Bilder durchlaufen einen internen Inhaltsmoderationsprozess (Erkennung von nicht jugendfreien Inhalten, Hasssymbolen und politisch/verbindlichen Inhalten), bevor sie weiterverwendet oder öffentlich angezeigt werden.
Wie führe ich Bildbearbeitung (Inpainting), Mehrbildkomposition und Textrendering durch?
Nano Banana Pro unterstützt multimodale Bearbeitungs-Workflows: Sie können ein oder mehrere Eingabebilder und eine Textanweisung zur Beschreibung der gewünschten Bearbeitungen (Objekt entfernen, Himmel ändern, Text hinzufügen) bereitstellen. Die API akzeptiert Bild und Text in derselben Anfrage; das Modell kann verschachtelte Text- und Bildantworten erzeugen. Beispiele hierfür sind maskierte Bearbeitungen und Bildmischungen (Stilübertragung/Komposition). Weitere Informationen finden Sie in der Dokumentation. contents Arrays, die Textblöcke und Binärbilder kombinieren.
Beispiel: Bearbeiten (Python-Pseudo-Flow)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Diese dialogbasierte Bearbeitungsmethode ermöglicht es Ihnen, die Ergebnisse iterativ anzupassen, bis Sie ein produktionsreifes Produkt erhalten.
Node.js-Beispiel – Bildbearbeitung mit Maske und mehreren Referenzen
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Die APIs akzeptieren manchmal Cloud Storage-URIs oder Base64-kodierte Bilddaten; die genauen Eingabeformate finden Sie in der Gemini-API-Dokumentation.)
Informationen zum Generieren und Bearbeiten von Bildern mit der CometAPI finden Sie unter: Anleitung zum Aufrufen von gemini-3-pro-image .
Fazit
Nano Banana Pro (Gemini 3 Pro Image) ist ein Quantensprung in der Bildgenerierung: ein Tool zur Datenvisualisierung, lokalisierten Bearbeitung und Optimierung von Entwickler-Workflows. Nutzen Sie die Gemini-App für schnelles Prototyping, die API für die Produktionsintegration und befolgen Sie die oben genannten Empfehlungen, um Kosten zu kontrollieren, Sicherheit zu gewährleisten und die Markenqualität zu sichern. Testen Sie stets Workflows mit echten Nutzern und speichern Sie Herkunftsmetadaten, um Transparenz- und Audit-Anforderungen zu erfüllen.
Verwenden Sie Nano Banana Pro, wenn Sie es benötigen. Studioqualität Assets, präzise Kontrolle über die Komposition, verbesserte Textwiedergabe in Bildern und die Möglichkeit, mehrere Referenzen zu einem einheitlichen Ergebnis zu verschmelzen.
Entwickler können zugreifen Gemini 3 Pro Image (Nano Banana Pro) API über CometAPI. Erkunden Sie zunächst die Modellfunktionen vonCometAPI in England, Spielplatz Detaillierte Anweisungen finden Sie im API-Handbuch. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. MitetAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.
Bereit loszulegen? → Melden Sie sich noch heute für CometAPI an !
Wenn Sie weitere Tipps, Anleitungen und Neuigkeiten zu KI erfahren möchten, folgen Sie uns auf VK, X kombiniert mit einem nachhaltigen Materialprofil. Discord!



