Grundfunktionen
- Text → Bild: vollständige promptgesteuerte Generierung mit starker Prompt-Treue.
- Bild → Bild (Bearbeitungen): feine, gezielte Bearbeitungen bei gleichbleibender Motiv-/Charakterkonsistenz über mehrere Bearbeitungsschritte hinweg.
- Maximale Ausgabauflösung: bis zu 4K (Beispiele und unterstützte exakte Pixelgrößen hängen vom Seitenverhältnis ab; die API bietet 1K-/2K-/4K-Presets)
- Iterative Planung & Selbstkorrektur: eine interne „mehrstufige“ Pipeline, die häufige visuelle Fehler (Perspektive, Text, feine Geometrie) erkennt und korrigiert.
- Erweiterte Textdarstellung im Bild: klarer, gut lesbarer mehrsprachiger Text (von kurzen Bildunterschriften bis zu langen Absätzen), geeignet für Poster, Mockups und Infografiken.
- 5 Charaktere und hohe Treue für bis zu 14 Objekte/Referenzbilder in einem einzelnen Workflow.
- Wasserzeichen / Herkunftsnachweis: Alle generierten Bilder enthalten ein SynthID-Wasserzeichen; das Modell bettet in einigen Produktintegrationen C2PA-Metadaten für die Herkunft ein.
Versionen & Benennung von Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Technische Details
Architektur
- Abstammung / Backbone: Nano Banana Pro basiert auf Googles sich weiterentwickelndem Gemini-Bild-Stack — insbesondere auf der neuen Architektur Gemini 3 Pro Image / GEMPIX 2 (ein multimodales Bild+Text-Framework mit höherer Kapazität). Dies ist eine Weiterentwicklung von Gemini 2.5 Flash Image (dem ursprünglichen „nano-banana“) hin zu einem nativ multimodalen Bildmodell mit erweiterten Vision-Language-Reasoning-Fähigkeiten.
- Modellverhalten: native Multimodalität (Bild + Text + Weltwissen), explizite Pipelines für Multi-Bild-Fusion und ein interner stufenweiser Planer, der Ausgaben über mehrere Durchläufe verfeinert, anstatt ein einzelnes statisches Sample zu erzeugen. Frühe Berichte deuten auf stärkeres geometrisches/optisches Reasoning (Glas, Brechung) im Vergleich zu früheren Versionen hin.
- Thinking / interne Verfeinerung: Das Modell verwendet intern einen sichtbaren „Thinking“-Prozess, um die Komposition zu verfeinern (die API dokumentiert dieses Verhalten und weist darauf hin, dass diese internen Schritte nicht als endgültige Bild-Token berechnet werden).
- Grounding & Tools: Unterstützt Search Grounding (kann Web-Fakten in die Diagramm-/Infografik-Generierung einbeziehen). Es unterstützt außerdem Systemanweisungen für eine deterministischere Steuerung.
Wichtige API-Parameter:
thinking_level(low / high), um Latenz gegen Reasoning-Tiefe abzuwägen;media_resolution(low/medium/high), um Bild-OCR-/Detail-Lese-Token zu steuern;generationConfig.imageConfig, um Seitenverhältnis/Auflösung in Bildausgaben zu steuern.
Bildlimits:
- Unterstützte Eingabemodalitäten: Text und Bilder (das Modell akzeptiert weder Audio noch Video als Eingaben für die Bildgenerierung).
- Max. Bilder pro Prompt: 14 (für die Gemini 3 Pro Image Preview).
- Max. Bildgröße (Upload): 7 MB pro Eingabebild.
- Unterstützte Seitenverhältnisse: 1:1, 3:2, 16:9, 9:16, 21:9 usw.
Ausgabebilder / Tokens: hohe Limits, mit Unterstützung für 4K/4096 px.
Benchmark-Leistung
Kurze Zusammenfassung: Öffentliche/frühe Benchmarks sind bislang überwiegend qualitativ bzw. communitygetrieben, berichten aber durchweg von deutlichen Verbesserungen bei Auflösung, Artefaktreduktion und physikalischer Treue gegenüber dem ursprünglichen nano-banana (Gemini 2.5 Flash Image). Spezifische benannte „Challenges“ haben klare visuelle Zugewinne gezeigt, aber es gibt bislang noch keine (öffentlichen) standardisierten numerischen Benchmark-Tabellen von Google, die v1 → v2 anhand standardisierter Bildgenerierungsmetriken vergleichen.
- Qualitative Community-Tests: sauberere Kanten, schärfere Mikrodetails, realistischere Farben und treuere Prompt-Befolgung (weniger halluzinierte Requisiten, konsistentere Charaktere). Beliebte informelle Tests umfassen den sogenannten „Wine Glass Test“ und die „Glass Burger Challenge“, bei denen GEMPIX2 (Nano Banana Pro) Transparenz und Brechung deutlich besser verarbeitet als frühere Builds.
- Textverarbeitung: Nano Banana Pro zeigt sichtbar verbesserte Typografie und Textplatzierung innerhalb von Bildern (eine anhaltende Schwäche vieler Bildmodelle). Community-Vergleiche deuten auf weniger verstümmelte gerenderte Glyphen hin.
- Durchsatz / UX: schnellere Iterationsgeschwindigkeit und eine UX, die im Hintergrund mehrstufige Verfeinerung durchführt, sodass Benutzer zuverlässigere Ergebnisse beim ersten Durchlauf sehen (wodurch manuelle Re-Rolls reduziert werden).
Einschränkungen & Risiken
- Inhaltsfilter & Erkennung: Plattformen, die das Modell integrieren (z. B. Whisk/Apps von Drittanbietern), können strenge Prominenten- oder Ähnlichkeitserkennung aktivieren und bestimmte Ausgaben blockieren, was kreative Workflows beeinträchtigt, die auf realistischen Prominentenähnlichkeiten basieren.
- Halluzination / Reasoning-Grenzfälle: Obwohl verbessert, kann das Modell weiterhin physikalisch unrealistische Artefakte erzeugen, insbesondere bei dichtem symbolischem Text innerhalb von Bildern oder hochgradig technischen Diagrammen — obwohl NB2 diese Fehler im Vergleich zu früheren Versionen offenbar reduziert.
- Sicherheit & Missbrauch: Generative Bildmodelle können zur Erstellung problematischer oder schädlicher Inhalte verwendet werden. Google setzt Einschränkungen, Inhaltsfilter und das SynthID-Wasserzeichen ein, um beim Herkunftsnachweis zu helfen; dennoch ist es zu Missbrauch gekommen (eine öffentlichkeitswirksame Kontroverse im Zusammenhang mit einem von Nano Banana generierten Bild in einem politisch sensiblen Kontext).
Wie sich Nano Banana Pro im Vergleich zu anderen Modellen einordnet
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — starke mobile Integration, Multi-Bild-Fusion, iterative Selbstkorrektur, natives 2K/4K-Upscaling, eng in Google-Apps (Search, Photos, Workspace/Gemini) integriert. Am besten für Workflows geeignet, die zuverlässige Bearbeitungen, Kontinuität und Integration mit Google-Diensten benötigen.
- Midjourney — hervorragend für stilisierte künstlerische Ausgaben und communitygetriebenes Prompt Engineering; in der Regel nicht auf fotorealistische Multi-Bild-Fusion oder tiefe multimodale Bearbeitungspipelines ausgerichtet.
- Stable Diffusion / Open Weights — vollständig offen, hochgradig anpassbar und lokal hostbar; das Ökosystem aus Checkpoints und Fine-Tuning ist ein klarer Vorteil für Forschung und Offline-Nutzung. Weniger „One-Click“-Mobile-Integration und weniger konsistente Kohärenz bei der Multi-Bild-Bearbeitung out-of-the-box als Nano Banana Pro.
- Seedream 4.0 (ByteDance) — kürzlich explizit als Konkurrent zu Nano Banana positioniert, mit Fokus auf ultraschnelles Rendering, 2K-Ausgabe und Unterstützung für viele Referenzbilder (bis zu sechs). Positioniert als professionelle Creator-Alternative.
(Diese Vergleiche sind allgemein gehalten; wählen Sie den besten Kandidaten, indem Sie das Tool auf Ihren Workflow abstimmen: Offenheit/Anpassbarkeit → Stable Diffusion; stilisierte Kunst → Midjourney; integrierte, konsistente mobile Bearbeitung mit aggressiver Iteration → Nano Banana Pro / Gemini 3 Pro Image-Familie.)
Praxisnahe Anwendungsfälle
- Mobile Fotobearbeitung & kreative Filter (Google-Photos-Integrationen — Restyling, Hintergrundfusion, Neukomposition von Porträts).
- Marketing- & Werbemittel — schnelle Konzeptgenerierung, konsistente Markencharaktere über mehrere Frames/Winkel hinweg.
- Concept Art & Storyboarding — Multi-Bild-Fusion hilft, die Charakterkontinuität über Panels hinweg zu bewahren.
- E-Commerce / Produkt-Mockups — konsistente Produktaufnahmen in unterschiedlichen Kontexten/Lichtbedingungen generieren.
- Schnelles Prototyping für AR/VR-Assets — hochwertige 2K-/4K-Ausgaben, die für immersive Anwendungen hochskaliert werden können.
- So greifen Sie auf die API von gemini-3-pro-image(Nano Banana Pro) zu
Erforderliche Schritte
- Melden Sie sich bei cometapi.com an. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst.
- Holen Sie sich die Zugangsdaten in Form des API-Schlüssels für die Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Add Token“, holen Sie sich den Token-Schlüssel: sk-xxxxx und übermitteln Sie ihn.
- Rufen Sie die URL dieser Website ab: https://api.cometapi.com/
Verwendungsmethode
- Wählen Sie den Endpunkt „
gemini-3-pro-image“, um die API-Anfrage zu senden, und legen Sie den Request-Body fest. Die Request-Methode und der Request-Body sind in unserer API-Dokumentation auf der Website zu finden. Unsere Website bietet zu Ihrer Bequemlichkeit auch Apifox-Tests. - Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto.
- Fügen Sie Ihre Frage oder Anfrage in das Feld content ein — darauf wird das Modell antworten.
- Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.
CometAPI bietet eine vollständig kompatible REST-API — für eine nahtlose Migration. Wichtige Details:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modellnamen:
gemini-3-pro-image - Authentifizierung: Header
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json