Grundfunktionen
- Text → Bild: vollständig promptgesteuerte Generierung mit starker Prompt-Treue.
- Bild → Bild (Edits): präzise, zielgerichtete Bearbeitungen mit konsistenter Subjekt-/Charaktertreue über mehrere Edits hinweg.
- Maximale Ausgabeauflösung: bis zu 4K (Beispiele und unterstützte exakte Pixelgrößen hängen vom Seitenverhältnis ab; die API bietet 1K/2K/4K-Voreinstellungen)
- Iterative Planung & Selbstkorrektur: eine interne „Multi-Stage“-Pipeline, die gängige visuelle Fehler (Perspektive, Text, feine Geometrie) erkennt und korrigiert.
- Erweiterte Textdarstellung im Bild: klare, gut lesbare mehrsprachige Texte (von kurzen Captions bis zu langen Absätzen) für Poster, Mockups und Infografiken.
- 5 Figuren und Treue für bis zu 14 Objekte/Referenzbilder in einem einzigen Workflow.
- Wasserzeichen/Herkunftsnachweis: Alle generierten Bilder enthalten ein SynthID-Wasserzeichen; das Modell bettet in einigen Produktintegrationen C2PA-Metadaten für die Herkunft ein.
Gemini 3 Pro Image Versionen & Namensgebung
gemini-3-pro-image-previewgemini-3-pro-image
Technische Details
Architektur
- Lineage/Backbone: Nano Banana Pro basiert auf Googles weiterentwickeltem Gemini-Image-Stack — konkret der neuen Gemini 3 Pro Image / GEMPIX 2-Architektur (einem höherkapazitiven multimodalen Bild+Text-Framework). Das ist eine Weiterentwicklung von Gemini 2.5 Flash Image (dem ursprünglichen „nano-banana“) hin zu einem nativ multimodalen Bildmodell mit erweiterten Vision-Language-Reasoning-Fähigkeiten.
- Modellverhalten: native Multimodalität (Bild + Text + Weltwissen), explizite Pipelines für Multi-Image-Fusion sowie ein interner, stufenweiser Planer, der Ausgaben über mehrere Durchläufe verfeinert, anstatt eine einzelne statische Probe zu erzeugen. Frühe Berichte deuten auf stärkeres geometrisches/optisches Reasoning (Glas, Brechung) im Vergleich zu früheren Versionen hin.
- Thinking/interne Verfeinerung: Das Modell nutzt intern einen sichtbaren „Thinking“-Prozess, um die Komposition zu verfeinern (die API dokumentiert dieses Verhalten und weist darauf hin, dass diese internen Schritte nicht als finale Bild-Tokens berechnet werden).
- Grounding & Tools: Unterstützt Search Grounding (kann Webfakten in die Generierung von Diagrammen/Infografiken einbeziehen). Unterstützt außerdem Systemanweisungen für deterministischere Steuerung.
Wichtige API-Parameter:
thinking_level(low / high), um zwischen Latenz und Tiefe des Reasonings abzuwägen;media_resolution(low/medium/high), um OCR-/Detail-Lesetokens für Bilder zu steuern;generationConfig.imageConfig, um Seitenverhältnis/Auflösung in Bildausgaben zu steuern.
Bildgrenzen:
- Unterstützte Eingabemodalitäten: Text und Bilder (das Modell akzeptiert keine Audio- oder Videoeingaben für die Bildgenerierung).
- Max. Bilder pro Prompt: 14 (für die Gemini 3 Pro Image-Vorschau).
- Maximale Bildgröße (Upload): 7 MB pro Eingabebild.
- Unterstützte Seitenverhältnisse: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Ausgabebilder/Token: hohe Limits, 4K/4096px werden unterstützt.
Benchmark-Leistung
Kurzzusammenfassung: Öffentliche/frühe Benchmarks sind bisher überwiegend qualitativ/community-getrieben, berichten aber konsistent von deutlichen Verbesserungen bei Auflösung, Reduktion von Artefakten und physikalischer Treue gegenüber dem ursprünglichen nano-banana (Gemini 2.5 Flash Image). Spezifische benannte „Challenges“ zeigen klare visuelle Fortschritte; es gibt jedoch noch keine (öffentlichen) standardisierten numerischen Benchmark-Tabellen von Google, die v1 → v2 über Standardmetriken der Bildgenerierung vergleichen.
- Qualitative Community-Tests: Sauberere Kanten, schärfere Mikrodetails, naturgetreuere Farben und höhere Prompt-Treue (weniger halluzinierte Requisiten, konsistentere Figuren). Beliebte informelle Tests sind der sogenannte „Wine Glass Test“ und die „Glass Burger Challenge“, bei denen GEMPIX2 (Nano Banana Pro) Transparenz und Brechung deutlich besser handhabt als frühere Builds.
- Texthandling: Nano Banana Pro zeigt sichtbar verbesserte Typografie und Textplatzierung innerhalb von Bildern (ein persistenter Schwachpunkt vieler Bildmodelle). Community-Vergleiche zeigen weniger verstümmelte gerenderte Glyphen.
- Durchsatz/UX: schnellere Iteration und eine UX, die Back-End-seitig mehrstufige Verfeinerung durchführt, sodass Nutzer verlässlichere Ergebnisse bereits beim ersten Durchlauf sehen (weniger manuelles „Neu würfeln“).
Einschränkungen & Risiken
- Content-Filter & Erkennung: Plattformen, die das Modell integrieren (z. B. Whisk/Drittanbieter-Apps), können strikte Promi- oder Ähnlichkeitserkennung aktivieren und bestimmte Ausgaben blockieren, was Workflows beeinträchtigt, die auf realistische Promi-Ähnlichkeiten angewiesen sind.
- Halluzination/Reasoning-Grenzfälle: Obwohl verbessert, kann das Modell weiterhin physikalisch unrealistische Artefakte erzeugen, insbesondere bei dichtem symbolischem Text in Bildern oder hoch technischen Diagrammen — NB2 scheint diese Fehler gegenüber früheren Versionen jedoch zu reduzieren.
- Sicherheit & Missbrauch: Generative Bildmodelle können für problematische oder schädliche Inhalte missbraucht werden. Google wendet Beschränkungen, Content-Filter und das SynthID-Wasserzeichen an, um die Herkunft zu stützen; dennoch gab es Missbrauch (ein viel beachteter Streitfall mit einem von Nano Banana generierten Bild in einem politisch sensiblen Kontext).
Wie Nano Banana Pro im Vergleich zu anderen Modellen abschneidet
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — starke mobile Integration, Multi-Image-Fusion, iterative Selbstkorrektur, native 2K/4K-Upscaling, eng integriert in Google-Apps (Search, Photos, Workspace/Gemini). Am besten für Workflows, die verlässliche Edits, Kontinuität und Integration mit Google-Diensten benötigen.
- Midjourney — glänzt bei stilisierten, künstlerischen Ausgaben und communitygetriebenem Prompt-Engineering; üblicherweise nicht auf fotoakkurate Multi-Image-Fusion oder tiefe multimodale Editing-Pipelines ausgerichtet.
- Stable Diffusion / Open Weights — vollständig offen, hochgradig anpassbar und lokal hostbar; das Ökosystem aus Checkpoints und Fine-Tuning ist ein entscheidender Vorteil für Forschung und Offline-Nutzung. Weniger „One-Click“-Mobile-Integration und ab Werk geringere Konsistenz bei Multi-Image-Editing-Kohärenz als Nano Banana Pro.
- Seedream 4.0 (ByteDance) — kürzlich ausdrücklich als Nano Banana-Konkurrent positioniert, mit Fokus auf extrem schnelle Darstellung, 2K-Ausgabe und Unterstützung vieler Referenzbilder (bis zu sechs). Positioniert als Pro-/Creator-Alternative.
(Diese Vergleiche sind auf hoher Ebene; wählen Sie das passende Tool für Ihren Workflow: Offenheit/Anpassbarkeit → Stable Diffusion; stilisierte Kunst → Midjourney; integriertes, konsistentes mobiles Editing mit aggressiver Iteration → Nano Banana Pro/Gemini 3 Pro Image Familie.)
Praxisnahe Anwendungsfälle
- Mobiles Fotobearbeiten & kreative Filter (Google Photos-Integrationen — Restyling, Hintergrundfusion, Porträt-Rekomposition).
- Marketing- & Werbe-Assets — schnelle Konzeptgenerierung, konsistente Markenfiguren über mehrere Frames/Winkel.
- Concept Art & Storyboarding — Multi-Image-Fusion hilft, die Figurenkontinuität über Panels hinweg zu wahren.
- E-Commerce/Produkt-Mockups — konsistente Produktaufnahmen in unterschiedlichen Kontexten/Lichtsituationen generieren.
- Rapid Prototyping für AR/VR-Assets — hochwertige 2K/4K-Ausgaben, die für immersive Einsätze hochskaliert werden können.
- So greifen Sie auf die gemini-3-pro-image(Nano Banana Pro) API zu
Erforderliche Schritte
- Melden Sie sich bei cometapi.com an. Falls Sie noch kein Benutzer sind, registrieren Sie sich zuerst.
- Rufen Sie den Zugangs-API-Schlüssel der Schnittstelle ab. Klicken Sie im persönlichen Bereich beim API-Token auf „Add Token“, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
- Rufen Sie die URL dieser Seite ab:
https://api.cometapi.com/
Vorgehensweise
- Wählen Sie den „
gemini-3-pro-image“-Endpunkt, senden Sie die API-Anfrage und setzen Sie den Request-Body. Methode und Request-Body entnehmen Sie unserer Website-API-Dokumentation. Unsere Website bietet außerdem Apifox-Tests. - Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto.
- Fügen Sie Ihre Frage oder Anforderung in das content-Feld ein — darauf reagiert das Modell.
- Verarbeiten Sie die API-Antwort, um die generierte Ausgabe zu erhalten.
CometAPI stellt eine vollständig kompatible REST-API bereit — für nahtlose Migration. Wichtige Details:
- Basis-URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modellnamen:
gemini-3-pro-image - Authentifizierung:
Bearer YOUR_CometAPI_API_KEYHeader - Content-Type:
application/json.