Fonctionnalités de base
- Texte → Image : génération entièrement guidée par prompt, avec une forte fidélité au prompt.
- Image → Image (retouches) : modifications fines et ciblées, en maintenant la cohérence du sujet/personnage sur plusieurs retouches.
- Résolution de sortie maximale : jusqu’à 4K (les exemples et les dimensions exactes prises en charge dépendent du format d’image ; l’API expose des préréglages 1K/2K/4K).
- Planification itérative et auto-correction : un pipeline interne « multi-étapes » qui détecte et corrige les erreurs visuelles courantes (perspective, texte, géométrie fine).
- Rendu avancé du texte dans l’image : texte multilingue clair et lisible (des courts titres aux longs paragraphes) pour affiches, maquettes et infographies.
- 5 personnages et fidélité jusqu’à 14 objets/images de référence dans un seul workflow.
- Filigrane / provenance : toutes les images générées incluent un filigrane SynthID ; le modèle intègre des métadonnées C2PA pour la provenance dans certaines intégrations produit.
Versions et dénominations de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Détails techniques
Architecture
- Lignée / socle : Nano Banana Pro est construit sur la pile d’images évolutive Gemini de Google — spécifiquement la nouvelle architecture Gemini 3 Pro Image / GEMPIX 2 (un cadre image+texte multimodal à plus grande capacité). Il s’agit d’une évolution à partir de Gemini 2.5 Flash Image (le « nano-banana » original) vers un modèle d’image nativement multimodal avec des capacités étendues de raisonnement vision-langage.
- Comportement du modèle : multimodalité native (image + texte + connaissances du monde), pipelines explicites pour la fusion multi-images, et un planificateur par étapes interne qui affine les sorties en plusieurs passes plutôt que de produire un échantillon unique et statique. Les premiers retours indiquent un meilleur raisonnement géométrique/optique (verre, réfraction) par rapport aux versions précédentes.
- Raisonnement / raffinement interne : le modèle utilise un processus de « réflexion » visible en interne pour affiner la composition (la documentation de l’API le précise et indique que ces étapes internes ne sont pas facturées comme des jetons d’image finaux).
- Ancrage & outils : prend en charge l’ancrage via la recherche (peut intégrer des faits web dans la génération de diagrammes/infographies). Il accepte également des instructions système pour un contrôle plus déterministe.
Paramètres API clés :
thinking_level(low / high) pour arbitrer entre latence et profondeur de raisonnement ;media_resolution(low/medium/high) pour contrôler les jetons de lecture de détails/OCR d’image ;generationConfig.imageConfigpour contrôler le format d’image/ratio et la résolution des sorties.
Limites d’image :
- Modalités d’entrée prises en charge : texte et images (le modèle n’accepte pas l’audio ou la vidéo comme entrées pour la génération d’images).
- Nombre maximal d’images par prompt : 14 (pour l’aperçu de Gemini 3 Pro Image).
- Taille maximale d’image (upload) : 7 Mo par image d’entrée.
- Formats d’image pris en charge : 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Images / jetons en sortie : limites élevées, avec 4K/4096px pris en charge.
Performances sur benchmarks
Courte synthèse : les benchmarks publics/précoces sont surtout qualitatifs/issus de la communauté, mais rapportent systématiquement des améliorations substantielles en résolution, réduction d’artefacts et fidélité physique par rapport au nano-banana d’origine (Gemini 2.5 Flash Image). Des « challenges » nommés ont montré des gains visuels clairs, mais il n’existe pas encore (publiquement) de tableaux de benchmarks chiffrés standardisés de Google comparant v1 → v2 sur des métriques de génération d’images standard.
- Tests qualitatifs communautaires : bords plus nets, micro-détails plus précis, couleurs plus fidèles, et meilleure adhérence au prompt (moins d’objets halluciné·e·s, personnages plus cohérents). Des tests informels populaires incluent le « Wine Glass Test » et le « Glass Burger Challenge », où GEMPIX2 (Nano Banana Pro) gère nettement mieux la transparence et la réfraction que les anciennes versions.
- Gestion du texte : Nano Banana Pro montre une typographie et un placement du texte visiblement améliorés à l’intérieur des images (point faible persistant de nombreux modèles d’images). Les comparaisons communautaires indiquent moins de glyphes rendus illisibles.
- Débit / UX : vitesse d’itération plus rapide et une UX qui exécute un raffinement multi-étapes en arrière-plan, de sorte que les utilisateurs obtiennent des premiers résultats plus fiables (réduisant les relances manuelles).
Limites & risques
- Filtres de contenu & détection : les plateformes intégrant le modèle (p. ex. Whisk/des apps tierces) peuvent activer une détection stricte des célébrités ou des ressemblances et bloquer certaines sorties, ce qui affecte les workflows créatifs reposant sur des ressemblances réalistes de célébrités.
- Hallucination / cas limites de raisonnement : bien que réduit, le modèle peut encore produire des artefacts physiquement irréalistes, en particulier avec du texte symbolique dense dans les images ou des schémas très techniques — bien que NB2 semble réduire ces erreurs par rapport aux versions antérieures.
- Sécurité & mésusage : les modèles génératifs d’images peuvent être utilisés pour créer du contenu problématique ou nuisible. Google applique des contraintes, des filtres de contenu et le filigrane SynthID pour contribuer à la provenance ; néanmoins, des abus ont eu lieu (controverse médiatisée liée à une image Nano Banana générée dans un contexte politiquement sensible).
Comparaison de Nano Banana Pro avec d’autres modèles
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte intégration mobile, fusion multi-images, auto-correction itérative, 2K native/4K upscaling, intégration étroite dans les applications Google (Search, Photos, Workspace/Gemini). Idéal pour des workflows nécessitant des retouches fiables, de la continuité et une intégration aux services Google.
- Midjourney — excelle dans les rendus artistiques stylisés et l’ingénierie de prompt animée par la communauté ; pas typiquement ciblé sur la fusion multi-images photo-réaliste ou des pipelines d’édition multimodaux profonds.
- Stable Diffusion / poids ouverts — entièrement ouvert, hautement personnalisable et hébergeable en local ; l’écosystème de checkpoints et de fine-tuning est un atout décisif pour la recherche et l’usage hors ligne. Moins d’intégration mobile « en un clic » et moins de cohérence d’édition multi-images « out-of-the-box » que Nano Banana Pro.
- Seedream 4.0 (ByteDance) — récemment positionné explicitement comme un concurrent de Nano Banana, mettant l’accent sur le rendu ultra-rapide, la sortie 2K et la prise en charge de nombreuses images de référence (jusqu’à six). Positionné comme une alternative pro/créateur.
(Ces comparaisons sont de haut niveau ; choisissez un gagnant en fonction de votre workflow : ouverture/personnalisation → Stable Diffusion ; art stylisé → Midjourney ; édition mobile intégrée et cohérente avec itération agressive → famille Nano Banana Pro / Gemini 3 Pro Image.)
Cas d’usage réels
- Retouche photo mobile & filtres créatifs (intégrations Google Photos — restylage, fusion d’arrière-plan, recomposition de portrait).
- Actifs marketing & pub — génération rapide de concepts, personnages de marque cohérents sur plusieurs cadres/angles.
- Concept art & storyboard — la fusion multi-images aide à conserver la continuité des personnages entre les panneaux.
- E-commerce / maquettes produit — génère des photos produit cohérentes dans différents contextes/éclairages.
- Prototypage rapide pour assets AR/VR — sorties 2K/4K de haute qualité pouvant être upscalées pour des usages immersifs.
- Comment accéder à l’API gemini-3-pro-image (Nano Banana Pro)
Étapes requises
- Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous enregistrer.
- Obtenez la clé d’accès API de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, obtenez la clé de jeton : sk-xxxxx et soumettez.
- Obtenez l’URL de ce site :
https://api.cometapi.com/
Méthode d’utilisation
- Sélectionnez l’endpoint “
gemini-3-pro-image” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont fournis dans la documentation API de notre site. Notre site propose également un test Apifox pour votre commodité. - Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte.
- Insérez votre question ou demande dans le champ content — c’est à cela que le modèle répondra.
- . Traitez la réponse de l’API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible — pour une migration transparente. Détails clés :
- Base URL : https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names :
gemini-3-pro-image - Authentication :
Bearer YOUR_CometAPI_API_KEYen-tête - Content-Type :
application/json.