Fonctionnalités de base
- Texte → Image : génération complète pilotée par invite, avec forte conformité aux prompts.
- Image → Image (modifications) : retouches fines et ciblées, avec maintien de la cohérence du sujet/personnage sur plusieurs itérations.
- Résolution maximale de sortie : jusqu’à 4K (les exemples et tailles exactes prises en charge dépendent du ratio d’aspect ; l’API propose des préréglages 1K/2K/4K)
- Planification itérative et auto-correction : pipeline interne « multi-étapes » qui détecte et corrige les erreurs visuelles courantes (perspective, texte, géométrie fine).
- Rendu avancé de texte dans l’image : texte multilingue net et lisible (des légendes courtes aux longs paragraphes) adapté aux affiches, maquettes et infographies.
- 5 personnages et fidélité jusqu’à 14 objets/images de référence dans un seul flux de travail.
- Filigrane / provenance : toutes les images générées incluent un filigrane SynthID ; le modèle intègre des métadonnées C2PA pour la provenance dans certaines intégrations produit.
Versions et dénominations de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Détails techniques
Architecture
- Lignée / base : Nano Banana Pro est construit sur la pile d’images Gemini en évolution de Google — spécifiquement la nouvelle architecture Gemini 3 Pro Image / GEMPIX 2 (un cadre image+texte multimodal à plus grande capacité). C’est une évolution de Gemini 2.5 Flash Image (le « nano-banana » original) vers un modèle d’image nativement multimodal avec des capacités élargies de raisonnement vision-langage.
- Comportement du modèle : multimodalité native (image + texte + connaissances du monde), pipelines explicites pour la fusion multi-images, et un planificateur interne par étapes qui affine les sorties en plusieurs passes plutôt que de produire un seul échantillon statique. Les premiers retours indiquent un raisonnement géométrique/optique plus solide (verre, réfraction) par rapport aux versions antérieures.
- Réflexion / affinage interne : le modèle utilise en interne un processus de « réflexion » visible afin d’affiner la composition (l’API documente ce comportement et précise que ces étapes internes ne sont pas facturées comme des jetons d’image finaux).
- Ancrage & outils : prend en charge le Search grounding (peut intégrer des faits issus du Web dans la génération de schémas/infographies). Il prend également en charge des instructions système pour un contrôle plus déterministe.
Paramètres clés de l’API :
thinking_level(low / high) pour arbitrer entre latence et profondeur de raisonnement ;media_resolution(low/medium/high) pour contrôler les jetons de lecture OCR/détails d’image ;generationConfig.imageConfigpour contrôler le ratio d’aspect/la résolution des sorties d’image.
Limites d’image :
- Modalités d’entrée prises en charge : texte et images (le modèle n’accepte pas l’audio ni la vidéo comme entrées de génération d’images).
- Nombre maximal d’images par invite : 14 (pour l’aperçu Gemini 3 Pro Image).
- Taille maximale d’image (téléversement) : 7 Mo par image en entrée.
- Ratios d’aspect pris en charge : 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Images / jetons de sortie : limites élevées, avec prise en charge du 4K/4096px.
Performances sur benchmarks
Résumé court : les benchmarks publics/précoces sont surtout qualitatifs / communautaires, mais indiquent systématiquement des améliorations notables en résolution, réduction d’artefacts et fidélité physique par rapport au nano-banana original (Gemini 2.5 Flash Image). Des « challenges » nommés ont montré des gains visuels clairs, mais il n’existe pas encore (publiquement) de tableaux numériques standardisés de Google comparant v1 → v2 sur des métriques standard de génération d’images.
- Tests qualitatifs de la communauté : bords plus propres, micro-détails plus nets, couleurs plus fidèles, et meilleure conformité au prompt (moins d’objets halluciné·e·s, personnages plus cohérents). Des tests informels populaires incluent le « Wine Glass Test » et le « Glass Burger Challenge », où GEMPIX2 (Nano Banana Pro) gère bien mieux la transparence et la réfraction que les versions antérieures.
- Gestion du texte : Nano Banana Pro montre une typographie et un placement du texte visiblement améliorés dans l’image (une faiblesse persistante pour de nombreux modèles d’image). Les comparaisons communautaires indiquent moins de glyphes rendus de manière illisible.
- Débit / UX : vitesse d’itération plus rapide et UX qui effectue un affinage multi-étapes côté serveur, de sorte que les utilisateurs obtiennent des résultats de premier passage plus fiables (réduisant les relances manuelles).
Limites et risques
- Filtres de contenu et détection : les plateformes intégrant le modèle (par ex. Whisk/des applications tierces) peuvent activer une détection stricte des célébrités ou des ressemblances et bloquer certaines sorties, ce qui affecte les workflows créatifs s’appuyant sur des ressemblances réalistes de célébrités.
- Hallucinations / cas limites de raisonnement : bien que réduites, le modèle peut encore produire des artefacts physiquement irréalistes, en particulier avec du texte symbolique dense dans les images ou des schémas hautement techniques — NB2 semble toutefois réduire ces erreurs par rapport aux versions précédentes.
- Sécurité & mésusage : les modèles d’image générative peuvent être utilisés pour créer du contenu problématique ou nuisible. Google applique des contraintes, des filtres de contenu et le filigrane SynthID pour aider à la traçabilité ; néanmoins, des usages abusifs ont eu lieu (controverse très médiatisée liée à une image Nano Banana générée dans un contexte politiquement sensible).
Comparaison de Nano Banana Pro avec d’autres modèles
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte intégration mobile, fusion multi-images, auto-correction itérative, 2K natif / mise à l’échelle 4K, intégration étroite aux applications Google (Search, Photos, Workspace/Gemini). Idéal pour les workflows nécessitant des retouches fiables, de la continuité et une intégration avec les services Google.
- Midjourney — excelle dans les rendus artistiques stylisés et le prompt engineering orienté communauté ; moins ciblé sur la fusion multi-images photo-réaliste ou les pipelines d’édition multimodale poussés.
- Stable Diffusion / poids ouverts — totalement ouvert, hautement personnalisable et hébergeable en local ; l’écosystème de checkpoints et de fine-tuning est un avantage décisif pour la recherche et l’usage hors ligne. Moins d’intégration mobile « en un clic » et moins de cohérence d’édition multi-images prête à l’emploi que Nano Banana Pro.
- Seedream 4.0 (ByteDance) — récemment positionné explicitement comme un concurrent de Nano Banana, mettant l’accent sur un rendu ultra-rapide, une sortie 2K et la prise en charge de nombreuses images de référence (jusqu’à six). Positionné comme une alternative pour pros/créateurs.
(Ces comparaisons sont de haut niveau ; choisissez en fonction de votre workflow : ouverture/personnalisation → Stable Diffusion ; art stylisé → Midjourney ; édition mobile intégrée et cohérente avec itération agressive → Nano Banana Pro/famille Gemini 3 Pro Image.)
Cas d’utilisation concrets
- Retouche photo mobile et filtres créatifs (intégrations Google Photos — restylage, fusion d’arrière-plan, recomposition de portrait).
- Ressources marketing et publicitaires — génération rapide de concepts, personnages de marque cohérents sur plusieurs cadres/angles.
- Concept art & storyboard — la fusion multi-images aide à maintenir la continuité des personnages entre les panneaux.
- E-commerce / maquettes produit — générer des photos produit cohérentes dans différents contextes/éclairages.
- Prototypage rapide pour assets AR/VR — sorties 2K/4K de haute qualité pouvant être mises à l’échelle pour des usages immersifs.
- Comment accéder à l’API gemini-3-pro-image(Nano Banana Pro)
Étapes requises
- Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire.
- Obtenez la clé d’identification API de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, récupérez la clé du jeton : sk-xxxxx et soumettez.
- Obtenez l’URL de ce site : https://api.cometapi.com/
Méthode d’utilisation
- Sélectionnez l’endpoint “
gemini-3-pro-image” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la doc de notre site. Notre site fournit aussi un test Apifox pour votre commodité. - Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte.
- Insérez votre question ou demande dans le champ content — c’est à cela que le modèle répondra.
- . Traitez la réponse de l’API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible — pour une migration transparente. Détails clés :
- Base URL : https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Noms de modèles :
gemini-3-pro-image - Authentification :
Bearer YOUR_CometAPI_API_KEYen-tête - Content-Type :
application/json.