Google Nano Banana Pro (identifiant du modèle officiel) gemini-3-pro-image-preview) est la variante de génération et d'édition d'images de Gemini 3 Pro. Il s'agit d'un modèle d'image professionnel pour la prévisualisation qui ajoute la sortie 2K/4K et la composition multi-images haute fidélité (jusqu'à 14 images de référence, cohérence des caractères pour jusqu'à 5), un rendu de texte dans l'image plus performant et un ancrage de la recherche dans la réalité factuelle.
Caractéristiques de base
- Texte → Image: génération entièrement pilotée par les invites avec un fort respect de celles-ci.
- Image → Image (modifications): des modifications précises et ciblées, tout en maintenant la cohérence du sujet et des personnages malgré les différentes modifications.
- Résolution de sortie maximale : jusqu'à 4K (Les exemples et les tailles de pixels exactes prises en charge dépendent du format d'image ; l'API propose des préréglages 1K/2K/4K)
- Planification itérative et autocorrection: un pipeline interne « multi-étapes » qui détecte et corrige les erreurs visuelles courantes (perspective, texte, géométrie fine).
- Rendu de texte avancé dans l'image: texte multilingue clair et lisible (de courtes légendes à de longs paragraphes) adapté aux affiches, maquettes et infographies.
- Caractères 5 et fidélité jusqu'à 14 objets/images de référence dans un flux de travail unique.
- Filigrane / provenance : Toutes les images générées incluent un filigrane SynthID ; le modèle intègre des métadonnées C2PA pour la provenance dans certaines intégrations de produits.
Versions et dénomination des images de Gemini 3 Pro
gemini-3-pro-image-previewgemini-3-pro-image
Détails techniques
Architecture
- Lignée / colonne vertébraleNano Banana Pro sera basé sur la plateforme d'images Gemini de Google, en constante évolution, et plus précisément sur la nouvelle version. Image Gemini 3 Pro / GEMPIX 2 architecture (un cadre multimodal image+texte à plus grande capacité). Il s'agit d'une évolution de Image Flash Gemini 2.5 (la « nano-banane » originale) dans un modèle d'image multimodal natif avec des capacités de raisonnement vision-langage étendues.
- Comportement du modèle: Multimodalité native (image + texte + connaissances du monde), pipelines explicites pour la fusion multi-images et un planificateur interne par étapes qui affine les résultats en plusieurs passes plutôt que de produire un seul échantillon statique. Les premiers retours indiquent un raisonnement géométrique/optique (verre, réfraction) plus performant que les versions précédentes.
- Réflexion / perfectionnement interneLe modèle utilise un processus de « réflexion » visible en interne pour affiner la composition (l'API documente ce comportement et précise que ces étapes internes ne sont pas facturées comme jetons d'image finaux).
- Mise à la terre et outils: Les soutiens Recherche de mise à la terre (Permet d'intégrer des données Web dans la génération de diagrammes/infographies). Prend également en charge les instructions système pour un contrôle plus précis.
Paramètres clés de l'API :
thinking_level(faible / élevé) pour arbitrer entre latence et profondeur de raisonnement ;media_resolution(faible/moyen/élevé) pour contrôler les jetons de lecture OCR/détails d'image ;generationConfig.imageConfigpour contrôler le format d'image/la résolution des images de sortie.
Limites d'image :
- Modalités de saisie prises en charge : Texte et images (le modèle n'accepte pas l'audio ou la vidéo comme entrées pour la génération d'images).
- Nombre maximal d'images par invite : 14 (pour l'aperçu d'image du Gemini 3 Pro).
- Taille maximale des images (téléchargement) : 7 Mo par image d'entrée.
- Rapports d'aspect pris en charge : 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Images/jetons de sortie : Limites élevées, avec prise en charge de la résolution 4K/4096px.
Performances de référence
Court résumé: Les premiers tests de performance publics sont pour l'instant principalement qualitatifs et issus de la communauté, mais font systématiquement état d'améliorations substantielles en termes de résolution, de réduction des artefacts et de fidélité physique par rapport à l'image originale de la nano-banane (Gemini 2.5 Flash Image). Des « défis » spécifiques ont démontré des gains visuels évidents, mais Google ne propose pas encore de tableaux de comparaison numériques standardisés (publics) entre les versions 1 et 2 selon les critères standards de génération d'images.
- Tests communautaires qualitatifsDes contours plus nets, des micro-détails plus précis, des couleurs plus fidèles et une meilleure réactivité (moins d'artefacts, des personnages plus cohérents). Parmi les tests informels populaires, on trouve le « test du verre à vin » et le « défi du hamburger en verre », où GEMPIX2 (Nano Banana Pro) gère la transparence et la réfraction nettement mieux que les versions précédentes.
- Gestion du texteNano Banana Pro offre une typographie et un placement du texte nettement améliorés dans les images (un point faible récurrent de nombreux modèles d'images). Les comparaisons effectuées par la communauté indiquent une réduction du nombre de glyphes rendus incorrectement.
- Débit / Expérience utilisateur: une vitesse d'itération plus rapide et une expérience utilisateur qui effectue un raffinement en plusieurs étapes en arrière-plan afin que les utilisateurs voient des résultats de première passe plus fiables (réduisant les relances manuelles).
Limites et risques
- Filtres et détection de contenuLes plateformes intégrant ce modèle (par exemple, Whisk/applications tierces) peuvent activer une détection stricte des célébrités ou des ressemblances et bloquer certaines sorties, ce qui affecte les flux de travail créatifs qui reposent sur des ressemblances réalistes avec des célébrités.
- Cas limites d'hallucination/de raisonnement: bien qu'amélioré, le modèle peut encore produire des artefacts physiquement irréalistes, en particulier avec du texte symbolique dense à l'intérieur d'images ou des diagrammes très techniques — bien que NB2 semble réduire ces erreurs par rapport aux versions précédentes.
- Sécurité et mauvaise utilisation : Les modèles d'images génératives peuvent servir à créer des contenus problématiques, voire nuisibles. Google applique des contraintes, des filtres de contenu et le filigrane SynthID pour garantir la provenance des images ; néanmoins, des abus ont été constatés (notamment une polémique très médiatisée liée à une image générée par Nano Banana dans un contexte politiquement sensible).
Comparaison du Nano Banana Pro avec d'autres modèles
- Nano Banana Pro (Image GEMPIX 2 / Gemini 3 Pro) — Forte intégration mobile, fusion multi-images, auto-correction itérative, mise à l'échelle 2K native/4K, intégration étroite aux applications Google (Recherche, Photos, Workspace/Gemini). Idéal pour les flux de travail exigeant des modifications fiables, une continuité et une intégration avec les services Google.
- À mi-parcours — excelle dans les productions artistiques stylisées et l'ingénierie collaborative ; ne vise généralement pas la fusion multi-images photographiquement précise ni les pipelines d'édition multimodaux complexes.
- Diffusion stable / poids ouverts — Entièrement ouvert, hautement personnalisable et hébergeable localement ; son écosystème de points de contrôle et de réglages précis constitue un atout majeur pour la recherche et l’utilisation hors ligne. L’intégration mobile « en un clic » est moins poussée et la cohérence de l’édition multi-images est moins homogène dès la première utilisation que sur Nano Banana Pro.
- Seedream 4.0 (ByteDance) — Récemment positionnée explicitement comme concurrente de la Nano Banana, elle met l'accent sur un rendu ultra-rapide, une sortie 2K et la prise en charge de nombreuses images de référence (jusqu'à six). Elle se positionne comme une alternative pour les professionnels et les créateurs.
(Ces comparaisons sont générales ; choisissez l’outil qui correspond le mieux à votre flux de travail : ouverture/personnalisation → Stable Diffusion ; style artistique → Midjourney ; édition mobile intégrée et cohérente avec itération rapide → Gamme d’images Nano Banana Pro/Gemini 3 Pro.)
Cas d'utilisation du monde réel
- Retouche photo mobile et filtres créatifs (Intégrations Google Photos — restylage, fusion d'arrière-plan, recomposition de portraits).
- Ressources marketing et publicitaires — Génération rapide de concepts, identité de marque cohérente sur plusieurs plans/angles.
- Concept art et storyboard — La fusion multi-images permet de maintenir la continuité des personnages d'une case à l'autre.
- Maquettes de produits / e-commerce — Générer des clichés de produits cohérents dans différents contextes/conditions d'éclairage.
- Prototypage rapide pour les ressources AR/VR — des sorties 2K/4K de haute qualité pouvant être mises à l'échelle pour des utilisations immersives.
Comment appeler l'image gemini-3-pro(Nano Banana Pro) API
Prix de l'API Nano Banana sur CometAPI : 20 % de réduction sur le prix officiel.
| Prix | $0.19200 |
Étapes requises
- Se connecter à cometapi.comSi vous n'êtes pas encore notre utilisateur, veuillez d'abord vous inscrire
- Obtenez la clé API d'accès à l'interface. Cliquez sur « Ajouter un jeton » au niveau du jeton API dans l'espace personnel, récupérez la clé : sk-xxxxx et validez.
- Obtenez l'URL de ce site : https://api.cometapi.com/
Utiliser la méthode
- Sélectionnez l'option "
gemini-3-pro-imagePoint de terminaison pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Notre site web propose également le test Apifox pour plus de commodité. - Remplacer avec votre clé CometAPI réelle de votre compte.
- Insérez votre question ou demande dans le champ de contenu : c'est à cela que le modèle répondra.
- Traitez la réponse de l'API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible, pour une migration sans faille. Points clés :
- URL de base : https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Noms de modèle:
gemini-3-pro-image - Authentification:
Bearer YOUR_CometAPI_API_KEYentête - Content-Type:
application/json.
Voir aussi
API d'images Flash Gemini 2.5 (Nano-Banana)



