Fonctionnalités de base
- Texte → Image : génération entièrement pilotée par prompt avec une forte conformité au prompt.
- Image → Image (retouches) : retouches fines et ciblées en conservant la cohérence du sujet/personnage sur plusieurs retouches.
- Résolution de sortie maximale : jusqu’à 4K (les exemples et les tailles exactes prises en charge dépendent du format d’image ; l’API propose des préréglages 1K/2K/4K)
- Planification itérative et autocorrection : pipeline interne « multi‑étapes » qui détecte et corrige les erreurs visuelles courantes (perspective, texte, géométrie fine).
- Rendu avancé du texte dans l’image : texte multilingue clair et lisible (des courts libellés aux longs paragraphes), adapté aux posters, maquettes et infographies.
- 5 personnages et fidélité jusqu’à 14 objets/images de référence au sein d’un même flux.
- Filigrane / provenance : toutes les images générées incluent un filigrane SynthID ; le modèle intègre des métadonnées C2PA pour la provenance dans certaines intégrations produit.
Versions et dénomination de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Détails techniques
Architecture
- Lignée / ossature : Nano Banana Pro est construit sur la pile image Gemini de Google en constante évolution — plus précisément la nouvelle architecture Gemini 3 Pro Image / GEMPIX 2 (un cadre multimodal image+texte de plus grande capacité). Il s’agit d’une évolution de Gemini 2.5 Flash Image (l’« nano‑banana » d’origine) vers un modèle d’image nativement multimodal avec des capacités élargies de raisonnement vision‑langage.
- Comportement du modèle : multimodalité native (image + texte + connaissances du monde), pipelines explicites pour la fusion multi‑images, et planificateur interne par étapes qui affine les sorties en plusieurs passes plutôt que de produire un seul échantillon statique. Les premiers retours indiquent un raisonnement géométrique/optique plus robuste (verre, réfraction) par rapport aux versions précédentes.
- Réflexion / raffinement interne : le modèle utilise en interne un processus de « réflexion » pour affiner la composition (la documentation de l’API décrit ce comportement et précise que ces étapes internes ne sont pas facturées comme des jetons d’image finaux).
- Ancrage & outils : prise en charge de l’ancrage via la recherche (peut incorporer des faits web dans la génération de schémas/infographies). Prend également en charge des instructions système pour un contrôle plus déterministe.
Paramètres clés de l’API :
thinking_level(low / high) pour arbitrer entre latence et profondeur de raisonnement ;media_resolution(low/medium/high) pour contrôler les jetons de lecture OCR/détails d’image ;generationConfig.imageConfigpour définir le format d’image/résolution des sorties.
Limites d’image :
- Modalités d’entrée prises en charge : texte et images (le modèle n’accepte pas l’audio ni la vidéo comme entrées pour la génération d’images).
- Nombre maximal d’images par prompt : 14 (pour l’aperçu Gemini 3 Pro Image).
- Taille maximale d’image (envoi) : 7 Mo par image d’entrée.
- Formats d’image pris en charge : 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Images / jetons de sortie : limites élevées, avec prise en charge du 4K/4096 px.
Performances aux benchmarks
Résumé court : les benchmarks publics/précoces sont pour l’instant surtout qualitatifs/issus de la communauté, mais signalent systématiquement des améliorations substantielles en résolution, réduction des artefacts et fidélité physique par rapport au nano‑banana d’origine (Gemini 2.5 Flash Image). Des « challenges » nommés ont montré des gains visuels clairs, mais il n’existe pas encore de tableaux de benchmarks numériques standardisés (publics) de Google comparant v1 → v2 sur des métriques de génération d’images standard.
- Tests qualitatifs de la communauté : bords plus nets, micro‑détails plus précis, couleurs plus fidèles et meilleure adhérence au prompt (moins d’objets hallucinés, personnages plus cohérents). Des tests informels populaires incluent le « Wine Glass Test » et le « Glass Burger Challenge », où GEMPIX2 (Nano Banana Pro) gère nettement mieux la transparence et la réfraction que les versions antérieures.
- Gestion du texte : Nano Banana Pro montre une typographie et un placement du texte visiblement améliorés dans les images (un point faible persistant pour de nombreux modèles d’image). Les comparaisons communautaires indiquent moins de glyphes rendus de manière illisible.
- Débit / UX : vitesse d’itération plus rapide et une UX qui effectue un raffinement multi‑étapes en back‑end afin que les utilisateurs obtiennent des résultats plus fiables dès le premier passage (réduisant les relances manuelles).
Limitations et risques
- Filtres de contenu & détection : les plateformes intégrant le modèle (p. ex., Whisk/des apps tierces) peuvent activer une détection stricte des célébrités ou des ressemblances et bloquer certaines sorties, ce qui affecte les workflows créatifs reposant sur des ressemblances réalistes de célébrités.
- Hallucinations / cas limites de raisonnement : bien que réduites, elles peuvent encore survenir, notamment avec du texte symbolique dense dans les images ou des schémas très techniques — NB2 semble toutefois diminuer ces erreurs par rapport aux versions précédentes.
- Sécurité & mésusage : les modèles de génération d’images peuvent être utilisés pour créer du contenu problématique ou nuisible. Google applique des contraintes, des filtres de contenu et le filigrane SynthID pour aider à la traçabilité ; néanmoins, des usages abusifs ont eu lieu (controverse très médiatisée liée à une image Nano Banana générée dans un contexte politiquement sensible).
Comparaison de Nano Banana Pro avec d’autres modèles
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte intégration mobile, fusion multi‑images, autocorrection itérative, 2K native/4K par suréchantillonnage, intégration étroite dans les apps Google (Search, Photos, Workspace/Gemini). Idéal pour les workflows nécessitant des retouches fiables, de la continuité et une intégration avec les services Google.
- Midjourney — excelle dans les rendus artistiques stylisés et le prompt engineering communautaire ; pas spécialement ciblé sur la fusion multi‑images photo‑réaliste ni sur des pipelines d’édition multimodaux profonds.
- Stable Diffusion / poids ouverts — totalement ouvert, hautement personnalisable et hébergeable localement ; l’écosystème de checkpoints et d’affinage est un atout décisif pour la recherche et l’usage hors‑ligne. Moins d’intégration mobile « en un clic » et moins de cohérence d’édition multi‑images prête à l’emploi que Nano Banana Pro.
- Seedream 4.0 (ByteDance) — récemment positionné explicitement comme concurrent de Nano Banana, mettant l’accent sur un rendu ultra‑rapide, des sorties 2K et la prise en charge de nombreuses images de référence (jusqu’à six). Positionné comme une alternative pro/créateurs.
(Ces comparaisons sont de haut niveau ; choisissez l’outil en fonction de votre workflow : ouverture/personnalisation → Stable Diffusion ; art stylisé → Midjourney ; édition mobile intégrée et cohérente avec itération agressive → famille Nano Banana Pro/Gemini 3 Pro Image.)
Cas d’usage réels
- Retouche photo mobile & filtres créatifs (intégrations Google Photos — restylage, fusion d’arrière‑plan, recomposition de portraits).
- Contenus marketing & publicitaires — génération rapide de concepts, personnages de marque cohérents sur plusieurs plans/angles.
- Concept art & storyboard — la fusion multi‑images aide à conserver la continuité des personnages entre les panneaux.
- E‑commerce / maquettes produit — générer des visuels produit cohérents dans différents contextes/éclairages.
- Prototypage rapide pour assets AR/VR — sorties 2K/4K de haute qualité pouvant être suréchantillonnées pour des usages immersifs.
- Comment accéder à l’API gemini-3-pro-image (Nano Banana Pro)
Étapes requises
- Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, inscrivez‑vous d’abord.
- Obtenez la clé d’API (identifiant d’accès) de l’interface. Cliquez sur « Add Token » dans la section API token de votre centre personnel, récupérez la clé de jeton : sk-xxxxx et validez.
- Récupérez l’URL de ce site : https://api.cometapi.com/
Méthode d’utilisation
- Sélectionnez le point de terminaison “
gemini-3-pro-image” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site propose également des tests Apifox pour votre commodité. - Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte.
- Insérez votre question ou demande dans le champ content — c’est à cela que le modèle répondra.
- Traitez la réponse de l’API pour obtenir la sortie générée.
CometAPI fournit une API REST entièrement compatible — pour une migration sans friction. Détails clés :
- URL de base : https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Noms de modèle :
gemini-3-pro-image - Authentification : en‑tête
Bearer YOUR_CometAPI_API_KEY - Content-Type :
application/json.