Nano Banana Pro — officiellement Gemini 3 Pro Image — est le nouveau modèle de génération et d’édition d’images de niveau studio de Google/DeepMind, combinant un raisonnement multimodal avancé, un rendu de texte haute fidélité, la composition multi‑images et des contrôles créatifs de niveau studio.
Qu’est‑ce que Nano Banana Pro et pourquoi s’y intéresser ?
Nano Banana Pro est le tout dernier modèle de génération et d’édition d’images de Google — la version “Gemini 3 Pro Image” — conçu pour produire des images et du texte sur l’image à haute fidélité et sensibles au contexte, avec une qualité studio jusqu’en 4K. Il succède aux précédents modèles Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) en améliorant le raisonnement, l’ancrage via la recherche (faits réels), le rendu de texte et des contrôles d’édition locale plus puissants. Le modèle est disponible dans l’application Gemini pour les utilisateurs interactifs et vous pouvez accéder à Nano Banana Pro via l’API Gemini standard, en sélectionnant l’identifiant de modèle spécifique (gemini-3-pro-image-preview ou son successeur stable) pour un accès programmatique.
Pourquoi c’est important : Nano Banana Pro n’est pas seulement conçu pour créer de belles images, mais pour visualiser l’information — infographies, instantanés pilotés par les données (météo, sport), affiches riches en texte, maquettes produit et fusions multi‑images (jusqu’à 14 images d’entrée, en maintenant la cohérence des personnages pour jusqu’à 5 personnes). Pour les designers, équipes produit et développeurs, cette combinaison de précision, de texte sur l’image et d’accès programmatique ouvre des workflows de production auparavant difficiles à automatiser.
Quelles fonctions l’API expose‑t‑elle ?
Capacités API typiques pour les développeurs :
- Génération Texte → Image (flux de composition en une ou plusieurs étapes “thinking”).
- Édition d’image (masques locaux, inpainting, ajustements de style).
- Fusion multi‑images (combiner des images de référence).
- Contrôles avancés de requête : résolution, ratio d’aspect, étapes de post‑traitement, et traces de “composition thinking” pour le débogage/l’inspection en modes preview.
Innovations et fonctions clés de Nano Banana Pro
Raisonnement de contenu plus intelligent
Exploite la pile de raisonnement de Gemini 3 Pro pour interpréter des instructions visuelles complexes et multi‑étapes (par ex. “créer une infographie en 5 étapes à partir de cet ensemble de données et ajouter une légende bilingue”). L’API expose un mécanisme “Thinking” capable de produire des tests de composition intermédiaires afin d’affiner le rendu final.
Pourquoi c’est important : au lieu d’un passage unique qui mappe prompt → pixel, le modèle effectue un processus interne de “thinking” qui affine la composition et peut appeler des outils externes (ex. Google Search) pour un ancrage factuel (par ex., libellés de diagramme exacts ou signalétique adaptée à la langue/au lieu). On obtient ainsi des images non seulement plus esthétiques mais aussi plus sémantiquement correctes pour des tâches comme les infographies, schémas ou maquettes produit.
Comment y parvenir : le “Thinking” de Nano Banana Pro est une passe contrôlée de raisonnement/composition au cours de laquelle le modèle génère des visuels intermédiaires et des traces de raisonnement avant de produire l’image finale. L’API indique que le modèle peut créer jusqu’à deux trames intermédiaires et que l’image finale constitue la dernière étape de cette chaîne. En production, cela aide pour la composition, le placement du texte et les décisions de mise en page.
Rendu de texte plus précis
Texte dans l’image nettement amélioré, lisible et localisé (menus, affiches, schémas). Nano Banana Pro atteint de nouveaux sommets dans le rendu du texte en image :
- Le texte dans les images est net, lisible et correctement orthographié ;
- Prend en charge la génération multilingue (dont le chinois, le japonais, le coréen, l’arabe, etc.) ;
- Permet d’insérer des paragraphes longs ou du texte descriptif multi‑ligne directement dans les images ;
- Traduction et localisation automatiques disponibles.
Pourquoi c’est important : traditionnellement, les modèles d’image peinent à rendre un texte lisible et bien aligné. Nano Banana Pro est explicitement optimisé pour un rendu de texte fiable et une localisation maîtrisée (ex. traduire et préserver la mise en page), ce qui ouvre des cas d’usage créatifs concrets comme des affiches, des packagings ou des publicités multilingues.
Comment y parvenir : les améliorations de rendu proviennent de l’architecture multimodale sous‑jacente et d’un entraînement sur des jeux de données mettant l’accent sur les exemples de texte dans l’image, combinés à des jeux d’évaluation ciblés (évaluations humaines et tests de régression). Le modèle apprend à aligner les formes de glyphes, polices et contraintes de mise en page pour produire un texte lisible et localisé dans l’image — bien que les très petits textes et les paragraphes extrêmement denses puissent encore être sujets aux erreurs.
Cohérence visuelle et fidélité accrues
Des contrôles de niveau studio (éclairage, mise au point, angle de caméra, étalonnage des couleurs) et la composition multi‑images (jusqu’à 14 images de référence, avec des tolérances spéciales pour plusieurs sujets humains) aident à préserver la cohérence des personnages (garder la même personne/personnage à travers les éditions) et l’identité de marque sur les assets générés. Le modèle prend en charge des sorties natives 1K/2K/4K.
Pourquoi c’est important : les workflows marketing et divertissement exigent des personnages cohérents entre les plans et les éditions. Le modèle peut maintenir la ressemblance pour jusqu’à cinq personnes et fusionner jusqu’à 14 images de référence en une seule composition tout en produisant Esquisse → Rendu 3D. Utile pour la création publicitaire, le packaging ou la narration multi‑plans.
Comment y parvenir : les entrées du modèle acceptent plusieurs images avec des attributions de rôle explicites (par ex. “Image A : pose”, “Image B : référence visage”, “Image C : texture d’arrière‑plan”). L’architecture conditionne la génération sur ces images afin de maintenir l’identité/la pose/le style tout en appliquant des transformations (éclairage, caméra).
Performances et benchmarks de Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “excelle sur les benchmarks IA Texte→Image” et démontre un raisonnement et un ancrage contextuel améliorés par rapport aux modèles Nano Banana précédents. Il met l’accent sur une fidélité plus élevée et un rendu de texte amélioré par rapport aux versions antérieures.

Conseils pratiques de performance
Attendez‑vous à une latence et un coût plus élevés pour des rendus haute fidélité 2K/4K que pour du 1K ou les modèles “Flash” optimisés pour la vitesse. Si le débit/la latence sont critiques, utilisez la variante flash (ex. Gemini 2.5 Flash / Nano Banana) pour du volume ; utilisez Nano Banana Pro / gemini-3-pro-image pour la qualité et les tâches de raisonnement complexes.
Comment les développeurs peuvent‑ils accéder à Nano Banana Pro ?
Quels endpoints et modèles choisir
Identifiant de modèle (preview / pro) : gemini-3-pro-image-preview (preview) — utilisez‑le lorsque vous voulez les capacités de Nano Banana Pro. Pour un travail plus rapide et moins coûteux, gemini-2.5-flash-image (Nano Banana) reste disponible.
Surfaces à utiliser
- Gemini API (endpoint generativelanguage) : vous pouvez utiliser une clé CometAPI pour accéder à xx. CometAPI propose la même API à un prix plus avantageux que le site officiel. Appels HTTP / SDK directs à
generateContentpour la génération d’images (exemples ci‑dessous). - Google AI Studio : interface web pour l’expérimentation rapide et le remix d’apps démo.
- Vertex AI (entreprise) : débit provisionné, options de facturation (à l’usage / niveaux entreprise) et filtres de sécurité pour la production à grande échelle. Utilisez Vertex pour l’intégration dans de grands pipelines ou des rendus par lots.
Le niveau gratuit a une limite d’utilisation ; en cas de dépassement, le service revient à Nano Banana. Les niveaux Plus/Pro/Ultra offrent des plafonds plus élevés et des sorties sans filigrane, et Ultra peut être utilisé dans les outils vidéo Flow et l’Antigravity IDE en mode 4K.
Comment générer une image avec Nano Banana Pro (étape par étape) ?
1) Recette interactive rapide pour utiliser l’app Gemini
- Ouvrez Gemini → Outils → Créer des images.
- Sélectionnez Thinking (Nano Banana Pro) comme modèle.
- Saisissez un prompt : précisez le sujet, l’action, l’ambiance, l’éclairage, la caméra, le ratio d’aspect et tout texte à faire apparaître dans l’image. Exemple :
“Crée une affiche 4K pour un atelier de robotique : une équipe diverse autour d’une table, superposition de plan technique, titre en gras « Robots en action » en sans serif, lumière tungstène chaude, faible profondeur de champ, 16:9 cinématographique.” - (Facultatif) Téléversez jusqu’à 14 images à fusionner ou à utiliser comme références. Utilisez l’outil de sélection/masque pour des éditions locales.
- Générez, itérez en langage naturel (ex. “mets le titre en bleu et aligne‑le en haut au centre ; augmente le contraste sur le plan”), puis exportez.
2) Utiliser HTTP pour envoyer vers l’endpoint image Gemini
Vous devez vous connecter à CometAPI pour obtenir la clé.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Cet exemple écrit la charge utile d’image base64 dans un fichier PNG. Le paramètre generationConfig.imageConfig.resolution demande une sortie 4K (disponible pour le modèle 3 Pro Image).
3) Appels SDK directs à generateContent pour la génération d’images
Nécessite l’installation du SDK Google et l’obtention de l’authentification Google. Exemple Python (texte + images de référence + grounding) :
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Cet exemple montre le téléversement d’une image de référence inline et la demande d’une composition 4K tout en activant google_search comme outil. Le SDK Python gérera les détails REST de bas niveau.
Fusion multi‑images et cohérence des personnages
Pour produire un composite qui préserve la même personne entre les scènes, passez plusieurs parties inline_data (sélectionnées dans votre ensemble de photos) et spécifiez une instruction créative demandant de “préserver l’identité à travers les sorties”.
Exemple pratique court — un vrai prompt et le flux attendu
Prompt :
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Flux attendu : app → modèle de prompt + données CSV → remplacer les placeholders dans le prompt → appel d’API avec image_size=2048x1152 → réception d’un PNG en base64 → enregistrement de l’asset + métadonnées de provenance → éventuellement superposer la police exacte via un compositeur si nécessaire.
Comment concevoir un pipeline de production et gérer la sécurité / la provenance ?
Architecture de production recommandée
- Prompt + passe brouillon (modèle rapide) : utilisez
gemini-2.5-flash-image(Nano Banana) pour produire de nombreuses variations en petite résolution à faible coût. - Sélection et affinage : choisissez les meilleurs candidats, affinez les prompts, appliquez des éditions par inpainting/masque pour la précision.
- Rendu final haute fidélité : appelez
gemini-3-pro-image-preview(Nano Banana Pro) pour les rendus finaux 2K/4K et le post‑traitement (upsampling, étalonnage colorimétrique). - Provenance et métadonnées : stockez le prompt, la version du modèle, les horodatages et les infos SynthID dans votre référentiel de métadonnées d’assets — le modèle attache un filigrane SynthID et les sorties peuvent être tracées pour la conformité et l’audit de contenu.
Sécurité, droits et modération
- Droits d’auteur et autorisations : n’importez ni ne générez de contenu portant atteinte aux droits. Recueillez des confirmations explicites des utilisateurs pour les images fournies par eux ou les prompts susceptibles de créer des ressemblances reconnaissables. La Prohibited Use Policy de Google et les filtres de sécurité du modèle doivent être respectés.
- Filtrage et contrôles automatisés : soumettez les images générées à un pipeline interne de modération de contenu (NSFW, symboles haineux, contenu politique/sensible) avant toute consommation en aval ou diffusion publique.
Comment réaliser l’édition d’image (inpainting), la composition multi‑images et le rendu de texte ?
Nano Banana Pro prend en charge des workflows d’édition multimodale : fournissez une ou plusieurs images d’entrée et une instruction textuelle décrivant les modifications (supprimer un objet, changer le ciel, ajouter du texte). L’API accepte image + texte dans la même requête ; le modèle peut produire des réponses mêlant texte et images. Les schémas types incluent des éditions masquées et des mélanges multi‑images (transfert de style / composition). Consultez la documentation pour les tableaux contents combinant blobs texte et images binaires.
Exemple : édition (pseudo‑flux Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Cette édition conversationnelle vous permet d’ajuster itérativement les résultats jusqu’à obtenir un asset prêt pour la production.
Exemple Node.js — édition d’image avec masque et références multiples
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Les API acceptent parfois des URI Cloud Storage ou des charges utiles d’images en base64 ; consultez la documentation de l’API Gemini pour les formats d’entrée exacts.)
Pour plus d’informations sur la génération et l’édition d’images via CometAPI, veuillez consulter le Guide d’appel de gemini-3-pro-image .
Conclusion
Nano Banana Pro (Gemini 3 Pro Image) représente une avancée de niveau production en génération d’images : un outil pour visualiser des données, produire des éditions localisées et alimenter des workflows développeurs. Utilisez l’app Gemini pour le prototypage rapide, l’API pour l’intégration en production, et suivez les recommandations ci‑dessus pour maîtriser les coûts, assurer la sécurité et maintenir la qualité de marque. Testez toujours des workflows utilisateurs réels et stockez les métadonnées de provenance pour répondre aux exigences de transparence et d’audit.
Utilisez Nano Banana Pro lorsque vous avez besoin d’assets qualité studio, d’un contrôle précis de la composition, d’un rendu de texte amélioré dans les images et de la capacité à fusionner plusieurs références en une sortie cohérente.
Les développeurs peuvent accéder à l’API Gemini 3 Pro Image( Nano Banana Pro) via CometAPI. Pour commencer, explorez les capacités du modèle deCometAPI dans le Playground et consultez le guide de l’API pour des instructions détaillées. Avant d’y accéder, assurez‑vous de vous être connecté à CometAPI et d’avoir obtenu la clé API. CometAPI propose un prix bien inférieur au tarif officiel pour faciliter votre intégration.
Prêt à démarrer ? → Inscrivez‑vous à CometAPI dès aujourd’hui !
Si vous souhaitez découvrir plus d’astuces, de guides et d’actualités sur l’IA, suivez‑nous sur VK, X et Discord !
