Comment utiliser l'API Nano Banana Pro (image Gemini 3 Pro) ?

CometAPI
AnnaDec 10, 2025
Comment utiliser l'API Nano Banana Pro (image Gemini 3 Pro) ?

Nano Banana Pro — officiellement Image Gemini 3 Pro — est le nouveau modèle de génération et d'édition d'images de qualité studio de Google/DeepMind qui combine un raisonnement multimodal avancé, un rendu de texte haute fidélité, une composition multi-images et des commandes créatives de niveau studio.

Qu'est-ce que Nano Banana Pro et pourquoi devriez-vous vous en soucier ?

Nano Banana Pro est le tout dernier modèle de génération et d'édition d'images de Google (la version « Gemini 3 Pro Image »), conçu pour produire des images haute fidélité, contextuelles et textuelles, avec une qualité studio jusqu'à 4K. Il succède aux précédents modèles Nano Banana (Gemini 2.5 Flash Image / « Nano Banana ») et offre un raisonnement amélioré, un ancrage de la recherche (faits du monde réel), un rendu de texte plus performant et des commandes d'édition locale plus puissantes. Ce modèle est disponible dans l'application Gemini pour les utilisateurs interactifs et Nano Banana Pro est accessible via l'API Gemini standard. Vous pouvez sélectionner l'identifiant spécifique du modèle (gemini-3-pro-image-preview ou son successeur stable). pour l'accès programmatique.

Pourquoi c'est important : Nano Banana Pro n'est pas seulement conçu pour créer de jolies images, mais aussi pour… visualiser les informations — Infographies, instantanés basés sur les données (météo, sports), affiches riches en texte, maquettes de produits et fusions multi-images (jusqu'à 14 images d'entrée et maintien de la cohérence des caractères pour un maximum de 5 personnes). Pour les concepteurs, les équipes produit et les développeurs, cette combinaison de précision, de texte sur l'image et d'accès programmatique ouvre des flux de production auparavant difficiles à automatiser.

Quelles sont les fonctions accessibles via l'API ?

Les fonctionnalités typiques des API mises à la disposition des développeurs incluent :

  • Texte → Génération d'images (flux de composition « réfléchissants » en une ou plusieurs étapes).
  • L'édition d'image (masques locaux, retouches, ajustements de style).
  • Fusion multi-images (combiner les images de référence).
  • Contrôles de requête avancés: résolution, format d'image, étapes de post-traitement et traces de « réflexion sur la composition » pour le débogage/l'inspectabilité en modes aperçu.

Innovations et fonctionnalités clés de Nano Banana Pro

Raisonnement de contenu plus intelligent

Utilise la pile de raisonnement de Gemini 3 Pro pour interpréter des instructions visuelles complexes en plusieurs étapes (par exemple : « créez une infographie en 5 étapes à partir de cet ensemble de données et ajoutez une légende bilingue »). L’API expose un mécanisme de « réflexion » capable de générer des tests de composition intermédiaires afin d’affiner le résultat final.

Pourquoi c'est important: Au lieu d'une simple conversion image par image, le modèle effectue un processus de réflexion interne qui affine la composition et peut faire appel à des outils externes (par exemple, la recherche Google) pour vérifier l'exactitude des informations (par exemple, des étiquettes de diagramme précises ou une signalétique adaptée au contexte local). Il en résulte des images non seulement plus esthétiques, mais aussi plus pertinentes sémantiquement pour des tâches telles que les infographies, les diagrammes ou les maquettes de produits.

Comment y parvenir : La fonction « Thinking » de Nano Banana Pro est un processus interne contrôlé de raisonnement et de composition. Le modèle génère des visuels intermédiaires et des traces de raisonnement avant de produire l'image finale. L'API indique que le modèle peut créer jusqu'à deux images intermédiaires et que l'image finale constitue la dernière étape de ce processus. En production, cela facilite la composition, le placement du texte et la mise en page.

Rendu de texte plus précis

Amélioration significative de la lisibilité et de la localisation du texte dans les images (menus, affiches, diagrammes). Nano Banana Pro atteint de nouveaux sommets en matière de rendu de texte dans les images :

  • Le texte dans les images est clair, lisible et correctement orthographié ;
  • Prend en charge la génération multilingue (y compris le chinois, le japonais, le coréen, l'arabe, etc.) ;
  • Permet aux utilisateurs d'écrire de longs paragraphes ou du texte descriptif multiligne directement dans les images ;
  • La traduction et la localisation automatiques sont disponibles.

Pourquoi c'est important: Les modèles d'images traditionnels peinent à afficher un texte lisible et bien aligné. Nano Banana Pro est spécifiquement optimisé pour un rendu et une localisation fiables du texte (par exemple, la traduction et la préservation de la mise en page), ce qui ouvre la voie à des applications créatives concrètes telles que les affiches, les emballages ou les publicités multilingues.

Comment y parvenir : L'amélioration du rendu du texte repose sur l'architecture multimodale sous-jacente et l'entraînement sur des jeux de données privilégiant les exemples de texte dans les images, combinés à des ensembles d'évaluation ciblés (évaluations humaines et ensembles de régression). Le modèle apprend à aligner les formes des glyphes, les polices et les contraintes de mise en page pour produire un texte lisible et localisé dans les images ; toutefois, les petits caractères et les paragraphes très denses peuvent encore présenter des erreurs.

Cohérence et fidélité visuelles accrues

Les commandes de studio (éclairage, mise au point, angle de prise de vue, étalonnage des couleurs) et la composition multi-images (jusqu'à 14 images de référence, avec des exceptions pour les personnages multiples) permettent de préserver la cohérence des personnages (en conservant la même personne/le même personnage lors des modifications) et l'identité de marque dans tous les éléments générés. Le modèle prend en charge les sorties natives 1K/2K/4K.

Pourquoi c'est important: Les processus de marketing et de divertissement exigent des personnages cohérents d'une prise de vue à l'autre et au montage. Le modèle peut conserver une ressemblance jusqu'à cinq les gens et se mélanger jusqu'à 14 Intégrez des images de référence dans une composition unique lors de la création d'un rendu 3D (Esquisse → Rendu 3D). Cette technique est utile pour la création publicitaire, le packaging ou la narration visuelle en plusieurs plans.

Comment y parvenir : Les entrées du modèle acceptent plusieurs images avec des rôles explicitement attribués (par exemple : « Image A : pose », « Image B : référence du visage », « Image C : texture d’arrière-plan »). L’architecture conditionne la génération à partir de ces images afin de préserver l’identité, la pose et le style tout en appliquant des transformations (éclairage, caméra).

Évaluation des performances de Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) excelle sur les benchmarks d'IA Texte→Image et démontre une capacité de raisonnement et un ancrage contextuel améliorés par rapport aux modèles Nano Banana précédents. Il se distingue par une fidélité accrue et un rendu du texte amélioré.

Comment utiliser l'API Nano Banana Pro (image Gemini 3 Pro) ?

Conseils pratiques en matière de performance

SAVOIR-FAIRE latence plus élevée Le coût est plus élevé pour les rendus haute fidélité 2K/4K que pour les rendus 1K ou les modèles « Flash » optimisés pour la vitesse. Si le débit et la latence sont critiques, utilisez la version Flash (par exemple, Gemini 2.5 Flash / Nano Banana) pour les volumes importants ; utilisez Nano Banana Pro / gemini-3-pro-image pour les tâches de haute qualité et les calculs complexes.

Comment les développeurs peuvent-ils accéder à Nano Banana Pro ?

Quels points de terminaison et quels modèles choisir

Identifiant du modèle (aperçu / pro) : gemini-3-pro-image-preview (Aperçu) — Utilisez cette option lorsque vous souhaitez bénéficier des fonctionnalités du Nano Banana Pro. Pour un travail plus rapide et moins coûteux, gemini-2.5-flash-image (Nano Banana) reste disponible.

Surfaces à utiliser

  • API Gemini (point de terminaison du langage génératif) : Vous pouvez utiliser une clé CometAPI pour accéder à xx. CometAPI propose la même API à un prix plus avantageux que le site web officiel. Appels HTTP/SDK directs vers generateContent pour la génération d'images (exemples ci-dessous).
  • Google IA Studio : Surface web pour l'expérimentation rapide et le remixage d'applications de démonstration.
  • Vertex AI (entreprise) : Débit provisionné, options de facturation (paiement à l'utilisation / forfaits entreprise) et filtres de sécurité pour la production à grande échelle. Utilisez Vertex pour l'intégration dans des pipelines complexes ou des tâches de rendu par lots.

La version gratuite est soumise à des limites d'utilisation ; au-delà, le logiciel repasse en mode Nano Banana. Les versions Plus/Pro/Ultra offrent des limites plus élevées et une sortie sans filigrane, mais la version Ultra est compatible avec les outils vidéo Flow et l'IDE Antigravity en mode 4K.

Comment générer une image avec Nano Banana Pro (étape par étape) ?

1) Recette interactive rapide à utiliser avec l'application Gemini

  1. Ouvrir Gemini → Outils → Créer des images.
  2. Choisir Réflexion (Nano Banana Pro) comme modèle.
  3. Saisissez une consigne : décrivez le sujet, l’action, l’ambiance, l’éclairage, l’appareil photo, le format d’image et tout texte à afficher sur l’image. Exemple :
    « Créez une affiche 4K d'un atelier de robotique : une équipe diversifiée autour d'une table, un plan superposé, le titre en gras « Robots en action » en caractères sans empattement, une lumière chaude de type tungstène, une faible profondeur de champ, un format cinématographique 16:9. »
  4. (Facultatif) Importez jusqu'à 14 images à fusionner ou à utiliser comme références. Utilisez l'outil de sélection/masque pour modifier localement certaines zones.
  5. Générer, itérer avec le langage naturel (par exemple : « mettre le titre en bleu et l’aligner en haut au centre ; augmenter le contraste sur le plan »), puis exporter

2) Utiliser HTTP pour envoyer au point de terminaison d'image Gemini

Vous devez vous connecter à CometAPI pour obtenir la clé.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Cet exemple écrit la charge utile d'image base64 dans un fichier PNG. generationConfig.imageConfig.resolution Le paramètre suivant demande une sortie 4K (disponible pour le modèle 3 Pro Image)

3) Appels directs du SDK à generateContent pour la génération d'images

Nécessite l'installation du SDK Google et l'obtention d'une authentification Google. Exemple Python (texte + images de référence + mise à la terre) :

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Cet exemple montre comment télécharger une image de référence intégrée et demander une composition 4K tout en activant google_search en tant qu'outil. Le SDK Python gérera les détails REST de bas niveau.

Fusion multi-images et cohérence des caractères

Pour produire un composite qui conserve la même personne d'une scène à l'autre, passez plusieurs inline_data parties (sélectionnées dans votre ensemble de photos), et précisez la consigne créative selon laquelle le modèle doit « préserver son identité dans toutes les productions ».

Bref exemple pratique — un flux réel et attendu

Prompt :
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline prévu : application → modèle d'invite + données CSV → remplacer les espaces réservés dans l'invite → appel API avec image_size=2048x1152 → recevoir un PNG base64 → enregistrer la ressource + les métadonnées de provenance → superposer éventuellement la police exacte via le compositeur si nécessaire.

Comment concevoir un pipeline de production et gérer la sécurité et la provenance ?

architecture de production recommandée

  1. Passage rapide + brouillon (modèle rapide) : Utilisez le gemini-2.5-flash-image (Nano Banana) pour produire à moindre coût de nombreuses variations à petite résolution.
  2. Sélection et perfectionnement : Sélectionner les meilleurs candidats, affiner les invites, appliquer des retouches de remplissage/masquage pour plus de précision.
  3. Rendu final haute fidélité : nous appeler gemini-3-pro-image-preview (Nano Banana Pro) pour les rendus finaux 2K/4K et le post-traitement (suréchantillonnage, étalonnage des couleurs).
  4. Provenance et métadonnées : Stockez l'invite, la version du modèle, les horodatages et les informations SynthID dans votre magasin de métadonnées d'actifs — le modèle appose un filigrane SynthID et les sorties peuvent être retracées à des fins de conformité et d'audit de contenu.

Sécurité, droits et modération

  • Autorisation de droits d'auteur et de droits de propriété intellectuelle : Ne téléchargez ni ne générez de contenu portant atteinte aux droits d'auteur. Utilisez des confirmations explicites pour les images fournies par l'utilisateur ou des messages pouvant créer des ressemblances reconnaissables. Le règlement de Google relatif aux contenus interdits et les filtres de sécurité des modèles doivent être respectés.
  • Filtrage et contrôles automatisés : Les images générées sont soumises à un processus interne de modération de contenu (détection de contenu NSFW, de symboles haineux et de contenu politique/contraignant) avant leur utilisation ultérieure ou leur affichage public.

Comment effectuer la retouche d'images (inpainting), la composition multi-images et le rendu de texte ?

Nano Banana Pro prend en charge les flux de travail d'édition multimodaux : fournissez une ou plusieurs images d'entrée et une instruction textuelle décrivant les modifications (supprimer un objet, modifier le ciel, ajouter du texte). L'API accepte une image et du texte dans la même requête ; le modèle peut produire des réponses contenant du texte et des images entrelacés. Parmi les exemples, citons les modifications masquées et les fusions d'images (transfert de style/composition). Consultez la documentation pour plus d'informations. contents tableaux combinant des blocs de texte et des images binaires.

Exemple : Modifier (pseudo-flux Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Ce système de montage conversationnel vous permet d'ajuster les résultats de manière itérative jusqu'à obtenir un fichier prêt pour la production.

Exemple Node.js — Édition d'image avec masque et références multiples

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(Les API acceptent parfois les URI de stockage cloud ou les charges utiles d'images base64 ; consultez la documentation de l'API Gemini pour connaître les formats d'entrée exacts.)

Pour plus d'informations sur la génération et la modification d'images à l'aide de l'API Comet, veuillez consulter : Guide pour appeler l'image Gemini-3 Pro .

Conclusion

Nano Banana Pro (Gemini 3 Pro Image) représente une avancée majeure dans la génération d'images professionnelles : un outil pour visualiser les données, effectuer des modifications localisées et optimiser les flux de travail des développeurs. Utilisez l'application Gemini pour un prototypage rapide, l'API pour l'intégration en production et suivez les recommandations ci-dessus pour maîtriser les coûts, garantir la sécurité et préserver la qualité de votre marque. Testez systématiquement les flux de travail des utilisateurs réels et conservez les métadonnées de provenance pour répondre aux exigences de transparence et d'audit.

Utilisez Nano Banana Pro lorsque vous en avez besoin qualité studio ressources, contrôle précis de la composition, rendu de texte amélioré à l'intérieur des images et possibilité de fusionner plusieurs références en une seule sortie cohérente.

Les développeurs peuvent accéder Image Gemini 3 Pro (Nano Banana Pro) API via CometAPI. Pour commencer, explorez les capacités du modèle deAPI Comet dans le cour de récréation Consultez le guide de l'API pour des instructions détaillées. Avant d'accéder à CometAPI, assurez-vous d'être connecté à CometAPI et d'avoir obtenu la clé API. AvecetAPI proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Prêt à partir ?→ Inscrivez-vous à CometAPI dès aujourd'hui !

Si vous souhaitez connaître plus de conseils, de guides et d'actualités sur l'IA, suivez-nous sur VKX et Discord!

SHARE THIS BLOG

500+ Modèles en Une API

Jusqu'à 20% de réduction