Comment créer et éditer des images avec l'aperçu Flash de Gemini 2.0

Depuis son lancement le 7 mai 2025, les fonctionnalités d'image de Gemini 2.0 Flash sont disponibles en avant-première, permettant aux développeurs et aux créatifs de générer et d'affiner leurs visuels grâce à des conversations en langage naturel. Cet article synthétise les dernières annonces, des rapports pratiques et la documentation technique pour vous guider tout au long du processus, de la création de votre première invite d'image à la modification précise des ressources existantes. Chaque sous-rubrique pose une question clé pour orienter votre exploration, tandis que les sous-rubriques détaillent les éléments nécessaires pour commencer à créer dès aujourd'hui.

Qu'est-ce que l'aperçu Flash de Gemini 2.0 pour la génération et l'édition d'images ?

Gemini 2.0 Flash est le dernier modèle d'IA de Google, optimisé pour la vitesse (« Flash ») et les tâches multimodales. Il permet désormais la génération et l'édition d'images en aperçu via Google AI Studio et Vertex AI. Annoncé par Kat Kampf, chef de produit pour Google AI Studio, le 7 mai 2025, cet aperçu dévoile le nom du modèle. gemini-2.0-flash-preview-image-generation Grâce à l'API GenAI, des taux de requête plus élevés et une intégration transparente dans les applications sont possibles. India Today Tech confirme que les utilisateurs gratuits (via l'application Gemini) et les développeurs (via AI Studio/Vertex AI) peuvent expérimenter gratuitement ces outils améliorés, marquant ainsi une démocratisation significative de l'IA d'image avancée.

Qu'est-ce qui distingue Gemini 2.0 Flash des versions précédentes de génération d'images ?

Par rapport au modèle d'image expérimental précédemment intégré dans Gemini, Flash offre :

Fidélité visuelle améliorée:Des détails plus nets, des textures plus réalistes et une meilleure gestion des éléments fins tels que les cheveux, le feuillage et les reflets.
Rendu de texte amélioré:Place et stylise avec précision le texte dans les images, réduisant ainsi les lettres déformées et les glyphes mal alignés courants dans les versions antérieures.
Taux de blocage des filtres inférieurs:Les filtres de contenu assouplis laissent passer des invites plus bénignes, tout en appliquant la politique sur le contenu non autorisé, simplifiant ainsi les flux de travail pour les cas d'utilisation conformes.

Comment les développeurs peuvent-ils générer des images à l’aide de l’aperçu Flash de Gemini 2.0 ?

Générer des images est aussi simple que d'appeler le SDK GenAI ou l'API REST avec votre invite et de spécifier que vous souhaitez à la fois des modalités de texte et d'image.

Utiliser l'API dans Google :

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Cet extrait illustre la configuration minimale : remplacer GEMINI_API_KEY avec votre clé, ajustez le contents chaîne à votre vision créative et recevez une URL vers l'image générée.

Utiliser la génération d'images Flash Gemini 2.0 dans CometAPI

Quelles sont les meilleures pratiques d’incitation qui produisent les visuels de la plus haute qualité ?

Soyez précis sur le style et le support:« Peinture à l’aquarelle », « scène cyberpunk au néon » ou « art vectoriel minimaliste » aident le modèle à ancrer sa sortie.
Inclure des conseils de composition:Des expressions telles que « règle des tiers », « éclairage dramatique venant de la gauche » ou « sujet au premier plan bien net » guident le cadrage.
Itérer avec des invites de suivi:Utilisez les modifications conversationnelles (voir la section suivante) pour modifier l'équilibre des couleurs, ajuster les proportions ou affiner les détails sans repartir de zéro.

Comment pouvez-vous éditer des images existantes de manière conversationnelle ?

L'édition fonctionne en téléchargeant une image ou en sélectionnant un élément précédemment généré, puis en émettant des instructions en langage naturel pour modifier des zones ou des attributs spécifiques.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

Quelles fonctionnalités d’édition conversationnelle sont prises en charge ?

Modifications sélectives:Modifiez uniquement les zones désignées (par exemple, « éclaircir les yeux », « ajouter de la calligraphie au panneau ») sans affecter les pixels environnants.
Co-dessin en temps réel:Grâce à l'application d'exemple de co-dessin Gemini, plusieurs collaborateurs peuvent esquisser et annoter directement dans AI Studio, accélérant ainsi les flux de travail itératifs.
Recontextualisation: Placez des produits ou des personnages dans des scènes entièrement nouvelles, idéales pour les maquettes marketing ou le prototypage rapide de concepts visuels.
Suppression du filigrane:Les premiers utilisateurs signalent que Gemini 2.0 Flash peut supprimer les filigranes visibles et les remplacer par une marque SynthID neutre, bien que des directives d'utilisation éthique s'appliquent.

Gémeaux 2.0 Flash

Quelles limites de taux et quels tarifs s'appliquent en aperçu ?

Google a levé de nombreuses contraintes dès la phase expérimentale : les développeurs bénéficient de quotas par minute plus élevés et de tarifs de prévisualisation réduits.

Comment les limites de taux ont-elles été améliorées ?

QPS augmenté:Les requêtes par seconde ont doublé par rapport au modèle expérimental précédent, prenant en charge les charges de travail en rafale et les applications en temps réel.
Edition en masse: Gemini accepte désormais jusqu'à 10 images dans un seul lot pour l'édition, simplifiant ainsi les flux de travail qui nécessitent des ajustements de style cohérents sur plusieurs ressources.

À quoi ressemble la tarification préliminaire ?

Génération d'images:Environ 0.039 $ par image (3.9 cents), facturé par sortie unique.
Opérations d'édition:Le prix est similaire à celui des emplois de génération, avec d'autres remises prévues une fois l'aperçu terminé.

Comment accéder et configurer l'aperçu aujourd'hui ?

Connexion vers Google AI Studio ou Vertex AI dans la console Google Cloud.
Activer l'API GenAI et créez une clé API sous « Informations d’identification ».
Choisir le modèle gemini-2.0-flash-preview-image-generation dans votre code ou vos appels API.
Téléchargement images sources (en cas d'édition) via Cloud Storage ou directement dans l'interface utilisateur de Studio.
invoquer vos invites et vos résultats d'examen dans le tableau de bord Studio ou par programmation.

À quelles améliorations futures pouvons-nous nous attendre ?

Google a signalé plusieurs améliorations à venir une fois que Gemini 2.0 Flash aura dépassé la version préliminaire :

Capacités étendues

Sorties à résolution plus élevée (jusqu'à 4K+), idéal pour l'impression et les affichages à grande échelle.
Mélange de styles avancés, combinant plusieurs références artistiques dans une seule image.

Une intégration plus large

Prise en charge native dans Chrome, Docs, Slides, et d'autres applications G Suite, permettant la création et l'édition d'images en un clic.
Agents multimodaux améliorés (Projet Astra), intégrant des tâches d'image dans des conversations plus longues et contextuelles.

En permettant la génération d'images et des modifications précises via une interface conversationnelle intuitive, l'aperçu de Gemini 2.0 Flash marque une étape importante dans la création accessible et évolutive basée sur l'IA. Que vous prototypiez des visuels de produits, collaboriez sur des ressources marketing ou exploriez simplement de nouveaux horizons artistiques, l'aperçu vous offre les outils nécessaires pour itérer plus rapidement et plus efficacement que jamais. À mesure que l'aperçu évoluera vers la version complète, attendez-vous à une intégration encore plus poussée au sein de l'écosystème Google et à des fonctionnalités toujours plus sophistiquées pour propulser votre prochaine percée.

Pour commencer

Les développeurs peuvent accéder API de génération d'images Flash Exp Gemini 2.0 à travers API CometPour commencer, explorez les capacités du modèle dans le Playground et consultez le Guide de l'API (nom du modèle : gemini-2.0-flash-exp-image-generation) pour des instructions détaillées. Veuillez noter que certains développeurs devront peut-être vérifier leur organisation avant d'utiliser le modèle. L'API de pré-génération d'images Flash Gemini 2.0 sera bientôt lancée.