Fonctionnalités clés
- Génération et édition natives d’images — générer des images ou modifier des photos existantes via des prompts en langage naturel. (Générer / Modifier).
- Fusion multi‑images — combiner plusieurs images d’entrée en une scène photoréaliste.
- Cohérence des personnages — conserver la même apparence du sujet ou du personnage entre les modifications et les prompts. (Cohérence).
- Filigrane SynthID — toutes les sorties incluent un SynthID invisible pour identifier le contenu généré par IA. (Filigrane).
Détails techniques
- Architecture et positionnement : basé sur la famille Gemini 2.5 Flash — conçu comme une variante « Flash » à faible latence qui échange un peu de taille de modèle/de débit contre des réponses par appel bien plus rapides et une efficience des coûts, tout en conservant un raisonnement plus solide que les niveaux Flash antérieurs.
- Formats d’entrée et limites : accepte des images base64 inline pour les petits inputs et des téléversements de fichiers via la File API pour des images plus volumineuses (recommandé pour >20 MB). Prend en charge les types MIME courants (JPEG, PNG).
- Modes de fonctionnement : texte‑vers‑image, édition d’image (inpainting / masquage sémantique), transfert de style, composition multi‑images, et réponses texte+image entrelacées (utile pour des instructions illustrées, des recettes ou des contenus mixtes).
- Provenance et mécanismes de sécurité : filigranes visibles sur les sorties IA, plus des marqueurs SynthID cachés et des couches d’application des politiques pour limiter les contenus explicitement interdits.
Limitations et risques connus
- Contraintes des politiques de contenu : les modèles appliquent des politiques de contenu (p. ex., interdisant le contenu sexuel explicite et certains contenus illicites), mais l’application n’est pas parfaite — la génération d’images de personnalités publiques ou d’icônes controversées peut encore être possible dans certains scénarios, donc les vérifications des politiques sont essentielles. )
- Modes de défaillance : dérive d’identité possible dans des modifications extrêmes, désalignement sémantique occasionnel (quand les prompts sont sous‑spécifiés), et artefacts dans des scènes très complexes ou lors de changements de point de vue extrêmes.
- Provenance et mésusage : bien que des filigranes et SynthID soient présents, cela ne prévient pas les usages abusifs — ils facilitent la détection et l’attribution mais ne remplacent pas la revue humaine dans les flux de travail sensibles.
Cas d’utilisation typiques
- Produits et e‑commerce : placer/cataloguer des produits dans des photos lifestyle via la fusion multi‑images.
- Outils créatifs / design : itérations rapides dans des applications de design (intégration Adobe Firefly citée).
- Édition et retouche photo : modifications localisées à partir de langage naturel (supprimer des objets, changer la couleur/l’éclairage, changer de style).
- Narration / ressources de personnages : maintenir des personnages cohérents à travers les vignettes et les scènes.