Funciones clave
- Generación y edición de imágenes nativas — generar imágenes o editar fotos existentes mediante indicaciones en lenguaje natural. (Generar / Editar).
- Fusión de múltiples imágenes — combinar varias imágenes de entrada en una sola escena fotorrealista.
- Consistencia de personaje — mantener el mismo sujeto o la apariencia del personaje en ediciones y indicaciones. (Consistencia).
- Marcado con SynthID — todos los resultados incluyen un SynthID invisible para identificar contenido generado por IA. (Marca de agua).
Detalles técnicos
- Arquitectura y posicionamiento: construido sobre la familia Gemini 2.5 Flash — diseñado como una variante de baja latencia "Flash" que intercambia un poco de tamaño del modelo/rendimiento por respuestas por llamada mucho más rápidas y eficiencia de costos, manteniendo un razonamiento más sólido que niveles Flash anteriores.
- Formatos de entrada y límites: acepta imágenes base64 en línea para entradas pequeñas y cargas de archivos mediante la File API para imágenes más grandes (recomendado para >20 MB). Admite tipos MIME comunes (JPEG, PNG).
- Modos de operación: texto a imagen, edición de imágenes (inpainting / enmascarado semántico), transferencia de estilo, composición de múltiples imágenes y respuestas intercaladas de texto+imagen (útiles para instrucciones ilustradas, recetas o contenido mixto).
- Mecanismos de procedencia y seguridad: marcas de agua visibles en los resultados de IA, además de marcadores SynthID ocultos y capas de aplicación de políticas para limitar contenido explícitamente no permitido.
Limitaciones y riesgos conocidos
- Restricciones de políticas de contenido: los modelos aplican políticas de contenido (p. ej., prohibir contenido sexual explícito y cierto contenido ilícito), pero la aplicación no es perfecta — la generación de imágenes de figuras públicas o iconos controvertidos aún puede ser posible en algunos escenarios, por lo que las comprobaciones de políticas son esenciales. )
- Modos de fallo: posible deriva de identidad en ediciones extremas, desalineación semántica ocasional (cuando las indicaciones están subespecificadas) y artefactos en escenas muy complejas o cambios extremos de punto de vista.
- Procedencia y uso indebido: aunque las marcas de agua y SynthID están presentes, estas no previenen el uso indebido — ayudan a la detección y atribución, pero no sustituyen la revisión humana en flujos de trabajo sensibles.
Casos de uso típicos
- Producto y comercio electrónico: ubicar/catalogar productos en imágenes de estilo de vida mediante fusión de múltiples imágenes.
- Herramientas creativas / diseño: iteraciones rápidas en aplicaciones de diseño (se menciona integración con Adobe Firefly).
- Edición y retoque fotográfico: ediciones localizadas a partir de lenguaje natural (eliminar objetos, cambiar color/iluminación, cambiar estilo).
- Narrativa / recursos de personajes: mantener personajes consistentes en paneles y escenas.