Google presenta los modelos Imagen 4, Imagen 4 Ultra y Veo 3 en Google I/O 2025

Google se dispone a presentar sus modelos de IA generativa de próxima generación.Imagen 4, Imagen 4 Ultra e Veo 3—durante su conferencia anual para desarrolladores Google I/O el 20 de mayo de 2025. Fugas tempranas de identificadores de vista previa (por ejemplo, imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) indican un lanzamiento gradual y múltiples niveles de capacidad en los dominios de síntesis de imagen y video. Imagen 4 busca ofrecer mejoras significativas en fotorrealismo, fidelidad de la señal y consistencia estilística en comparación con Imagen 3, mientras que la variante "Ultra" podría ofrecer una resolución aún mayor o modos de rendimiento especializados. En cuanto a video, Veo 3 promete una continuidad clip a clip más coherente y una sólida adherencia al estilo en comparación con Veo 2. Se espera que los tres modelos se integren estrechamente con el ecosistema de IA Gemini de Google, lo que permitirá transiciones fluidas de indicaciones de texto a imágenes o videos dentro del mismo flujo de trabajo.

Identificadores de vista previa y estrategia de implementación

Vistas previas en escena: referencias internas como

imagen-4.0-generate-preview-05-20
imagen-4.0-ultra-generate-exp-05-20
veo-3.0-generate-preview

Google presenta los modelos Imagen 4, Imagen 4 Ultra y Veo 3 en Google I/O 2025

Han aparecido en repositorios de código y vistas previas de API, lo que indica la intención de Google de ofrecer niveles de rendimiento estándar y “Ultra” para la generación de imágenes, así como una vista previa del modelo de video avanzado para los primeros evaluadores.

Lanzamiento de Google I/O:

Estos identificadores sugieren firmemente que Google exhibirá y potencialmente otorgará acceso de vista previa a los desarrolladores en I/O el 20 de mayo de 2025, reflejando lanzamientos anteriores de Imagen 3 y Veo 2.

Novedades en Imagen 4

Fotorrealismo y fidelidad

Representación mejoradaSegún se informa, Imagen 4 logra un mayor detalle fotorrealista, reduciendo los artefactos y mejorando la precisión del color. Los primeros rumores sugieren mejoras en la comprensión de indicaciones complejas, como la iluminación matizada o los reflejos.
Cumplimiento inmediato:Se espera que el modelo siga las instrucciones del usuario con mayor precisión, entregando imágenes que coincidan mejor con las directivas de contenido y estilo (por ejemplo, “pintura al óleo de una puesta de sol sobre las montañas”).

Coherencia de estilo

Cohesión de múltiples imágenes:Imagen 4 está diseñado para mantener un estilo visual consistente en múltiples salidas, lo que beneficia casos de uso como el guion gráfico o la creación de catálogos de productos, donde la uniformidad es fundamental.
Variante Ultra:El nivel “Ultra” (imagen‑4.0‑ultra) probablemente ofrece salidas de mayor resolución u optimizaciones especializadas (por ejemplo, ultra alta fidelidad para medios impresos) para empresas y profesionales creativos.

Novedades de Veo 3

Coherencia mejorada

Continuidad de clip a clip:Veo 3 tiene como objetivo generar secuencias de video donde las tomas sucesivas mantienen un encuadre, una iluminación y una apariencia de los personajes consistentes, abordando las limitaciones de Veo 2 en torno a la deriva visual a lo largo del tiempo.
Fidelidad de estilo:El modelo se centra en replicar estilos artísticos o cinematográficos con mayor fidelidad, lo que facilita la producción de vídeos con la estética deseada (por ejemplo, animación noir o pastel).

Integración de la marca de agua SynthID

Marca de agua digitalAprovechando la tecnología SynthID de DeepMind (introducida con Veo 2), Veo 3 incorporará marcas de agua imperceptibles para ayudar a identificar contenido generado por IA y frenar el uso indebido.

Integración con Gemini AI

Acceso sin interrupcionesSe espera que tanto Imagen 4 como Veo 3 sean directamente accesibles a través de las interfaces Gemini de Google, lo que permitirá a los usuarios generar imágenes o videos dentro de indicaciones basadas en chat o a través de interfaces de productos como Google Photos y Google Slides.
Gemas de Géminis:Las “Gemas” de IA personalizadas pueden incorporar estos modelos, lo que permite a los usuarios crear asistentes especializados (por ejemplo, una Gema de planificación de viajes que genera imágenes de itinerarios y videos de descripción general) y compartirlos en un mercado similar a la Tienda GPT de ChatGPT.

Disponibilidad y próximos pasos

Public Preview:Los desarrolladores y evaluadores empresariales pueden recibir invitaciones para experimentar con Imagen 4 (estándar y Ultra) y Veo 3 a partir de ahora. 20 de mayo de 2025 en Google I/O, con un lanzamiento más amplio en Labs y Vertex AI en las próximas semanas.

Comentarios e iteración:Al igual que en lanzamientos anteriores, es probable que Google solicite comentarios de los usuarios para refinar los filtros de seguridad, la solidez de las marcas de agua y las optimizaciones de rendimiento antes de la disponibilidad general.

Mira este espacio:Los desarrolladores interesados deben monitorear la CometAPI.

La nueva API del modelo estará disponible en CometAPI y se promete ofrecer precios más bajos que los de Google para facilitar su integración. Continúe prestando atención. Documento API.