Grande lançamento do Google dos modelos Imagen 4, Imagen 4 Ultra e Veo 3 no Google I/O 2025

O Google está pronto para revelar seus modelos de IA generativa de próxima geração—Imagem 4, Imagem 4 Ultra e Veo 3—durante sua conferência anual de desenvolvedores Google I/O em 20 de maio de 2025. Vazamentos iniciais de identificadores de pré-visualização (por exemplo, imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) sinalizam uma implementação em etapas e múltiplos níveis de capacidade nos domínios de síntese de imagem e vídeo. O Imagen 4 visa oferecer ganhos significativos em fotorrealismo, fidelidade de prompts e consistência estilística em relação ao Imagen 3, enquanto a variante "Ultra" pode oferecer resolução ainda maior ou modos de desempenho especializados. No lado do vídeo, o Veo 3 promete continuidade de clipe a clipe mais coerente e aderência de estilo robusta em comparação ao Veo 2. Espera-se que todos os três modelos se integrem perfeitamente ao ecossistema Gemini AI do Google, permitindo transições perfeitas de prompts de texto para imagens ou vídeos dentro do mesmo fluxo de trabalho.

Identificadores de visualização e estratégia de implementação

Prévias encenadas: referências internas como

imagen-4.0-generate-preview-05-20
imagen-4.0-ultra-generate-exp-05-20
veo-3.0-generate-preview

Grande lançamento do Google dos modelos Imagen 4, Imagen 4 Ultra e Veo 3 no Google I/O 2025

Surgiram em repositórios de código e visualizações de API, indicando a intenção do Google de oferecer níveis de desempenho padrão e “Ultra” para geração de imagens, bem como uma visualização avançada do modelo de vídeo para os primeiros testadores.

Lançamento do Google I/O:

Esses identificadores sugerem fortemente que o Google irá apresentar e potencialmente conceder acesso de visualização aos desenvolvedores no I/O em 20 de maio de 2025, espelhando lançamentos anteriores do Imagen 3 e Veo 2.

Novidades no Imagen 4

Fotorrealismo e Fidelidade

Renderização aprimorada: O Imagen 4 supostamente alcança maiores detalhes fotorrealistas, reduzindo artefatos e melhorando a precisão das cores. Rumores iniciais sugerem melhorias na compreensão de comandos complexos, como iluminação diferenciada ou reflexos.
Adesão imediata: Espera-se que o modelo siga as instruções do usuário com mais precisão, fornecendo imagens que correspondam melhor às diretrizes de conteúdo e estilo (por exemplo, “pintura a óleo do pôr do sol sobre montanhas”).

Consistência de estilo

Coesão Multi-Imagem:O Imagen 4 foi projetado para manter um estilo visual consistente em várias saídas, beneficiando casos de uso como storyboard ou criação de catálogos de produtos, onde a uniformidade é essencial.
Ultra Variante: O nível “Ultra” (imagen‑4.0‑ultra) provavelmente oferece saídas de resolução mais alta ou otimizações especializadas (por exemplo, fidelidade ultra-alta para mídia impressa) para profissionais corporativos e criativos.

Novidades no Veo 3

Coerência Melhorada

Continuidade de clipe a clipe: O Veo 3 tem como objetivo gerar sequências de vídeo em que tomadas sucessivas mantêm enquadramento, iluminação e aparência dos personagens consistentes, abordando as limitações do Veo 2 em relação ao desvio visual ao longo do tempo.
Fidelidade ao estilo: O modelo se concentra em replicar estilos artísticos ou cinematográficos com mais fidelidade, facilitando a produção de vídeos com uma estética desejada (por exemplo, animação noir ou pastel).

Integração de marca d'água SynthID

Marca d'água digital:Aproveitando a tecnologia SynthID da DeepMind (introduzida com o Veo 2), o Veo 3 incorporará marcas d'água imperceptíveis para ajudar a identificar conteúdo gerado por IA e coibir o uso indevido.

Integração com Gemini AI

Acesso contínuo: Espera-se que tanto o Imagen 4 quanto o Veo 3 sejam acessíveis diretamente por meio das interfaces Gemini do Google, permitindo que os usuários gerem imagens ou vídeos em prompts baseados em bate-papo ou por meio de interfaces de produtos como Google Fotos e Google Slides.
Gemas de Gêmeos: “Gems” de IA personalizadas podem incorporar esses modelos, permitindo que os usuários criem assistentes especializados (por exemplo, um Gem de planejamento de viagens que gera imagens de itinerários e vídeos de visão geral) e os compartilhem em um mercado semelhante à GPT Store do ChatGPT.

Disponibilidade e próximos passos

Public Preview:Desenvolvedores e testadores corporativos podem receber convites para experimentar o Imagen 4 (padrão e Ultra) e o Veo 3 a partir de 20 de maio de 2025 no Google I/O, com implementação mais ampla no Labs e no Vertex AI nas semanas seguintes.

Feedback e iteração: Assim como em lançamentos anteriores, o Google provavelmente solicitará feedback dos usuários para refinar filtros de segurança, robustez de marcas d'água e otimizações de desempenho antes da disponibilidade geral.

Assista esse espaço:os desenvolvedores interessados devem monitorar o CometAPI.

A nova API do modelo será listada na CometAPI e promete oferecer preços mais baixos que os do Google para facilitar sua integração. Continue atento. Doc API.