Principais recursos
- Geração e edição nativas de imagens — gerar imagens ou editar fotos existentes por meio de prompts em linguagem natural. (Gerar / Editar).
- Fusão de múltiplas imagens — combinar várias imagens de entrada em uma cena fotorrealista.
- Consistência de personagem — manter a mesma aparência do sujeito ou personagem ao longo de edições e prompts. (Consistência).
- Marca d'água SynthID — todas as saídas incluem um SynthID invisível para identificar conteúdo gerado por IA. (Marca d'água).
Detalhes técnicos
- Arquitetura e posicionamento: construído sobre a família Gemini 2.5 Flash — projetado como uma variante “Flash” de baixa latência que troca um pouco de tamanho de modelo/taxa de transferência por respostas muito mais rápidas por chamada e eficiência de custo, mantendo raciocínio mais forte do que níveis Flash anteriores.
- Formatos de entrada e limites: aceita imagens base64 inline para entradas pequenas e envio de arquivos via a File API para imagens maiores (recomendado para >20 MB). Suporta tipos MIME comuns (JPEG, PNG).
- Modos de operação: texto para imagem, edição de imagem (inpainting / mascaramento semântico), transferência de estilo, composição de múltiplas imagens e respostas de texto+imagem intercaladas (úteis para instruções ilustradas, receitas ou conteúdo misto).
- Mecanismos de proveniência e segurança: marcas d'água visíveis nas saídas de IA, além de marcadores SynthID ocultos e camadas de aplicação de políticas para limitar conteúdo explicitamente proibido.
Limitações e riscos conhecidos
- Restrições de política de conteúdo: os modelos aplicam políticas de conteúdo (por exemplo, proíbem conteúdo sexual explícito e alguns conteúdos ilícitos), mas a aplicação não é perfeita — gerar imagens de figuras públicas ou ícones controversos ainda pode ser possível em alguns cenários, portanto, as verificações de políticas são essenciais. )
- Modos de falha: possível desvio de identidade em edições extremas, desalinhamento semântico ocasional (quando os prompts são subespecificados) e artefatos em cenas muito complexas ou mudanças extremas de ponto de vista.
- Proveniência e uso indevido: embora as marcas d'água e o SynthID estejam presentes, elas não impedem o uso indevido — auxiliam na detecção e atribuição, mas não substituem a revisão humana em fluxos de trabalho sensíveis.
Casos de uso típicos
- Produto e ecommerce: colocar/catalogar produtos em fotos de estilo de vida via fusão de múltiplas imagens.
- Ferramentas criativas / design: iterações rápidas em apps de design (integração com Adobe Firefly citada).
- Edição e retoque de fotos: edições localizadas a partir de linguagem natural (remover objetos, alterar cor/iluminação, mudar o estilo).
- Narrativa / recursos de personagens: manter personagens consistentes em painéis e cenas.