imagem_gen4 é o principal modelo de geração de imagens multimodais da Runway na família Gen-4 que oferece suporte geração solicitada mais referências visuais (você pode “@mencionar” imagens de referência) para produzir saídas altamente controláveis e estilisticamente consistentes para pipelines de imagem e imagem→vídeo.
Introdução — o que Imagem Gen-4 is
imagem_gen4 é a quarta geração da família de modelos visuais generativos da Runway, projetada para levar prompts de texto + referências visuais e produzir imagens estáticas de alta fidelidade ou quadros prontos para mídia que preservam identidade e estilo em ângulos e iluminação. O modelo é apresentado como parte de um conjunto Gen-4 mais amplo (incluindo variantes de vídeo como gen4_turbo) e é explicitamente projetado para produção criativa — por exemplo, renderização consistente de personagens, fotografia de produtos em escala, experimentação virtual e geração de ativos de jogos.
Características chave
- Geração baseada em referência (1–3 refs). Use até três imagens de referência para que o modelo possa preservar a identidade, o estilo ou a localização enquanto transforma a pose, a iluminação, o fundo, etc.
- Alta fidelidade visual (saídas prontas para produção). As saídas visam alta resolução (opções de 1080p disponíveis) com alto nível de detalhes e controle estilístico.
- Identidade e consistência da cena. Projetado para manter os mesmos personagens ou ambientes consistentes em várias gerações — útil para visuais com várias cenas ou recursos centrados nos personagens.
- Prompts multimodais (texto + imagens). Combine instruções em linguagem natural com imagens de referência para orientar composição, humor, roupas, ângulo da câmera, etc.
- Imagem → imagem mais texto → fluxos de trabalho de imagem. Funciona como imagem para imagem (edição/transformação) e como texto para imagem usando referências para manter a continuidade.
- Nível de desempenho (Turbo) disponível. Uma variante “Gen-4 Image Turbo” troca custo e velocidade (por exemplo, ~2.5× mais rápido) enquanto mantém os recursos baseados em referência.
- Controles e reprodutibilidade. As opções típicas de API incluem predefinições de proporção de aspecto, resolução (720p/1080p), seed para reprodutibilidade e tags de referência para apontar para entradas específicas.
Detalhes técnicos
Entrada: Texto/Imagem
Saídas: Imagem
fluxo de trabalho:
- Suprimentos do usuário: prompt de texto + 0–3 imagens de referência (e máscaras opcionais, quadros-chave, instruções de movimento da câmera).
- Pré-processamento: as referências são normalizadas e codificadas; o texto é tokenizado. Os embeddings de identidade/estilo são extraídos e armazenados em cache para reutilização.
- Condicionamento: os embeddings de texto e referência são fundidos na estrutura multimodal; sinais de controle opcionais (pose, profundidade, máscara) são anexados.
- Amostragem / redução de ruído: o decodificador executa iterações de redução de ruído (etapas de difusão) produzindo uma imagem (ou sequência de quadros para vídeo).
gen4_image — limites concretos
Casos extremos temporais/de movimento. Revisores e criadores relatam artefatos de movimento ocasionais, dinâmicas temporais estranhas (falhas no início/final em clipes gerados) e falhas em coreografias multiator muito complexas — teste com suas cenas alvo.
Computação, custo e filas. A geração de imagem→vídeo de alta qualidade exige muita GPU; usuários relatam tempos de fila e custos/por renderização que podem ser significativos para produção em massa. Planeje o orçamento/rendimento de acordo.
Compensações criativas versus modelos de pura arte. O ponto forte da Gen-4 é a consistência; se você precisa de resultados altamente estilizados, pictóricos ou estéticos "surpreendentes", os pontos de verificação Midjourney ou SDXL ajustados podem produzir direções de arte preferidas.
Casos de uso canônicos
- Pré-produção e storyboard: crie rapidamente variantes de personagens/cenas com estilo consistente a partir de fotos de referência.
- Marketing e geração de conteúdo: Produção rápida de imagens de heróis, clipes animados para redes sociais e recursos de campanha com personagens de marca consistentes. (A Runway lista exemplos de empresas, incluindo turnês ao vivo e videoclipes.)
- Prototipagem de jogos/ativos e experimentação virtual: gerar múltiplos ângulos de câmera, variantes de roupas e conceitos de ambiente a partir de um pequeno conjunto de referências.
Comparação com outros modelos
- gen4_image→ melhor quando você precisa consistência de referência/identidade (personagem único ou objeto mantido o mesmo em todas as tomadas) e quando você quiser imagem→vídeo e tubulações multi-shot.
- DALL·E 3 → melhor para fidelidade precisa do prompt à imagem e um fluxo de edição conversacional baseado em ChatGPT, além de trabalho de segurança/procedência integrado.
- SDXL (família de difusão estável) → melhor quando você deseja modelos abertos, ajustes finos locais/personalizados e implantação com flexibilidade de custo.
- No meio da jornada → melhor para renderizações altamente estilizadas e artisticamente agradáveis e fortes predefinições conduzidas pela comunidade / controles de “estilização”.
- Runway Gen-4 vs. ByteDance Seedream 4.0 / modelos do tipo “Nano Banana” do Google: lançamentos recentes de concorrentes (por exemplo, Seedream 4.0) enfatizam renderização ultrarrápida e tratamento multirreferência voltado para criadores comerciais; a vantagem do Runway é um pipeline de imagem→vídeo totalmente integrado e controles orientados à produção, além de um ecossistema de API e SDK maduro.
Como ligar imagem_gen4 API da CometAPI
| Preço | $0.32000 |
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Use o método
- Selecione o endpoint “gen4_image” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência.
- Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:
- Endpoint:
https://api.cometapi.com/runwayml/v1/text_to_image - Parâmetro do modelo:
gen4_image - Autenticação:
Bearer YOUR_CometAPI_API_KEY - Tipo de conteúdo:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
Veja também Pista/Ato_dois
