A entrada do Midjourney em vídeo tem sido uma das maiores histórias de tecnologia criativa de 2025. O que começou como uma ferramenta amada focada em imagens adicionou um fluxo “Imagem para Vídeo” que transforma fotos em clipes animados curtos — e o sistema está mudando rapidamente.
A capacidade de vídeo do Midjourney é um fluxo de imagem para vídeo que anima uma única imagem em um clipe curto via um fluxo “Animate”, produzindo clipes de cinco segundos por padrão e permitindo extensões de até ~21 segundos. O recurso foi lançado em meados de 2025 como o modelo de vídeo V1 do Midjourney e está disponível através do Midjourney Video V1 API do CometAPI.
O que é o Midjourney V1
O que o Midjourney V1 faz e como é disponibilizado aos usuários
O modelo de vídeo V1 do Midjourney transforma uma única imagem fixa (gerada dentro do Midjourney ou hospedada externamente) em clipes animados curtos — por padrão cerca de 5 segundos — usando modos de animação automáticos ou manuais e sinalizadores de intensidade de movimento (--motion low / --motion high). Os usuários podem estender clipes em incrementos de 4 segundos (até ~21 segundos) e controlar tamanho de lote, looping e frames finais; as saídas de vídeo são MP4. O modelo V1 de Vídeo do Midjourney é um modelo de imagem para vídeo otimizado para clipes curtos, estilizados e repetíveis. Características típicas do modelo V1 incluem:
- Duração base do clipe ~5 segundos, com um mecanismo de extensão controlada (incrementos de 4 segundos, até um limite documentado).
- Ênfase em preservar o estilo artístico da imagem de origem (trabalho de pincel, cor, clima).
- Compensações de resolução e qualidade para iteração rápida; o V1 é voltado para conteúdo social e web em vez de saída cinematográfica completa.
Essas restrições moldam como você projeta assets e prompts: o V1 é melhor usado para movimento conciso, fotos animadas, loops de produto hero ou pequenas vinhetas de personagens, em vez de cenas longas.
Como o CometAPI disponibiliza o modelo de Vídeo do Midjourney
O CometAPI é um gateway multimodelo que agrega acesso a centenas de modelos de IA (texto, imagem, áudio e agora imagem para vídeo) por trás de uma única superfície REST. Sua oferta Midjourney Video encapsula a capacidade de Vídeo V1 do Midjourney para que engenheiros possam chamar a geração de imagem para vídeo de forma programática, em vez de depender apenas de interação via Discord/web. Isso torna útil para automatizar pipelines criativos, construir provas de conceito e integrar assets animados curtos em aplicativos ou fluxos de produção de conteúdo.
O Midjourney Video do CometAPI permite que desenvolvedores se autentiquem, chamem um endpoint /mj/submit/video e passem parâmetros como o prompt (que pode incluir uma URL de imagem inicial), videoType (por exemplo, vid_1.1_i2v_480), mode (fast/relax) e animateMode (automatic/manual). O CometAPI tem preço por chamada menor e conveniência (chave única de API + interface REST) em comparação com a integração direta via fluxo centrado em Discord do Midjourney.
Como me preparar antes de chamar a API?
Quais credenciais e contas eu preciso?
- Cadastre-se no CometAPI e gere uma chave de API no painel da sua conta (o CometAPI usa um token bearer como
sk-xxxxx). - Certifique-se de que você tem assets de imagem disponíveis online (uma URL publicamente acessível) se planeja usar imagens externas como frame inicial. O Midjourney precisa de URLs alcançáveis para fluxos de imagem→vídeo externos.
Decisões a tomar de antemão
- Imagem inicial — escolha uma imagem com um assunto e composição claros; a proporção afeta a resolução/proporção do vídeo final (o Midjourney mapeia proporções iniciais para tamanhos de pixel SD/HD).
- Estilo de movimento — decida movimento Baixo vs Alto (
--motion lowvs--motion high) e se você quer inferência automática ou controle manual do movimento da câmera/sujeito. - Duração e tamanho de lote — o padrão é 5 segundos; você pode estender até ~21s. O tamanho de lote padrão é 4 (o Midjourney retorna 4 variantes), mas você pode solicitar 1 ou 2 para economizar computação.
- Resolução — o V1 é principalmente SD (480p) por padrão; HD (720p) requer descrição de parâmetro, como vid_1.1_i2v_480.
Como chamar o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?
Qual é o payload mínimo da requisição?
No mínimo, você envia:
prompt: a URL da imagem inicial e um prompt textual opcional de movimento (por exemplo,"https://.../frame.png add a dog running from left to right").videoType: por exemplo,vid_1.1_i2v_480.mode:"fast"(ou"relax"se permitido pelo plano).animateMode:"automatic"ou"manual".
Este é um curl de exemplo ilustrando um POST para https://api.cometapi.com/mj/submit/video. Aqui está um exemplo curl limpo e pronto para copiar, adaptado do exemplo do CometAPI:
curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": "https://cdn.midjourney.com/example/0_0.png Uma cena tranquila à beira-mar — a câmera faz um zoom out lentamente e uma gaivota passa",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Exemplo em Python (requests)
Se você preferir Python, aqui está um exemplo robusto usando requests que envia um job de vídeo e faz polling até a conclusão (substitua os placeholders). Este é um padrão prático: enviar → fazer polling → baixar. O exemplo abaixo é intencionalmente simples e deve ser adaptado ao sistema de jobs/assíncrono do seu app em produção.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": "https://cdn.midjourney.com/example/0_0.png Uma rua calma da cidade — a câmera faz pan para a esquerda, chuva caindo",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Enviar job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Fazer polling até concluir (exemplo de polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # fazer polling até ~60 vezes
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Vídeo pronto:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Falha na geração de vídeo: " + str(st))
time.sleep(2)
Como adicionar áudio (voz, música, efeitos sonoros) a um vídeo do Midjourney/CometAPI?
O Midjourney produz áudio nativamente?
Não — no V1, a saída de vídeo do Midjourney é silenciosa (MP4 sem áudio incorporado). Os usuários adicionam som externamente. (Existem outros sistemas de IA que geram áudio/vídeo juntos, mas o V1 do Midjourney foca no movimento visual.)
Pipelines recomendados para adicionar voz e som
- Text-to-Speech (TTS) para narração/voz — Use ElevenLabs, Replica ou serviços semelhantes de clonagem de voz/TTS para gerar faixas de fala a partir de roteiros. Esses serviços permitem produzir estilos de fala naturais e às vezes com baixo custo por minuto. (Publicações no LinkedIn / comunidade recomendam ElevenLabs como uma opção leve para voz.)
- Ferramentas de design de áudio com IA para música/SFX — Ferramentas como MM Audio, Magicshot ou geradores de SFX especializados podem criar ambiências de fundo e efeitos que se encaixam no clipe. Guias da comunidade e tutoriais mostram boa qualidade do MM Audio e outras IAs de áudio.
- Abordagem manual com DAW/Editor (controle fino) — Importe o MP4 gerado no DaVinci Resolve / Premiere / Audacity, adicione o áudio TTS, efeitos sonoros e faça a mixagem. Esta é a melhor rota para sincronização labial precisa e timing. Tutoriais da comunidade e vídeos no YouTube mostram passo a passo como casar o áudio com vídeos do Midjourney.
Exemplo rápido: combinar áudio + vídeo com ffmpeg
Assumindo video.mp4 (silencioso) e speech.mp3 (TTS) prontos:
# Normalizar o comprimento do áudio (opcional) e então combinar:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
Para mixes mais avançadas (música de fundo + diálogo + efeitos), renderize uma única faixa de áudio mixada a partir do seu DAW e depois faça o mux no vídeo como acima.
Como devo escrever prompts de movimento para controlar a animação?
Padrões de prompts de movimento
A criação de prompts de movimento no Midjourney V1 é orientada por linguagem natural. Padrões úteis:
- Direcional / ação: “camera dolly left enquanto o sujeito anda para frente”
- Movimento de objeto: “folha cai da árvore e deriva em direção à câmera”
- Instrução de câmera: “zoom lento, leve paralaxe, velocidade 2x”
- Qualidade temporal: “movimento sutil, repetível, ritmo cinematográfico”
Comece com uma frase concisa de movimento e depois acrescente adjetivos para estilo e timing: por exemplo, "start_frame_url animate: 'câmera em espiral lenta, sujeito balança suavemente, repetível', style: 'granulação de filme, cinematográfico, ritmo de 2 fps'". Experimentação e pequenas iterações são essenciais.
Animação automática vs manual
- Automática: Deixe o modelo inferir um movimento plausível. Melhor para experimentos rápidos.
- Manual: Forneça caminhos explícitos de câmera e vetores do sujeito para resultados consistentes e repetíveis — útil quando você precisa de coreografia previsível ou combinar com filmagem live-action.
Como estender vídeos, alterar o tamanho do lote ou criar loops?
Estendendo a duração do vídeo
Após a geração, o Midjourney (e wrappers como o CometAPI) expõe controles de "Extend". A UI do Midjourney permite estender um clipe de 5 segundos em 4 segundos por extensão (até ~21 segundos). Programaticamente, você pode chamar o mesmo endpoint com uma flag extend ou enviar um novo job de extend referenciando o clipe original (a documentação do CometAPI mostra os endpoints parametrizados e botões em seu overview). Espere custos de extensão semelhantes aos de uma geração inicial.
Criando vídeos em loop ou especificando frames finais
- Para fazer loop, reutilize o frame inicial como frame final ou adicione o parâmetro
--loop. - Para um frame final diferente, forneça outra URL de imagem (como
end) e assegure compatibilidade de proporção. O Midjourney suporta um parâmetro--end. Considere usar extensãomanualpara ajustar prompts durante a extensão visando continuidade.
Tamanho de lote e controle de custo
O Midjourney gera múltiplas variantes por padrão (tamanho de lote 4). Para produção ou fluxos sensíveis a custo, defina bs:1 para reduzir computação. A documentação do Midjourney inclui estimativas de tempo de GPU para SD vs HD e diferentes tamanhos de lote (úteis para previsão de custo). O CometAPI oferece preços competitivos.
Conclusão
O modelo de Vídeo V1 do Midjourney é o primeiro passo público rumo ao vídeo programático — é conservador por design, mas promissor. Esperamos atualizações iterativas do modelo, melhorando sequências mais longas, maior fidelidade e rigs de câmera mais controláveis. O papel do CometAPI como agregador reduz a barreira de integração para desenvolvedores que desejam adicionar vídeo do Midjourney em apps sem lidar com autenticação e idiossincrasias de concorrência específicas de cada provedor.
Os desenvolvedores podem acessar o MIdjourney Video API através do CometAPI. Para começar, explore as capacidades do modelo do CometAPI no Playground e consulte o guia de API para instruções detalhadas. Antes de acessar, certifique-se de que você fez login no CometAPI e obteve a chave de API. CometAPI oferece um preço muito inferior ao oficial para ajudar na sua integração.
Pronto para começar?→ Teste gratuito do Midjourney!
