Como criar um vídeo com a API do Midjourney?

A entrada do Midjourney em vídeo foi uma das maiores histórias de tecnologia criativa de 2025. O que começou como uma ferramenta adorada e focada em imagens adicionou um fluxo “Image-to-Video” que transforma imagens estáticas em clipes animados curtos — e o sistema está evoluindo rapidamente.

A capacidade de vídeo do Midjourney é um fluxo de imagem para vídeo que anima uma única imagem em um clipe curto por meio do fluxo “Animate”, produzindo clipes de cinco segundos por padrão e permitindo extensões de até ~21 segundos. O recurso foi lançado em meados de 2025 como o modelo de vídeo V1 do Midjourney e está disponível por meio da Midjourney Video V1 API da CometAPI.

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

O modelo de vídeo V1 do Midjourney transforma uma imagem estática (gerada no próprio Midjourney ou hospedada externamente) em clipes animados curtos — por padrão com cerca de 5 segundos — usando modos de animação automáticos ou manuais e flags de intensidade de movimento (--motion low / --motion high). Os usuários podem estender os clipes em incrementos de 4 segundos (até ~21 segundos) e controlar o tamanho do lote, o loop e os frames finais; as saídas de vídeo são MP4. O modelo V1 Video do Midjourney é um modelo de imagem para vídeo otimizado para clipes curtos, estilizados e loopáveis. Características típicas do modelo V1 incluem:

Duração base do clipe de ~5 segundos, com mecanismo de extensão controlada (incrementos de 4 segundos, até um limite documentado).
Ênfase em preservar o estilo artístico da imagem de origem (pinceladas, cor, clima).
Compensações de resolução e qualidade para iterações rápidas; o V1 é orientado para conteúdo social e web, e não para produção cinematográfica completa.

Essas restrições moldam como você projeta assets e prompts: o V1 é mais adequado para movimentos concisos, stills animados, loops de produto “hero” ou pequenas vinhetas de personagem, em vez de cenas longas.

Como a CometAPI disponibiliza o modelo Midjourney Video

A CometAPI é um gateway multi-modelo que agrega acesso a centenas de modelos de IA (texto, imagem, áudio e agora de imagem para vídeo) por trás de uma única superfície REST. Sua oferta Midjourney Video envolve a capacidade V1 de vídeo do Midjourney para que engenheiros possam acionar a geração de imagem para vídeo de forma programática, em vez de depender exclusivamente de interações no Discord/web. Isso a torna útil para automatizar pipelines criativos, criar provas de conceito e integrar assets animados curtos em apps ou fluxos de produção de conteúdo.

O Midjourney Video da CometAPI permite que desenvolvedores se autentiquem, chamem o endpoint /mj/submit/video e passem parâmetros como prompt (que pode incluir uma URL de imagem inicial), videoType (por exemplo, vid_1.1_i2v_480), mode (fast/relax) e animateMode (automatic/manual). A CometAPI oferece preço por chamada mais baixo e conveniência (uma única chave de API + interface REST) em comparação com a integração direta via o fluxo centrado em Discord do Midjourney.

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Cadastre-se na CometAPI e gere uma chave de API no painel da sua conta (a CometAPI usa um bearer token como sk-xxxxx).
Garanta que você tenha assets de imagem disponíveis online (uma URL publicamente acessível) se planeja usar imagens externas como frame inicial. O Midjourney precisa de URLs acessíveis para fluxos de imagem → vídeo com imagens externas.

Decisões a tomar de antemão

Imagem inicial — escolha uma imagem com sujeito e composição claros; a proporção afeta a resolução/aspecto do vídeo final (o Midjourney mapeia proporções iniciais para tamanhos de pixels SD/HD).
Estilo de movimento — decida entre movimento baixo vs alto (--motion low vs --motion high) e se deseja inferência automática ou controle manual do movimento de câmera/sujeito.
Duração e tamanho do lote — o padrão é 5 segundos; você pode estender até ~21s. O tamanho de lote padrão é 4 (o Midjourney retorna 4 variantes), mas você pode solicitar 1 ou 2 para economizar computação.
Resolução — o V1 é principalmente SD (480p) por padrão; HD (720p) requer descrição de parâmetro, como vid_1.1_i2v_480.

Como chamo o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

No mínimo, você envia:

prompt: a URL da imagem inicial e um prompt textual opcional de movimento (por exemplo, "https://.../frame.png add a dog running from left to right").
videoType: por exemplo, vid_1.1_i2v_480.
mode: "fast" (ou "relax" se o seu plano permitir).
animateMode: "automatic" ou "manual".

Este é um curl de exemplo ilustrando um POST para [https://api.cometapi.com/mj/submit/video. Aqui vai um curl limpo, pronto para copiar, adaptado do exemplo da CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Exemplo em Python (requests)

Se preferir Python, segue um exemplo robusto usando requests que envia um job de vídeo e faz polling até a conclusão (substitua os placeholders). Este é um padrão prático: enviar → consultar → baixar. O exemplo abaixo é propositalmente simples e deve ser adaptado ao sistema assíncrono/de jobs do seu app em produção.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Como adiciono áudio (voz, música, efeitos) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Não — no V1, a saída de vídeo do Midjourney é silenciosa (MP4 sem áudio embutido). Os usuários adicionam som externamente. (Há outros sistemas de IA que geram áudio/vídeo juntos, mas o V1 do Midjourney foca no movimento visual.)

Pipelines recomendados para adicionar voz e som

Text-to-Speech (TTS) para narração/voz — Use ElevenLabs, Replica ou serviços similares de clonagem de voz/TTS para gerar faixas de fala a partir de roteiros. Esses serviços permitem produzir estilos de fala naturais e às vezes com baixo custo por minuto. (Publicações no LinkedIn/comunidade recomendam o ElevenLabs como uma opção leve para voz.)
Ferramentas de design de áudio com IA para música/SFX — Ferramentas como MM Audio, Magicshot ou geradores especializados de SFX podem criar ambiências e efeitos que combinam com o clipe. Guias e tutoriais da comunidade mostram boa qualidade do MM Audio e de outras IAs de áudio.
Abordagem manual em DAW/editor (controle fino) — Importe o MP4 gerado para o DaVinci Resolve / Premiere / Audacity, adicione áudio TTS, efeitos sonoros e faça a mixagem. Este é o melhor caminho para sincronização labial precisa e timing. Tutoriais da comunidade e walkthroughs no YouTube mostram passo a passo como casar áudio com vídeos do Midjourney.

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`

Assumindo video.mp4 (silencioso) e speech.mp3 (TTS) prontos:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Para mixagens mais avançadas (música de fundo + diálogo + efeitos), renderize uma única faixa de áudio mixada no seu DAW e, em seguida, faça o mux no vídeo como acima.

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

Padrões úteis de prompting no Midjourney V1 são em linguagem natural:

Direcional/ação: “câmera dolly para a esquerda enquanto o sujeito caminha para a frente”
Movimento de objeto: “folha cai da árvore e flutua em direção à câmera”
Instrução de câmera: “zoom lento para dentro, leve paralaxe, velocidade 2x”
Qualidade temporal: “movimento sutil, loopável, ritmo cinematográfico”

Comece com uma frase concisa de movimento e depois acrescente adjetivos para estilo e timing: por exemplo, "start_frame_url animate: 'câmera em espiral lenta, sujeito balança levemente, loopável', style: 'granulação de filme, cinematográfico, tempo de 2 fps'". Experimentação e pequenas iterações são essenciais.

Animação manual vs automática

Automática: Deixe o modelo inferir um movimento plausível. Melhor para experimentos rápidos.
Manual: Forneça caminhos de câmera e vetores do sujeito explícitos para resultados consistentes e reproduzíveis — útil quando você precisa de coreografias previsíveis ou combinar imagens live-action.

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Após a geração, o Midjourney (e wrappers como a CometAPI) expõe controles “Extend”. A interface do Midjourney permite estender um clipe de 5 segundos em 4 segundos por extensão (até ~21 segundos). Programaticamente, você chama o mesmo endpoint com um flag extend ou envia um novo job de extensão referenciando o clipe original (a documentação da CometAPI mostra os endpoints parametrizados e botões no overview). Espere custos de extensão semelhantes aos de uma geração inicial.

Criando vídeos em loop ou especificando frames finais

Para fazer loop, reutilize o frame inicial como frame final ou adicione o parâmetro --loop.
Para um frame final diferente, forneça outra URL de imagem (como end) e garanta compatibilidade de proporção. O Midjourney oferece suporte a --end. Considere usar extensão manual para ajustar prompts durante a extensão e manter a continuidade.

Tamanho do lote e controle de custo

O Midjourney gera várias variantes por padrão (tamanho de lote 4). Para produção ou fluxos sensíveis a custo, defina bs:1 para reduzir computação. A documentação do Midjourney inclui estimativas de tempo de GPU para SD vs HD e diferentes tamanhos de lote (úteis para previsão de custos). A CometAPI oferece preço competitivo.

Conclusão

O modelo de vídeo V1 do Midjourney é o primeiro passo público rumo ao vídeo programático — é conservador por design, mas promissor. Esperamos atualizações iterativas do modelo com melhorias em sequências mais longas, maior fidelidade e rigs de câmera mais controláveis. O papel da CometAPI como agregador reduz a barreira de integração para desenvolvedores que desejam adicionar vídeo do Midjourney em apps sem lidar com múltiplas autenticações e idiossincrasias de concorrência específicas de cada provedor.

Os desenvolvedores podem acessar a MIdjourney Video API por meio da CometAPI. Para começar, explore as capacidades do modelo da CometAPI no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, verifique se você fez login na CometAPI e obteve a chave de API. A CometAPI oferece um preço muito inferior ao oficial para ajudar na integração.

Pronto para começar? → Teste gratuito do Midjourney!

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

Como a CometAPI disponibiliza o modelo Midjourney Video

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Decisões a tomar de antemão

Como chamo o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

Exemplo em Python (requests)

Como adiciono áudio (voz, música, efeitos) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Pipelines recomendados para adicionar voz e som

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

Animação manual vs automática

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Criando vídeos em loop ou especificando frames finais

Tamanho do lote e controle de custo

Conclusão

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Leia Mais

Como criar um vídeo com a API do Midjourney?

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

Como a CometAPI disponibiliza o modelo Midjourney Video

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Decisões a tomar de antemão

Como chamo o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

Exemplo em Python (requests)

Como adiciono áudio (voz, música, efeitos) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Pipelines recomendados para adicionar voz e som

Exemplo rápido: combinar áudio + vídeo com ffmpeg

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

Animação manual vs automática

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Criando vídeos em loop ou especificando frames finais

Tamanho do lote e controle de custo

Conclusão

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Leia Mais

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`