Como criar um vídeo na API do Midjourney?

A entrada do Midjourney em vídeo tem sido uma das maiores histórias de tecnologia criativa de 2025. O que começou como uma ferramenta amada focada em imagens adicionou um fluxo “Imagem para Vídeo” que transforma fotos em clipes animados curtos — e o sistema está mudando rapidamente.

A capacidade de vídeo do Midjourney é um fluxo de imagem para vídeo que anima uma única imagem em um clipe curto via um fluxo “Animate”, produzindo clipes de cinco segundos por padrão e permitindo extensões de até ~21 segundos. O recurso foi lançado em meados de 2025 como o modelo de vídeo V1 do Midjourney e está disponível através do Midjourney Video V1 API do CometAPI.

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

O modelo de vídeo V1 do Midjourney transforma uma única imagem fixa (gerada dentro do Midjourney ou hospedada externamente) em clipes animados curtos — por padrão cerca de 5 segundos — usando modos de animação automáticos ou manuais e sinalizadores de intensidade de movimento (--motion low / --motion high). Os usuários podem estender clipes em incrementos de 4 segundos (até ~21 segundos) e controlar tamanho de lote, looping e frames finais; as saídas de vídeo são MP4. O modelo V1 de Vídeo do Midjourney é um modelo de imagem para vídeo otimizado para clipes curtos, estilizados e repetíveis. Características típicas do modelo V1 incluem:

Duração base do clipe ~5 segundos, com um mecanismo de extensão controlada (incrementos de 4 segundos, até um limite documentado).
Ênfase em preservar o estilo artístico da imagem de origem (trabalho de pincel, cor, clima).
Compensações de resolução e qualidade para iteração rápida; o V1 é voltado para conteúdo social e web em vez de saída cinematográfica completa.

Essas restrições moldam como você projeta assets e prompts: o V1 é melhor usado para movimento conciso, fotos animadas, loops de produto hero ou pequenas vinhetas de personagens, em vez de cenas longas.

Como o CometAPI disponibiliza o modelo de Vídeo do Midjourney

O CometAPI é um gateway multimodelo que agrega acesso a centenas de modelos de IA (texto, imagem, áudio e agora imagem para vídeo) por trás de uma única superfície REST. Sua oferta Midjourney Video encapsula a capacidade de Vídeo V1 do Midjourney para que engenheiros possam chamar a geração de imagem para vídeo de forma programática, em vez de depender apenas de interação via Discord/web. Isso torna útil para automatizar pipelines criativos, construir provas de conceito e integrar assets animados curtos em aplicativos ou fluxos de produção de conteúdo.

O Midjourney Video do CometAPI permite que desenvolvedores se autentiquem, chamem um endpoint /mj/submit/video e passem parâmetros como o prompt (que pode incluir uma URL de imagem inicial), videoType (por exemplo, vid_1.1_i2v_480), mode (fast/relax) e animateMode (automatic/manual). O CometAPI tem preço por chamada menor e conveniência (chave única de API + interface REST) em comparação com a integração direta via fluxo centrado em Discord do Midjourney.

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Cadastre-se no CometAPI e gere uma chave de API no painel da sua conta (o CometAPI usa um token bearer como sk-xxxxx).
Certifique-se de que você tem assets de imagem disponíveis online (uma URL publicamente acessível) se planeja usar imagens externas como frame inicial. O Midjourney precisa de URLs alcançáveis para fluxos de imagem→vídeo externos.

Decisões a tomar de antemão

Imagem inicial — escolha uma imagem com um assunto e composição claros; a proporção afeta a resolução/proporção do vídeo final (o Midjourney mapeia proporções iniciais para tamanhos de pixel SD/HD).
Estilo de movimento — decida movimento Baixo vs Alto (--motion low vs --motion high) e se você quer inferência automática ou controle manual do movimento da câmera/sujeito.
Duração e tamanho de lote — o padrão é 5 segundos; você pode estender até ~21s. O tamanho de lote padrão é 4 (o Midjourney retorna 4 variantes), mas você pode solicitar 1 ou 2 para economizar computação.
Resolução — o V1 é principalmente SD (480p) por padrão; HD (720p) requer descrição de parâmetro, como vid_1.1_i2v_480.

Como chamar o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

No mínimo, você envia:

prompt: a URL da imagem inicial e um prompt textual opcional de movimento (por exemplo, "https://.../frame.png add a dog running from left to right").
videoType: por exemplo, vid_1.1_i2v_480.
mode: "fast" (ou "relax" se permitido pelo plano).
animateMode: "automatic" ou "manual".

Este é um curl de exemplo ilustrando um POST para https://api.cometapi.com/mj/submit/video. Aqui está um exemplo curl limpo e pronto para copiar, adaptado do exemplo do CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png Uma cena tranquila à beira-mar — a câmera faz um zoom out lentamente e uma gaivota passa",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Exemplo em Python (requests)

Se você preferir Python, aqui está um exemplo robusto usando requests que envia um job de vídeo e faz polling até a conclusão (substitua os placeholders). Este é um padrão prático: enviar → fazer polling → baixar. O exemplo abaixo é intencionalmente simples e deve ser adaptado ao sistema de jobs/assíncrono do seu app em produção.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png Uma rua calma da cidade — a câmera faz pan para a esquerda, chuva caindo",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Enviar job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Fazer polling até concluir (exemplo de polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # fazer polling até ~60 vezes
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Vídeo pronto:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Falha na geração de vídeo: " + str(st))
    time.sleep(2)

Como adicionar áudio (voz, música, efeitos sonoros) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Não — no V1, a saída de vídeo do Midjourney é silenciosa (MP4 sem áudio incorporado). Os usuários adicionam som externamente. (Existem outros sistemas de IA que geram áudio/vídeo juntos, mas o V1 do Midjourney foca no movimento visual.)

Pipelines recomendados para adicionar voz e som

Text-to-Speech (TTS) para narração/voz — Use ElevenLabs, Replica ou serviços semelhantes de clonagem de voz/TTS para gerar faixas de fala a partir de roteiros. Esses serviços permitem produzir estilos de fala naturais e às vezes com baixo custo por minuto. (Publicações no LinkedIn / comunidade recomendam ElevenLabs como uma opção leve para voz.)
Ferramentas de design de áudio com IA para música/SFX — Ferramentas como MM Audio, Magicshot ou geradores de SFX especializados podem criar ambiências de fundo e efeitos que se encaixam no clipe. Guias da comunidade e tutoriais mostram boa qualidade do MM Audio e outras IAs de áudio.
Abordagem manual com DAW/Editor (controle fino) — Importe o MP4 gerado no DaVinci Resolve / Premiere / Audacity, adicione o áudio TTS, efeitos sonoros e faça a mixagem. Esta é a melhor rota para sincronização labial precisa e timing. Tutoriais da comunidade e vídeos no YouTube mostram passo a passo como casar o áudio com vídeos do Midjourney.

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`

Assumindo video.mp4 (silencioso) e speech.mp3 (TTS) prontos:

# Normalizar o comprimento do áudio (opcional) e então combinar:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Para mixes mais avançadas (música de fundo + diálogo + efeitos), renderize uma única faixa de áudio mixada a partir do seu DAW e depois faça o mux no vídeo como acima.

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

A criação de prompts de movimento no Midjourney V1 é orientada por linguagem natural. Padrões úteis:

Direcional / ação: “camera dolly left enquanto o sujeito anda para frente”
Movimento de objeto: “folha cai da árvore e deriva em direção à câmera”
Instrução de câmera: “zoom lento, leve paralaxe, velocidade 2x”
Qualidade temporal: “movimento sutil, repetível, ritmo cinematográfico”

Comece com uma frase concisa de movimento e depois acrescente adjetivos para estilo e timing: por exemplo, "start_frame_url animate: 'câmera em espiral lenta, sujeito balança suavemente, repetível', style: 'granulação de filme, cinematográfico, ritmo de 2 fps'". Experimentação e pequenas iterações são essenciais.

Animação automática vs manual

Automática: Deixe o modelo inferir um movimento plausível. Melhor para experimentos rápidos.
Manual: Forneça caminhos explícitos de câmera e vetores do sujeito para resultados consistentes e repetíveis — útil quando você precisa de coreografia previsível ou combinar com filmagem live-action.

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Após a geração, o Midjourney (e wrappers como o CometAPI) expõe controles de "Extend". A UI do Midjourney permite estender um clipe de 5 segundos em 4 segundos por extensão (até ~21 segundos). Programaticamente, você pode chamar o mesmo endpoint com uma flag extend ou enviar um novo job de extend referenciando o clipe original (a documentação do CometAPI mostra os endpoints parametrizados e botões em seu overview). Espere custos de extensão semelhantes aos de uma geração inicial.

Criando vídeos em loop ou especificando frames finais

Para fazer loop, reutilize o frame inicial como frame final ou adicione o parâmetro --loop.
Para um frame final diferente, forneça outra URL de imagem (como end) e assegure compatibilidade de proporção. O Midjourney suporta um parâmetro --end. Considere usar extensão manual para ajustar prompts durante a extensão visando continuidade.

Tamanho de lote e controle de custo

O Midjourney gera múltiplas variantes por padrão (tamanho de lote 4). Para produção ou fluxos sensíveis a custo, defina bs:1 para reduzir computação. A documentação do Midjourney inclui estimativas de tempo de GPU para SD vs HD e diferentes tamanhos de lote (úteis para previsão de custo). O CometAPI oferece preços competitivos.

Conclusão

O modelo de Vídeo V1 do Midjourney é o primeiro passo público rumo ao vídeo programático — é conservador por design, mas promissor. Esperamos atualizações iterativas do modelo, melhorando sequências mais longas, maior fidelidade e rigs de câmera mais controláveis. O papel do CometAPI como agregador reduz a barreira de integração para desenvolvedores que desejam adicionar vídeo do Midjourney em apps sem lidar com autenticação e idiossincrasias de concorrência específicas de cada provedor.

Os desenvolvedores podem acessar o MIdjourney Video API através do CometAPI. Para começar, explore as capacidades do modelo do CometAPI no Playground e consulte o guia de API para instruções detalhadas. Antes de acessar, certifique-se de que você fez login no CometAPI e obteve a chave de API. Com e tAPI oferece um preço muito inferior ao oficial para ajudar na sua integração.

Pronto para começar?→ Teste gratuito do Midjourney!

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

Como o CometAPI disponibiliza o modelo de Vídeo do Midjourney

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Decisões a tomar de antemão

Como chamar o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

Exemplo em Python (requests)

Como adicionar áudio (voz, música, efeitos sonoros) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Pipelines recomendados para adicionar voz e som

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

Animação automática vs manual

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Criando vídeos em loop ou especificando frames finais

Tamanho de lote e controle de custo

Conclusão

Leia Mais

500+ Modelos em Uma API

Como criar um vídeo na API do Midjourney?

O que é o Midjourney V1

O que o Midjourney V1 faz e como é disponibilizado aos usuários

Como o CometAPI disponibiliza o modelo de Vídeo do Midjourney

Como me preparar antes de chamar a API?

Quais credenciais e contas eu preciso?

Decisões a tomar de antemão

Como chamar o endpoint de vídeo do Midjourney da CometAPI (passo a passo com exemplos)?

Qual é o payload mínimo da requisição?

Exemplo em Python (requests)

Como adicionar áudio (voz, música, efeitos sonoros) a um vídeo do Midjourney/CometAPI?

O Midjourney produz áudio nativamente?

Pipelines recomendados para adicionar voz e som

Exemplo rápido: combinar áudio + vídeo com ffmpeg

Como devo escrever prompts de movimento para controlar a animação?

Padrões de prompts de movimento

Animação automática vs manual

Como estender vídeos, alterar o tamanho do lote ou criar loops?

Estendendo a duração do vídeo

Criando vídeos em loop ou especificando frames finais

Tamanho de lote e controle de custo

Conclusão

Leia Mais

500+ Modelos em Uma API

Exemplo rápido: combinar áudio + vídeo com `ffmpeg`