O salto da Midjourney para a geração de vídeos é empolgante: ela transforma imagens estáticas em clipes animados curtos e em loop, que abrem caminho para narrativas e conteúdo baseado em movimento. Mas até que a Midjourney lance faixas de áudio integradas e refinadas (se é que isso acontecerá), os criadores precisam unir o áudio à saída de vídeo silenciosa usando uma combinação de ferramentas de áudio de IA e editores clássicos. Este artigo explica o cenário atual (ferramentas, fluxos de trabalho, dicas e proteções legais) e oferece um fluxo de trabalho passo a passo, pronto para produção, para adicionar voz e som aos videoclipes da Midjourney.
O que exatamente é um “vídeo de meia-jornada” e por que ele precisa de áudio externo?
O que o vídeo do Midjourney produz atualmente
O recurso de vídeo do Midjourney converte uma imagem gerada ou carregada em um clipe animado curto (inicialmente de 5 segundos, extensível em incrementos) que enfatiza o movimento e a movimentação da câmera/assunto em vez de áudio sincronizado ou diálogos com dublagem. A ferramenta foi criada para gerar loops curtos visualmente ricos, e não narrativas audiovisuais finalizadas. Isso significa que cada vídeo do Midjourney que você exportar será silencioso e precisará ser emparelhado com áudio na pós-produção para se tornar algo mais do que uma imagem em movimento.
Quais são as regras e limitações básicas do vídeo Midjourney?
O recurso de vídeo do Midjourney converte uma imagem inicial em um clipe animado curto (padrão de 5 segundos), com opções para estender a duração em até 21 segundos no total, escolher movimento "Baixo" ou "Alto", fazer loop e alterar o tamanho do lote. Os vídeos podem ser baixados como .mp4 e Midjourney expõe uma --video parâmetro (e --motion low|high, --loop, --end, --bs #, --raw --end e --bs parâmetros— estão em Documentação oficial do Midjourney) para prompts do Discord ou da API. A resolução é SD (480p) e HD (720p); os tamanhos dos lotes e as configurações de movimento afetam o tempo e o custo da GPU.
Conclusão prática: Os clipes de meio de jornada são curtos (5 a 21 segundos), então planeje a narração e o áudio para caber nesse contexto — ou prepare-se para juntar vários clipes. Baixe o Vídeo bruto (.mp4) da página Create da Midjourney para obter a melhor qualidade para trabalhar na pós-produção.
Por que você deve adicionar voz, música e efeitos sonoros
Adicionando áudio:
- Fornece contexto e narrativa (narração), tornando visuais abstratos comunicativos.
- Define o tom emocional (escolha musical) e melhora a retenção do espectador.
- Fundamenta os visuais da IA no realismo (design de som, Foley, cenários).
- Torna o conteúdo pronto para plataformas como TikTok, YouTube ou Reels, onde o áudio é essencial.
Qual é o fluxo de trabalho mais simples para adicionar voz e som a um vídeo MidJourney?
Receita rápida de um parágrafo
- Gere seu vídeo visual ou quadros animados no MidJourney (Galeria → Animar / Recursos de vídeo).
- Exporte/baixe o vídeo produzido (MP4/GIF).
- Produza narração com TTS da OpenAI (por exemplo,
gpt-4o-mini-ttsou outros modelos TTS) e exportar como WAV/MP3. - Crie música de fundo e efeitos sonoros usando ferramentas de áudio de IA (ferramentas como MM Audio, Udio ou Runway podem ajudar).
- Alinhe e mixe em um DAW (Reaper, Audacity, Logic ou simplesmente use o ffmpeg para mesclagens diretas).
- Opcionalmente, execute a sincronização labial com IA se o vídeo contiver rostos e você quiser que a boca corresponda à fala (Wav2Lip, Sync.so e serviços comerciais).
Por que essa separação (visual vs áudio) é importante
O MidJourney se concentra em criatividade visual e design de movimento; o design de áudio é uma pilha técnica diferente (geração de fala, design de áudio, sincronização). Separar responsabilidades lhe dá muito mais controle — personagem de voz, ritmo, design de som e masterização — sem brigar com o gerador visual.
Como devo criar o prompt Midjourney para vídeo?
Você pode criar vídeos a partir de qualquer imagem em sua galeria ou colando uma URL de imagem hospedada publicamente na barra Imagine e adicionando o --video parâmetro (no Discord ou API). Após a geração, você pode baixar o MP4 (versões Raw ou Social) diretamente da página de criação do Midjourney ou do Discord.
Um exemplo simples no estilo Discord que usa uma imagem carregada como quadro inicial:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
Observações:
- Coloque a URL da imagem no início para usá-la como quadro inicial.
- Adicione
--videoe uma bandeira de movimento (--motion lowor--motion high). - Uso
--bs 1se você precisar apenas de uma única saída (economiza tempo de GPU). - Uso
--rawse você quiser menos estilização e mais movimento determinístico.
Se o vídeo for mais curto do que a narração desejada, você pode estendê-lo no Midjourney (pode estender até +4s por extensão, totalizando 21s) ou cortar/fazer um loop do áudio para ajustá-lo. Anote a duração exata (segundos + milissegundos) para que você possa alinhar a narração e os efeitos sonoros. O Midjourney oferece a opção "Baixar Vídeo Raw" na página Criar e no Discord; use-a como arquivo inicial.
Quais modelos OpenAI TTS devo considerar e por quê?
Quais são as opções de TTS disponíveis no momento?
O OpenAI oferece várias opções de TTS: historicamente tts-1 / tts-1-hd e o mais novo dirigível gpt-4o-mini-tts. O gpt-4o-mini-tts o modelo enfatiza a dirigibilidade (você pode instruir o tom, o ritmo, a emoção) e foi projetado para geração de voz flexível e expressiva; tts-1 e tts-1-hd continuam sendo escolhas fortes para TTS de alta qualidade e mais tradicionais. Use gpt-4o-mini-tts quando você quer controlar como o texto é falado (estilo, vibração) e tts-1-hd para máxima fidelidade quando o controle de estilo é menos crítico. O penAI continuou a iterar em modelos de áudio (anúncios em 2025 expandiram os recursos de fala e transcrição), então escolha o modelo que equilibra custo, qualidade e controles para seu projeto. As APIs do modelo TTS também são integradas ao CometAPI.
Alguma ressalva de produção ou limitação atual?
gpt-4o-mini-tts Às vezes, pode apresentar instabilidade em arquivos de áudio mais longos (pausas, flutuação de volume), especialmente além de ~1.5–2 minutos. Para clipes curtos de Midjourney (abaixo de ~20–30 segundos), isso raramente é um problema, mas para narrações mais longas ou locuções longas, teste e valide. Se você espera uma narração mais longa, prefira tts-1-hd ou divida o texto em pedaços menores e costure-os cuidadosamente.
Outra ferramenta de opção
Música de fundo e efeitos sonoros: Ferramentas como MM Audio (ferramentas da comunidade), Udio, MagicShot ou Runway podem criar rapidamente música de fundo e efeitos sonoros contextuais correspondentes; tópicos e tutoriais da comunidade mostram criadores combinando esses elementos em vídeos do MidJourney. Para controle de nível de produção, gere stems (música + ambiente) e exporte-os para mixagem.
Sincronização labial e animação facial: Se o vídeo incluir personagens ou closes de rostos e você quiser movimentos realistas da boca, considere o Wav2Lip (código aberto) ou APIs comerciais como Sync.so, Synthesia ou outros serviços de sincronização labial. Essas ferramentas analisam o áudio para produzir formatos de boca alinhados aos fonemas e aplicá-los a um rosto ou sequência de quadros alvo.
Como gerar um arquivo de voz com o TTS (código prático) do OpenAI?
Abaixo estão dois exemplos práticos do formato de chamada CometAPI que gera um MP3 (ou WAV) usando o endpoint TTS da OpenAI. Você pode adaptar nomes de voz e sinalizadores de streaming de acordo com sua conta CometAPI e atualizações do SDK.
⚠️ Substituir
YOUR_CometAPI_API_KEYcom sua chave de API. Teste primeiro em uma frase curta. Consulte
Modelos de áudio DOC no CometAPI.
Exemplo A — rápido curl (linha de comando)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
Se preferir WAV:
- Alterar o nome do arquivo de saída para
narration.wav, e (se disponível) especifique um parâmetro de formato de áudio no corpo (alguns SDKs permitemformat: "wav").
Por que isso funciona: O ponto de extremidade TTS aceita texto e retorna um arquivo de áudio binário que você pode salvar e mesclar com seu vídeo posteriormente. Use voice e instructions (quando disponível) para orientar a prosódia e o estilo.
Exemplo B: Python usando solicitações
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
Como posso combinar o áudio do TTS com um arquivo de vídeo do MidJourney?
Exportar o vídeo do MidJourney
Os recursos de vídeo/animação do MidJourney permitem que você crie um MP4/GIF ou exporte um vídeo da sua Galeria — use a função “Animar” ou as opções de exportação da galeria para obter um arquivo local.
Mesclagem simples com ffmpeg
Se você já tiver video.mp4 (sem áudio ou espaço reservado) e voiceover.wav (ou mp3), use ffmpeg para mesclar:
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
Observações:
-shortestpara no fluxo mais curto; omita se quiser que o vídeo continue tocando por mais tempo que o áudio (ou vice-versa).-c:v copymantém o fluxo de vídeo inalterado.-c:a aaccodifica áudio para AAC (compatível com MP4).- Uso
-af "volume=...filtros para correspondência de volume. - Para finalização profissional, abra os trechos de áudio em um DAW para ajustar o tempo, a equalização e a compressão.
Corte ou ajuste o áudio para a duração exata do vídeo
Se o áudio for maior que o vídeo e você quiser um corte preciso:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
Se o áudio for mais curto e você quiser que a música de fundo preencha o restante ou repita a voz, use adelay, apad, ou mixar com trilha sonora de fundo. Exemplo: narração em loop para combinar com um clipe de 20 segundos (geralmente não recomendado para voz):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
Como compensar o áudio (se a narração precisar começar mais tarde)
Se a sua narração deve começar após um breve silêncio ou se você tiver vários segmentos para colocar em deslocamentos, use -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 atrasa a segunda entrada em 0.5 segundos.
Para múltiplas faixas de áudio ou posicionamento muito preciso, use -filter_complex com adelay depois Gere o TTS em pequenos segmentos (uma frase por arquivo).:
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
Aqui você encontra adelay leva milissegundos (2500 ms = 2.5 s), para que você possa alinhar o texto às indicações visuais com precisão.
Mantenha a narração curta e focada na cena: como os clipes do Midjourney são curtos e frequentemente estilizados, busque um gancho conciso (~5 a 15 segundos) que corresponda ao ritmo do vídeo. Divida o texto em frases curtas que respirem com os cortes visuais ou as indicações de movimento.
Como misturar música de fundo + narração + efeitos sonoros
Uso filter_complex para misturar múltiplas entradas de áudio e controlar volumes. Exemplo:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
Isso mistura narração (narration.mp3) e música (music.mp3) enquanto define o nível da música para baixo, para que fique abaixo da voz. Você também pode executar o ducking dinâmico (fazendo a música desaparecer quando a narração é reproduzida) por meio de filtros sidechain ou editá-los em uma DAW para obter fades precisos.
Edição Avançada
Roteiro e ritmo
- Escreva um roteiro conciso e marque dicas visuais (código de tempo ou números de quadros) para que a saída do TTS se alinhe às mudanças de cena.
- Use frases curtas para uma melhor cadência natural; se precisar de leituras longas, insira pausas intencionais ou divida em várias chamadas TTS.
Combine movimento, intensidade e textura
- Use efeitos sonoros transitórios para acentuar cortes visuais ou movimentos de câmera.
- Para um movimento lento e pictórico no meio da jornada (
--motion low), favorecem um ambiente sutil e longas caudas de reverberação. - Para alta ação (
--motion high), use efeitos sonoros potentes, sucessos musicais com ritmo adequado e reverberação curta.
Estilo de voz do volante
Use instruções instrutivas para orientar gpt-4o-mini-tts — por exemplo, "instructions": "Calm, conversational, slight warmth, medium speed" ou incluir essa instrução como parte da carga de texto. Por exemplo:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
Cuidado: os nomes exatos dos parâmetros diferem entre as versões do SDK — teste os campos suportados pelo seu SDK.
Dicas de design de som
- Adicione uma faixa de música de fundo em volume baixo e faça sidechain ou diminua a intensidade durante a voz.
- Use whooshes curtos, risers ou efeitos sonoros de impacto alinhados às transições visuais. Mantenha os efeitos sonoros curtos e nítidos.
- Normalize a voz (-1 dBFS) e comprima levemente (proporção 2:1) para obter volume consistente em todas as plataformas.
- Para plataformas sociais, codifique o vídeo final com áudio AAC-LC e vídeo H.264 para compatibilidade.
Posso fazer com que os personagens de um vídeo MidJourney “falem” (sincronização labial) com a voz gerada?
Sim — use um modelo de sincronização labial para mapear fonemas do áudio do TTS para quadros de movimento da boca. As duas abordagens comuns são:
Use ferramentas abertas como Wav2Lip (local ou hospedado)
O Wav2Lip alinha o áudio falado ao movimento da boca e pode ser executado localmente ou por meio de interfaces gráficas (GUIs) hospedadas. Fluxo de trabalho típico:
- Exporte vídeo ou uma série de quadros (sequência de imagens) do MidJourney.
- Produza o arquivo de voz (OpenAI TTS).
- Execute o Wav2Lip para gerar um novo vídeo em que os formatos da boca correspondem ao áudio.
O Wav2Lip é excelente para alinhamento de boca 1:1 e é de código aberto; você pode precisar de algum pós-processamento para polimento visual.
Use APIs comerciais para sincronização labial em uma etapa
Serviços como Sync.so, Synthesia e outros oferecem pipelines de API/GUI que lidam tanto com fala quanto com dublagem/sincronização labial, às vezes incluindo dublagem multilíngue. Eles podem ser mais rápidos e menos técnicos, mas são serviços pagos e podem limitar o controle preciso.
Notas práticas sobre realismo
- O realismo perfeito geralmente requer microexpressões, piscadas de olhos e movimentos de cabeça — alguns serviços de sincronização labial adicionam isso automaticamente; outros exigem ajustes manuais.
- Se os personagens forem estilizados (não fotorrealistas), pequenos erros de sincronização labial serão menos perceptíveis; para closes, invista tempo em um DAW + pipeline de retoque facial.
Começando a jornada
A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.
Use vídeo MidJourney no CometAPI
CometAPI oferecemos um preço muito mais baixo do que o preço oficial para ajudá-lo a integrar API no meio da jornada e API de vídeo Midjourney, Bem-vindo para se registrar e experimentar o CometAPI. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API Para instruções detalhadas, acesse o CometAPI. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. O CometAPI suporta resoluções SD 480P e HD 720P.
Método de chamada: use o parâmetro videoType=vid_1.1_i2v_720.
Vídeo Midjourney V1geração: Desenvolvedores podem integrar a geração de vídeo via API RESTful. Uma estrutura típica de solicitação (ilustrativa)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
Modelos de áudio
Os desenvolvedores podem acessar o áudio GPT 4o e tts-1 por meio do CometAPI, a versão mais recente do modelo (ponto final:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) é sempre atualizado com o site oficial. Para começar, explore as capacidades do modelo no Playground e consulte o guia de API de áudio para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.
Conclusão
Adicionar voz e som ao vídeo Midjourney é simples: gere um clipe curto do Midjourney, sintetize uma narração curta com o TTS direcionável do OpenAI e, em seguida, combine e refine usando ffmpeg. O novo gpt-4o-mini-tts O modelo oferece um forte controle estilístico, enquanto o Midjourney --video O fluxo de trabalho produz animações curtas e limpas — perfeitas para trabalhos sociais, de protótipos ou de conceitos.


