Como adicionar voz e som a um vídeo de meio de jornada

CometAPI
AnnaDec 2, 2025
Como adicionar voz e som a um vídeo de meio de jornada

O salto da Midjourney para a geração de vídeos é empolgante: ela transforma imagens estáticas em clipes animados curtos e em loop, que abrem caminho para narrativas e conteúdo baseado em movimento. Mas até que a Midjourney lance faixas de áudio integradas e refinadas (se é que isso acontecerá), os criadores precisam unir o áudio à saída de vídeo silenciosa usando uma combinação de ferramentas de áudio de IA e editores clássicos. Este artigo explica o cenário atual (ferramentas, fluxos de trabalho, dicas e proteções legais) e oferece um fluxo de trabalho passo a passo, pronto para produção, para adicionar voz e som aos videoclipes da Midjourney.

O que exatamente é um “vídeo de meia-jornada” e por que ele precisa de áudio externo?

O que o vídeo do Midjourney produz atualmente

O recurso de vídeo do Midjourney converte uma imagem gerada ou carregada em um clipe animado curto (inicialmente de 5 segundos, extensível em incrementos) que enfatiza o movimento e a movimentação da câmera/assunto em vez de áudio sincronizado ou diálogos com dublagem. A ferramenta foi criada para gerar loops curtos visualmente ricos, e não narrativas audiovisuais finalizadas. Isso significa que cada vídeo do Midjourney que você exportar será silencioso e precisará ser emparelhado com áudio na pós-produção para se tornar algo mais do que uma imagem em movimento.

Quais são as regras e limitações básicas do vídeo Midjourney?

O recurso de vídeo do Midjourney converte uma imagem inicial em um clipe animado curto (padrão de 5 segundos), com opções para estender a duração em até 21 segundos no total, escolher movimento "Baixo" ou "Alto", fazer loop e alterar o tamanho do lote. Os vídeos podem ser baixados como .mp4 e Midjourney expõe uma --video parâmetro (e --motion low|high, --loop, --end, --bs #, --raw --end e --bs parâmetros— estão em Documentação oficial do Midjourney) para prompts do Discord ou da API. A resolução é SD (480p) e HD (720p); os tamanhos dos lotes e as configurações de movimento afetam o tempo e o custo da GPU.

Conclusão prática: Os clipes de meio de jornada são curtos (5 a 21 segundos), então planeje a narração e o áudio para caber nesse contexto — ou prepare-se para juntar vários clipes. Baixe o Vídeo bruto (.mp4) da página Create da Midjourney para obter a melhor qualidade para trabalhar na pós-produção.

Por que você deve adicionar voz, música e efeitos sonoros

Adicionando áudio:

  • Fornece contexto e narrativa (narração), tornando visuais abstratos comunicativos.
  • Define o tom emocional (escolha musical) e melhora a retenção do espectador.
  • Fundamenta os visuais da IA ​​no realismo (design de som, Foley, cenários).
  • Torna o conteúdo pronto para plataformas como TikTok, YouTube ou Reels, onde o áudio é essencial.

Qual é o fluxo de trabalho mais simples para adicionar voz e som a um vídeo MidJourney?

Receita rápida de um parágrafo

  1. Gere seu vídeo visual ou quadros animados no MidJourney (Galeria → Animar / Recursos de vídeo).
  2. Exporte/baixe o vídeo produzido (MP4/GIF).
  3. Produza narração com TTS da OpenAI (por exemplo, gpt-4o-mini-tts ou outros modelos TTS) e exportar como WAV/MP3.
  4. Crie música de fundo e efeitos sonoros usando ferramentas de áudio de IA (ferramentas como MM Audio, Udio ou Runway podem ajudar).
  5. Alinhe e mixe em um DAW (Reaper, Audacity, Logic ou simplesmente use o ffmpeg para mesclagens diretas).
  6. Opcionalmente, execute a sincronização labial com IA se o vídeo contiver rostos e você quiser que a boca corresponda à fala (Wav2Lip, Sync.so e serviços comerciais).

Por que essa separação (visual vs áudio) é importante

O MidJourney se concentra em criatividade visual e design de movimento; o design de áudio é uma pilha técnica diferente (geração de fala, design de áudio, sincronização). Separar responsabilidades lhe dá muito mais controle — personagem de voz, ritmo, design de som e masterização — sem brigar com o gerador visual.

Como devo criar o prompt Midjourney para vídeo?

Você pode criar vídeos a partir de qualquer imagem em sua galeria ou colando uma URL de imagem hospedada publicamente na barra Imagine e adicionando o --video parâmetro (no Discord ou API). Após a geração, você pode baixar o MP4 (versões Raw ou Social) diretamente da página de criação do Midjourney ou do Discord.

Um exemplo simples no estilo Discord que usa uma imagem carregada como quadro inicial:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Observações:

  • Coloque a URL da imagem no início para usá-la como quadro inicial.
  • Adicione --video e uma bandeira de movimento (--motion low or --motion high).
  • Uso --bs 1 se você precisar apenas de uma única saída (economiza tempo de GPU).
  • Uso --raw se você quiser menos estilização e mais movimento determinístico.

Se o vídeo for mais curto do que a narração desejada, você pode estendê-lo no Midjourney (pode estender até +4s por extensão, totalizando 21s) ou cortar/fazer um loop do áudio para ajustá-lo. Anote a duração exata (segundos + milissegundos) para que você possa alinhar a narração e os efeitos sonoros. O Midjourney oferece a opção "Baixar Vídeo Raw" na página Criar e no Discord; use-a como arquivo inicial.

Quais modelos OpenAI TTS devo considerar e por quê?

Quais são as opções de TTS disponíveis no momento?

O OpenAI oferece várias opções de TTS: historicamente tts-1 / tts-1-hd e o mais novo dirigível gpt-4o-mini-tts. O gpt-4o-mini-tts o modelo enfatiza a dirigibilidade (você pode instruir o tom, o ritmo, a emoção) e foi projetado para geração de voz flexível e expressiva; tts-1 e tts-1-hd continuam sendo escolhas fortes para TTS de alta qualidade e mais tradicionais. Use gpt-4o-mini-tts quando você quer controlar como o texto é falado (estilo, vibração) e tts-1-hd para máxima fidelidade quando o controle de estilo é menos crítico. O penAI continuou a iterar em modelos de áudio (anúncios em 2025 expandiram os recursos de fala e transcrição), então escolha o modelo que equilibra custo, qualidade e controles para seu projeto. As APIs do modelo TTS também são integradas ao CometAPI.

Alguma ressalva de produção ou limitação atual?

gpt-4o-mini-tts Às vezes, pode apresentar instabilidade em arquivos de áudio mais longos (pausas, flutuação de volume), especialmente além de ~1.5–2 minutos. Para clipes curtos de Midjourney (abaixo de ~20–30 segundos), isso raramente é um problema, mas para narrações mais longas ou locuções longas, teste e valide. Se você espera uma narração mais longa, prefira tts-1-hd ou divida o texto em pedaços menores e costure-os cuidadosamente.

Outra ferramenta de opção

Música de fundo e efeitos sonoros: Ferramentas como MM Audio (ferramentas da comunidade), Udio, MagicShot ou Runway podem criar rapidamente música de fundo e efeitos sonoros contextuais correspondentes; tópicos e tutoriais da comunidade mostram criadores combinando esses elementos em vídeos do MidJourney. Para controle de nível de produção, gere stems (música + ambiente) e exporte-os para mixagem.

Sincronização labial e animação facial: Se o vídeo incluir personagens ou closes de rostos e você quiser movimentos realistas da boca, considere o Wav2Lip (código aberto) ou APIs comerciais como Sync.so, Synthesia ou outros serviços de sincronização labial. Essas ferramentas analisam o áudio para produzir formatos de boca alinhados aos fonemas e aplicá-los a um rosto ou sequência de quadros alvo.

Como gerar um arquivo de voz com o TTS (código prático) do OpenAI?

Abaixo estão dois exemplos práticos do formato de chamada CometAPI que gera um MP3 (ou WAV) usando o endpoint TTS da OpenAI. Você pode adaptar nomes de voz e sinalizadores de streaming de acordo com sua conta CometAPI e atualizações do SDK.

⚠️ Substituir YOUR_CometAPI_API_KEY com sua chave de API. Teste primeiro em uma frase curta. Consulte
Modelos de áudio DOC no CometAPI.

Exemplo A — rápido curl (linha de comando)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Se preferir WAV:

  • Alterar o nome do arquivo de saída para narration.wav, e (se disponível) especifique um parâmetro de formato de áudio no corpo (alguns SDKs permitem format: "wav").

Por que isso funciona: O ponto de extremidade TTS aceita texto e retorna um arquivo de áudio binário que você pode salvar e mesclar com seu vídeo posteriormente. Use voice e instructions (quando disponível) para orientar a prosódia e o estilo.

Exemplo B: Python usando solicitações

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Como posso combinar o áudio do TTS com um arquivo de vídeo do MidJourney?

Exportar o vídeo do MidJourney

Os recursos de vídeo/animação do MidJourney permitem que você crie um MP4/GIF ou exporte um vídeo da sua Galeria — use a função “Animar” ou as opções de exportação da galeria para obter um arquivo local.

Mesclagem simples com ffmpeg

Se você já tiver video.mp4 (sem áudio ou espaço reservado) e voiceover.wav (ou mp3), use ffmpeg para mesclar:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Observações:

  • -shortest para no fluxo mais curto; omita se quiser que o vídeo continue tocando por mais tempo que o áudio (ou vice-versa).
  • -c:v copy mantém o fluxo de vídeo inalterado.
  • -c:a aac codifica áudio para AAC (compatível com MP4).
  • Uso -af "volume=... filtros para correspondência de volume.
  • Para finalização profissional, abra os trechos de áudio em um DAW para ajustar o tempo, a equalização e a compressão.

Corte ou ajuste o áudio para a duração exata do vídeo

Se o áudio for maior que o vídeo e você quiser um corte preciso:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Se o áudio for mais curto e você quiser que a música de fundo preencha o restante ou repita a voz, use adelay, apad, ou mixar com trilha sonora de fundo. Exemplo: narração em loop para combinar com um clipe de 20 segundos (geralmente não recomendado para voz):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Como compensar o áudio (se a narração precisar começar mais tarde)

Se a sua narração deve começar após um breve silêncio ou se você tiver vários segmentos para colocar em deslocamentos, use -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 atrasa a segunda entrada em 0.5 segundos.

Para múltiplas faixas de áudio ou posicionamento muito preciso, use -filter_complex com adelay depois Gere o TTS em pequenos segmentos (uma frase por arquivo).:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Aqui você encontra adelay leva milissegundos (2500 ms = 2.5 s), para que você possa alinhar o texto às indicações visuais com precisão.

Mantenha a narração curta e focada na cena: como os clipes do Midjourney são curtos e frequentemente estilizados, busque um gancho conciso (~5 a 15 segundos) que corresponda ao ritmo do vídeo. Divida o texto em frases curtas que respirem com os cortes visuais ou as indicações de movimento.

Como misturar música de fundo + narração + efeitos sonoros

Uso filter_complex para misturar múltiplas entradas de áudio e controlar volumes. Exemplo:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Isso mistura narração (narration.mp3) e música (music.mp3) enquanto define o nível da música para baixo, para que fique abaixo da voz. Você também pode executar o ducking dinâmico (fazendo a música desaparecer quando a narração é reproduzida) por meio de filtros sidechain ou editá-los em uma DAW para obter fades precisos.

Edição Avançada

Roteiro e ritmo

  • Escreva um roteiro conciso e marque dicas visuais (código de tempo ou números de quadros) para que a saída do TTS se alinhe às mudanças de cena.
  • Use frases curtas para uma melhor cadência natural; se precisar de leituras longas, insira pausas intencionais ou divida em várias chamadas TTS.

Combine movimento, intensidade e textura

  • Use efeitos sonoros transitórios para acentuar cortes visuais ou movimentos de câmera.
  • Para um movimento lento e pictórico no meio da jornada (--motion low), favorecem um ambiente sutil e longas caudas de reverberação.
  • Para alta ação (--motion high), use efeitos sonoros potentes, sucessos musicais com ritmo adequado e reverberação curta.

Estilo de voz do volante

Use instruções instrutivas para orientar gpt-4o-mini-tts — por exemplo, "instructions": "Calm, conversational, slight warmth, medium speed" ou incluir essa instrução como parte da carga de texto. Por exemplo:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Cuidado: os nomes exatos dos parâmetros diferem entre as versões do SDK — teste os campos suportados pelo seu SDK.

Dicas de design de som

  • Adicione uma faixa de música de fundo em volume baixo e faça sidechain ou diminua a intensidade durante a voz.
  • Use whooshes curtos, risers ou efeitos sonoros de impacto alinhados às transições visuais. Mantenha os efeitos sonoros curtos e nítidos.
  • Normalize a voz (-1 dBFS) e comprima levemente (proporção 2:1) para obter volume consistente em todas as plataformas.
  • Para plataformas sociais, codifique o vídeo final com áudio AAC-LC e vídeo H.264 para compatibilidade.

Posso fazer com que os personagens de um vídeo MidJourney “falem” (sincronização labial) com a voz gerada?

Sim — use um modelo de sincronização labial para mapear fonemas do áudio do TTS para quadros de movimento da boca. As duas abordagens comuns são:

Use ferramentas abertas como Wav2Lip (local ou hospedado)

O Wav2Lip alinha o áudio falado ao movimento da boca e pode ser executado localmente ou por meio de interfaces gráficas (GUIs) hospedadas. Fluxo de trabalho típico:

  1. Exporte vídeo ou uma série de quadros (sequência de imagens) do MidJourney.
  2. Produza o arquivo de voz (OpenAI TTS).
  3. Execute o Wav2Lip para gerar um novo vídeo em que os formatos da boca correspondem ao áudio.

O Wav2Lip é excelente para alinhamento de boca 1:1 e é de código aberto; você pode precisar de algum pós-processamento para polimento visual.

Use APIs comerciais para sincronização labial em uma etapa

Serviços como Sync.so, Synthesia e outros oferecem pipelines de API/GUI que lidam tanto com fala quanto com dublagem/sincronização labial, às vezes incluindo dublagem multilíngue. Eles podem ser mais rápidos e menos técnicos, mas são serviços pagos e podem limitar o controle preciso.

Notas práticas sobre realismo

  • O realismo perfeito geralmente requer microexpressões, piscadas de olhos e movimentos de cabeça — alguns serviços de sincronização labial adicionam isso automaticamente; outros exigem ajustes manuais.
  • Se os personagens forem estilizados (não fotorrealistas), pequenos erros de sincronização labial serão menos perceptíveis; para closes, invista tempo em um DAW + pipeline de retoque facial.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Use vídeo MidJourney no CometAPI

CometAPI oferecemos um preço muito mais baixo do que o preço oficial para ajudá-lo a integrar API no meio da jornada e  API de vídeo Midjourney, Bem-vindo para se registrar e experimentar o CometAPI. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API Para instruções detalhadas, acesse o CometAPI. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. O CometAPI suporta resoluções SD 480P e HD 720P.

Método de chamada: use o parâmetro videoType=vid_1.1_i2v_720.

Vídeo Midjourney V1geração: Desenvolvedores podem integrar a geração de vídeo via API RESTful. Uma estrutura típica de solicitação (ilustrativa)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Modelos de áudio

Os desenvolvedores podem acessar o áudio GPT 4o e tts-1 por meio do CometAPI, a versão mais recente do modelo (ponto final:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) é sempre atualizado com o site oficial. Para começar, explore as capacidades do modelo no Playground e consulte o guia de API de áudio para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.

Conclusão

Adicionar voz e som ao vídeo Midjourney é simples: gere um clipe curto do Midjourney, sintetize uma narração curta com o TTS direcionável do OpenAI e, em seguida, combine e refine usando ffmpeg. O novo gpt-4o-mini-tts O modelo oferece um forte controle estilístico, enquanto o Midjourney --video O fluxo de trabalho produz animações curtas e limpas — perfeitas para trabalhos sociais, de protótipos ou de conceitos.

SHARE THIS BLOG

500+ Modelos em Uma API

Até 20% de Desconto