Cómo añadir voz y sonido a un vídeo de Midjourney

La incursión de Midjourney en la generación de video es emocionante: convierte imágenes fijas en clips animados cortos y repetibles que abren la puerta a la narración y al contenido basado en movimiento. Pero hasta que Midjourney lance pistas de audio integradas y pulidas (si es que alguna vez lo hace), los creadores deben integrar el audio en la salida de video sin sonido utilizando una combinación de herramientas de audio con IA y editores clásicos. Este artículo explica el panorama actual (herramientas, flujos de trabajo, consejos y requisitos legales) y ofrece un flujo de trabajo paso a paso, listo para producción, para añadir voz y sonido a los videoclips de Midjourney.

¿Qué es exactamente un “video de Midjourney” y por qué necesita audio externo?

Lo que produce actualmente la función de video de Midjourney

La función de video de Midjourney convierte una imagen generada o cargada en un clip animado corto (inicialmente de 5 segundos, ampliable en incrementos) que enfatiza el movimiento de la cámara y el sujeto, en lugar del audio sincronizado o los diálogos sincronizados. La herramienta está diseñada para generar bucles cortos visualmente ricos, no narrativas audiovisuales terminadas. Esto significa que cada video de Midjourney que exportes será mudo y deberás combinarlo con audio en posproducción para que sea algo más que una imagen en movimiento.

¿Cuáles son las reglas y limitaciones básicas del video Midjourney?

La función de video de Midjourney convierte una imagen inicial en un clip animado corto (5 segundos por defecto), con opciones para extender la duración hasta un total de 21 segundos, elegir movimiento "Bajo" o "Alto", repetir y cambiar el tamaño del lote. Los videos se pueden descargar como .mp4 y Midjourney expone una --video parámetro (y --motion low|high, --loop, --end, --bs #, --raw --end e --bs parámetros—están en Documentos oficiales de Midjourney) para indicaciones de Discord o API. La resolución es SD (480p) y HD (720p). El tamaño de los lotes y la configuración de movimiento afectan el tiempo y el costo de la GPU.

Conclusiones prácticas: Los clips de Midjourney son cortos (5-21 segundos), así que planifique la narración y el audio para que se ajusten a ese formato, o prepárese para unir varios clips. Descargue el archivo Vídeo sin procesar (.mp4) de la página Crear de Midjourney para obtener la mejor calidad para trabajar en posproducción.

¿Por qué deberías agregar voz, música y efectos de sonido?

Añadiendo audio:

Proporciona contexto y narrativa (voz en off), haciendo que las imágenes abstractas sean comunicativas.
Establece el tono emocional (elección musical) y mejora la retención de la audiencia.
Basa las imágenes de IA en el realismo (diseño de sonido, Foley, fondos ambientales).
Prepara la plataforma de contenido para TikTok, YouTube o Reels donde el audio es esencial.

¿Cuál es el flujo de trabajo más simple para agregar voz y sonido a un vídeo de MidJourney?

Receta rápida de un párrafo

Genere su video visual o cuadros animados en MidJourney (Galería → Funciones de animación / video).
Exportar/descargar el vídeo producido (MP4/GIF).
Producir voz en off con TTS de OpenAI (por ejemplo, gpt-4o-mini-tts u otros modelos TTS) y exportar como WAV/MP3.
Crea música de fondo y efectos de sonido usando herramientas de audio de IA (herramientas como MM Audio, Udio o Runway pueden ayudar).
Alinee y mezcle en un DAW (Reaper, Audacity, Logic o simplemente use ffmpeg para fusiones directas).
Opcionalmente, ejecute la sincronización de labios con IA si el video contiene caras y desea que la boca coincida con el habla (Wav2Lip, Sync.so y servicios comerciales).

Por qué es importante esta separación (visual vs. audio)

MidJourney se centra en la creatividad visual y el diseño de movimiento; el diseño de audio es un conjunto técnico diferente (generación de voz, diseño de audio, sincronización). Separar responsabilidades te da mucho más control (características vocales, ritmo, diseño de sonido y masterización) sin tener que lidiar con el generador visual.

¿Cómo debo elaborar el mensaje de Midjourney para el video?

Puedes crear videos a partir de cualquier imagen en tu galería o pegando la URL de una imagen alojada públicamente en la barra Imagine y agregando el --video Parámetro (en Discord o API). Tras la generación, puedes descargar el MP4 (versión RAW o Social) directamente desde la página de creación de Midjourney o desde Discord.

Un ejemplo simple al estilo Discord que utiliza una imagen cargada como marco de inicio:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Notas:

Coloque la URL de la imagen al principio para usarla como marco de inicio.
Agregar --video y una bandera de movimiento (--motion low or --motion high).
Use --bs 1 Si solo necesita una única salida (ahorra tiempo de GPU).
Use --raw Si quieres menos estilización y un movimiento más determinista.

Si el video es más corto que la narración deseada, puedes extenderlo en Midjourney (puedes extenderlo hasta 4 segundos por extensión, hasta un total de 21 segundos) o cortar/reproducir el audio para que encaje. Anota la duración exacta (segundos + milisegundos) para que puedas alinear la narración y los efectos de sonido. Midjourney ofrece la opción "Descargar video sin editar" en la página de creación y en Discord; úsala como archivo inicial.

¿Qué modelos TTS de OpenAI debería considerar y por qué?

¿Cuáles son las opciones de TTS disponibles en este momento?

OpenAI ofrece múltiples opciones de TTS: históricamente tts-1 / tts-1-hd y el nuevo dirigible gpt-4o-mini-tts. El gpt-4o-mini-tts El modelo enfatiza la capacidad de dirección (puede indicar el tono, el ritmo y la emoción) y está diseñado para una generación de voz flexible y expresiva; tts-1 y tts-1-hd siguen siendo opciones sólidas para texto a voz más tradicionales y de alta calidad. Utilice gpt-4o-mini-tts cuando quieres controlar cómo El texto es hablado (estilo, ambiente), y tts-1-hd Para lograr la máxima fidelidad cuando el control del estilo es menos crítico, penAI ha seguido iterando en modelos de audio (los anuncios en 2025 ampliaron las capacidades de voz y transcripción), así que elija el modelo que equilibre el costo, la calidad y los controles para su proyecto. Las API del modelo tts también están integradas en CometAPI.

¿Existen advertencias de producción o limitaciones actuales?

gpt-4o-mini-tts A veces puede presentar inestabilidad en archivos de audio más largos (pausas, fluctuación de volumen), especialmente de más de 1.5 a 2 minutos. Para clips cortos de Midjourney (de menos de 20 a 30 segundos), esto rara vez supone un problema, pero para narraciones más largas o voces en off extensas, pruebe y valide. Si espera una narración más larga, prefiera tts-1-hd o dividir el texto en fragmentos más cortos y unirlos con cuidado.

Otra herramienta de opción

Música de fondo y efectos de sonido: Herramientas como MM Audio (herramientas de la comunidad), Udio, MagicShot o Runway permiten crear rápidamente música de fondo y efectos especiales contextuales a juego. Los hilos y tutoriales de la comunidad muestran cómo los creadores los combinan en los vídeos de MidJourney. Para un control de calidad de producción, genera fragmentos (música + ambiente) y expórtalos para mezclarlos.

Sincronización de labios y animación facial: Si el vídeo incluye personajes o primeros planos de rostros y buscas un movimiento de boca realista, considera Wav2Lip (código abierto) o API comerciales como Sync.so, Synthesia u otros servicios de sincronización labial. Estas herramientas analizan el audio para producir formas de boca alineadas con los fonemas y las aplican a un rostro o secuencia de fotogramas objetivo.

¿Cómo genero un archivo de voz con el TTS (código práctico) de OpenAI?

A continuación, se muestran dos ejemplos prácticos del formato de llamada de CometAPI que generan un MP3 (o WAV) mediante el punto final TTS de OpenAI. Puede adaptar los nombres de voz y los indicadores de transmisión según su cuenta de CometAPI y las actualizaciones del SDK.

⚠️ Reemplazar YOUR_CometAPI_API_KEY con tu clave API. Prueba primero con una frase corta. Consulta
Modelos de audio DOC en CometAPI.

Ejemplo A — rápido `curl` (línea de comando)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Si prefieres WAV:

Cambiar el nombre del archivo de salida a narration.wav, y (si está disponible) especifique un parámetro de formato de audio en el cuerpo (algunos SDK lo permiten) format: "wav").

Por qué esto funciona: El punto final TTS acepta texto y devuelve un archivo de audio binario que puedes guardar y combinar con tu video más tarde. voice y instructions (cuando esté disponible) para orientar la prosodia y el estilo.

Ejemplo B: Python usando solicitudes

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

¿Cómo combino el audio TTS con un archivo de vídeo MidJourney?

Exportar el vídeo de MidJourney

Las funciones de Video/Animar de MidJourney te permiten crear un MP4/GIF o exportar un video desde tu Galería: usa la función “Animar” o las opciones de exportación de la galería para obtener un archivo local.

Fusión simple con ffmpeg

Si ya tienes un video.mp4 (sin audio o audio de marcador de posición) y voiceover.wav (o mp3), use ffmpeg para fusionar:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Notas:

-shortest se detiene en la transmisión más corta; omítalo si desea que el video se reproduzca por más tiempo que el audio (o viceversa).
-c:v copy Mantiene la transmisión de video sin cambios.
-c:a aac codifica audio a AAC (compatible con MP4).
Use -af "volume=... Filtros para igualar la sonoridad.
Para una finalización profesional, abra los fragmentos de audio en un DAW para ajustar el tiempo, el ecualizador y la compresión.

Recortar o rellenar el audio a la duración exacta del vídeo

Si el audio es más largo que el vídeo y quieres un corte preciso:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Si el audio es más corto y desea que la música de fondo complete el resto o repita la voz, utilice adelay, apadO mezclar con pista de fondo. Ejemplo: narración en bucle para que coincida con un clip de 20 segundos (no suele recomendarse para voz):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Cómo compensar el audio (si la narración debe comenzar más tarde)

Si su narración debe comenzar después de un breve silencio o tiene varios segmentos para colocar en los desplazamientos, utilice -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 retrasa la segunda entrada 0.5 segundos.

Para múltiples pistas de audio o una colocación muy precisa, utilice -filter_complex con adelay Después de generar el TTS en pequeños segmentos (una oración por archivo).:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Aquí adelay toma milisegundos (2500 ms = 2.5 s), por lo que puede alinear el texto con las señales visuales con precisión.

Mantén una narración breve y centrada en la escena: Dado que los clips de Midjourney son cortos y a menudo estilizados, busca un gancho conciso (de 5 a 15 segundos) que se ajuste al ritmo del video. Divide el texto en oraciones cortas que se relajen con los cortes visuales o las señales de movimiento.

Cómo mezclar música de fondo + narración + efectos de sonido

Use filter_complex Para mezclar varias entradas de audio y controlar el volumen. Ejemplo:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Esto mezcla narración (narration.mp3) y música (music.mp3) mientras se ajusta el volumen de la música bajo para que se sitúe por debajo de la voz. También puedes usar atenuación dinámica (haciendo que la música se desvanezca al reproducirse la narración) mediante filtros de cadena lateral o editar en un DAW para lograr desvanecimientos precisos.

Edición avanzada

Guión y ritmo

Escriba un guión preciso y marque señales visuales (código de tiempo o números de cuadro) para que la salida TTS se alinee con los cambios de escena.
Utilice oraciones cortas para una mejor cadencia natural; si necesita lecturas largas, inserte pausas intencionales o divídalas en múltiples llamadas TTS.

Combina movimiento, intensidad y textura

Utilice efectos de sonido transitorios para acentuar cortes visuales o movimientos de cámara.
Para un movimiento lento y pictórico a mitad del viaje (--motion low), favorecen un ambiente sutil y colas de reverberación largas.
Para alta acción (--motion high), utiliza efectos de sonido impactantes, golpes musicales adaptados al tempo y una reverberación corta.

Estilo de voz de dirección

Utilice indicaciones instructivas para guiar gpt-4o-mini-tts - p.ej, "instructions": "Calm, conversational, slight warmth, medium speed" o incluir esa instrucción como parte de la carga de texto. Por ejemplo:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Tenga cuidado: los nombres exactos de los parámetros difieren según las versiones del SDK: pruebe los campos que admite su SDK.

Consejos de diseño de sonido

Agregue una pista de fondo de bajo volumen (música) y encadene lateralmente o agáchela durante la voz.
Utilice silbidos cortos, elevaciones o efectos especiales de impacto alineados con las transiciones visuales. Mantenga los efectos especiales breves y nítidos.
Normaliza la voz (-1 dBFS) y comprímela ligeramente (relación 2:1) para lograr un volumen consistente en todas las plataformas.
Para las plataformas sociales, codifique el video final con audio AAC-LC y video H.264 para lograr compatibilidad.

¿Puedo hacer que los personajes de un vídeo de MidJourney “hablen” (sincronización de labios) con la voz generada?

Sí, se utiliza un modelo de sincronización labial para asignar fonemas del audio TTS a fotogramas de movimiento bucal. Los dos enfoques comunes son:

Utilice herramientas abiertas como Wav2Lip (locales o alojadas)

Wav2Lip alinea el audio hablado con el movimiento de la boca y puede ejecutarse localmente o mediante interfaces gráficas de usuario alojadas. Flujo de trabajo típico:

Exporte un vídeo o una serie de fotogramas (secuencia de imágenes) desde MidJourney.
Producir el archivo de voz (OpenAI TTS).
Ejecute Wav2Lip para generar un nuevo video donde las formas de la boca coincidan con el audio.

Wav2Lip es excelente para la alineación de la boca 1:1 y es de código abierto; es posible que necesite algún posprocesamiento para pulirlo visualmente.

Utilice API comerciales para la sincronización de labios en un solo paso

Servicios como Sync.so, Synthesia y otros ofrecen canales de API/GUI que gestionan tanto la voz como la sincronización labial/doblaje, incluyendo a veces doblaje multilingüe. Pueden ser más rápidos y menos técnicos, pero son servicios de pago y pueden limitar el control preciso.

Notas prácticas sobre el realismo

El realismo perfecto a menudo requiere microexpresiones, parpadeos y movimientos de cabeza; algunos servicios de sincronización de labios los agregan automáticamente, mientras que otros requieren ajustes manuales.
Si los personajes están estilizados (no son fotorrealistas), los pequeños errores de sincronización de labios son menos notorios; para primeros planos, invierta tiempo en un DAW + un proceso de retoque facial.

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Utilice el vídeo MidJourney en CometAPI

CometAPI Ofrecemos un precio mucho más bajo que el precio oficial para ayudarte a integrarte API de viaje a mitad de camino y API de vídeo de MidjourneyBienvenido a registrarse y experimentar CometAPI. Para comenzar, explore las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la documentación. Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y obtenido la clave API. CometAPI admite resoluciones SD 480p y HD 720p.

Método de llamada: utilice el parámetro videoType=vid_1.1_i2v_720.

Vídeo de Midjourney V1Generación: Los desarrolladores pueden integrar la generación de vídeo mediante la API RESTful. Estructura de solicitud típica (ejemplo).

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Modelos de audio

Los desarrolladores pueden acceder al audio GPT 4o y tts-1 a través de CometAPI, la última versión del modelo (punto final:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) se actualiza constantemente con el sitio web oficial. Para empezar, explora las capacidades del modelo en el Playground y consultar el Guía de la API de audio Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

Conclusión

Agregar voz y sonido a un video de Midjourney es sencillo: genere un clip corto de Midjourney, sintetice una narración corta con el TTS orientable de OpenAI y luego combine y perfeccione usando ffmpeg. El nuevo gpt-4o-mini-tts El modelo le brinda un fuerte control estilístico, mientras que el de Midjourney --video El flujo de trabajo produce animaciones cortas y limpias, perfectas para trabajos sociales, de prototipos o conceptuales.

¿Qué es exactamente un “video de Midjourney” y por qué necesita audio externo?

Lo que produce actualmente la función de video de Midjourney

¿Cuáles son las reglas y limitaciones básicas del video Midjourney?

¿Por qué deberías agregar voz, música y efectos de sonido?

¿Cuál es el flujo de trabajo más simple para agregar voz y sonido a un vídeo de MidJourney?

Receta rápida de un párrafo

Por qué es importante esta separación (visual vs. audio)

¿Cómo debo elaborar el mensaje de Midjourney para el video?

¿Qué modelos TTS de OpenAI debería considerar y por qué?

¿Cuáles son las opciones de TTS disponibles en este momento?

¿Existen advertencias de producción o limitaciones actuales?

Otra herramienta de opción

¿Cómo genero un archivo de voz con el TTS (código práctico) de OpenAI?

Ejemplo A — rápido `curl` (línea de comando)

Ejemplo B: Python usando solicitudes

¿Cómo combino el audio TTS con un archivo de vídeo MidJourney?

Exportar el vídeo de MidJourney

Fusión simple con ffmpeg

Recortar o rellenar el audio a la duración exacta del vídeo

Cómo compensar el audio (si la narración debe comenzar más tarde)

Cómo mezclar música de fondo + narración + efectos de sonido

Edición avanzada

Guión y ritmo

Combina movimiento, intensidad y textura

Estilo de voz de dirección

Consejos de diseño de sonido

¿Puedo hacer que los personajes de un vídeo de MidJourney “hablen” (sincronización de labios) con la voz generada?

Utilice herramientas abiertas como Wav2Lip (locales o alojadas)

Utilice API comerciales para la sincronización de labios en un solo paso

Notas prácticas sobre el realismo

Primeros Pasos

Utilice el vídeo MidJourney en CometAPI

Modelos de audio

Conclusión

Leer Más

500+ Modelos en Una API

Cómo añadir voz y sonido a un vídeo de Midjourney

¿Qué es exactamente un “video de Midjourney” y por qué necesita audio externo?

Lo que produce actualmente la función de video de Midjourney

¿Cuáles son las reglas y limitaciones básicas del video Midjourney?

¿Por qué deberías agregar voz, música y efectos de sonido?

¿Cuál es el flujo de trabajo más simple para agregar voz y sonido a un vídeo de MidJourney?

Receta rápida de un párrafo

Por qué es importante esta separación (visual vs. audio)

¿Cómo debo elaborar el mensaje de Midjourney para el video?

¿Qué modelos TTS de OpenAI debería considerar y por qué?

¿Cuáles son las opciones de TTS disponibles en este momento?

¿Existen advertencias de producción o limitaciones actuales?

Otra herramienta de opción

¿Cómo genero un archivo de voz con el TTS (código práctico) de OpenAI?

Ejemplo A — rápido curl (línea de comando)

Ejemplo B: Python usando solicitudes

¿Cómo combino el audio TTS con un archivo de vídeo MidJourney?

Exportar el vídeo de MidJourney

Fusión simple con ffmpeg

Recortar o rellenar el audio a la duración exacta del vídeo

Cómo compensar el audio (si la narración debe comenzar más tarde)

Cómo mezclar música de fondo + narración + efectos de sonido

Edición avanzada

Guión y ritmo

Combina movimiento, intensidad y textura

Estilo de voz de dirección

Consejos de diseño de sonido

¿Puedo hacer que los personajes de un vídeo de MidJourney “hablen” (sincronización de labios) con la voz generada?

Utilice herramientas abiertas como Wav2Lip (locales o alojadas)

Utilice API comerciales para la sincronización de labios en un solo paso

Notas prácticas sobre el realismo

Primeros Pasos

Utilice el vídeo MidJourney en CometAPI

Modelos de audio

Conclusión

Leer Más

500+ Modelos en Una API

Ejemplo A — rápido `curl` (línea de comando)