La incursión de Midjourney en el video ha sido una de las mayores historias de tecnología creativa de 2025. Lo que comenzó como una herramienta querida centrada en imágenes ha añadido un flujo de trabajo “Imagen a video” que convierte fotogramas fijos en clips animados cortos — y el sistema está cambiando rápidamente.
La capacidad de video de Midjourney es un flujo de trabajo de imagen a video que anima una sola imagen en un clip corto a través de un flujo “Animate”, produciendo clips de cinco segundos de manera predeterminada y permitiendo extensiones de hasta ~21 segundos. La función se lanzó a mediados de 2025 como el modelo de video V1 de Midjourney y está disponible a través de la API Midjourney Video V1 de CometAPI.
Qué es Midjourney V1
Qué hace Midjourney V1 y cómo se presenta a los usuarios
El modelo de video V1 de Midjourney convierte una sola imagen fija (ya sea generada dentro de Midjourney o una imagen alojada externamente) en clips animados cortos — por defecto de unos 5 segundos — usando modos de animación automáticos o manuales y banderas de intensidad de movimiento (--motion low / --motion high). Los usuarios pueden extender clips en incrementos de 4 segundos (hasta ~21 segundos) y controlar el tamaño de lote, el bucle y los fotogramas finales; las salidas de video son MP4. El modelo de Video V1 de Midjourney es un modelo de imagen a video optimizado para clips cortos, estilizados y en bucle. Las características típicas del modelo V1 incluyen:
- Duración base del clip de ~5 segundos, con un mecanismo de extensión controlado (incrementos de 4 segundos, hasta un límite documentado).
- Énfasis en preservar el estilo artístico de la imagen fuente (trabajo de pincel, color, estado de ánimo).
- Compromisos de resolución y calidad para una iteración rápida; V1 está orientado a contenido social y web más que a salida cinematográfica completa.
Estas limitaciones moldean cómo diseñas recursos y prompts: V1 se usa mejor para movimientos concisos, fotos animadas, loops de producto “hero” o breves melodías de personaje en lugar de escenas largas.
Cómo CometAPI expone el modelo Midjourney Video
CometAPI es una puerta de enlace multi-modelo que agrega acceso a cientos de modelos de IA (texto, imagen, audio y ahora imagen a video) detrás de una única superficie REST. Su oferta Midjourney Video envuelve la capacidad de Video V1 de Midjourney para que los ingenieros puedan invocar la generación de imagen a video de forma programática en lugar de depender únicamente de la interacción por Discord/web. Eso lo hace útil para automatizar flujos creativos, construir pruebas de concepto e integrar recursos animados cortos en aplicaciones o flujos de producción de contenido.
El Midjourney Video de CometAPI permite a los desarrolladores autenticarse, llamar a un endpoint /mj/submit/video y pasar parámetros como el prompt (que puede incluir una URL de imagen inicial), videoType (p. ej., vid_1.1_i2v_480), mode (fast/relax) y animateMode (automatic/manual). CometAPI ofrece precios por llamada más bajos y conveniencia (clave única de API + interfaz REST) frente a la integración directa mediante el flujo centrado en Discord de Midjourney.
¿Cómo me preparo antes de llamar a la API?
¿Qué credenciales y cuentas necesito?
- Regístrate en CometAPI y genera una clave de API desde tu panel de cuenta (CometAPI usa un token bearer como
sk-xxxxx). - Asegúrate de tener recursos de imagen disponibles en línea (una URL de acceso público) si planeas usar imágenes externas como fotograma inicial. Midjourney necesita URLs accesibles para flujos de trabajo imagen→video externos.
Decisiones que tomar de antemano
- Imagen inicial — elige una imagen con un sujeto y una composición claros; la relación de aspecto afecta la resolución/aspecto del video final (Midjourney mapea las relaciones de aspecto iniciales a tamaños de píxeles SD/HD).
- Estilo de movimiento — decide entre movimiento Bajo vs Alto (
--motion lowvs--motion high) y si quieres inferencia automática o control manual del movimiento de cámara/sujeto. - Duración y tamaño de lote — el valor predeterminado es 5 segundos; puedes extender hasta ~21 s. El tamaño de lote predeterminado es 4 (Midjourney devuelve 4 variantes), pero puedes solicitar 1 o 2 para ahorrar cómputo.
- Resolución — V1 es principalmente SD (480p) por defecto; HD (720p) se especifica mediante parámetros, como vid_1.1_i2v_480.
¿Cómo llamo al endpoint de video de Midjourney de CometAPI (paso a paso con ejemplos)?
¿Cuál es la carga mínima de la solicitud?
Como mínimo, envías:
prompt: la URL de la imagen inicial y un prompt textual opcional de movimiento (p. ej.,"https://.../frame.png add a dog running from left to right").videoType: p. ej.,vid_1.1_i2v_480.mode:"fast"(o"relax"si tu plan lo permite).animateMode:"automatic"o"manual".
Este es un curl de muestra que ilustra un POST a[https://api.cometapi.com/mj/submit/video. Aquí tienes un ejemplo de curl limpio y listo para copiar, adaptado del ejemplo de CometAPI:
curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Ejemplo en Python (requests)
Si prefieres Python, aquí tienes un ejemplo robusto usando requests que envía un trabajo de video y hace polling hasta completarlo (reemplaza los marcadores). Este es un patrón práctico: enviar → sondear → descargar. El ejemplo a continuación es intencionalmente simple y debe adaptarse al sistema async/jobs de tu app en producción.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
¿Cómo agrego audio (voz, música, efectos de sonido) a un video de Midjourney/CometAPI?
¿Midjourney produce audio de forma nativa?
No — en V1, la salida de video de Midjourney es silenciosa (MP4 sin audio incrustado). Los usuarios añaden el sonido externamente. (Hay otros sistemas de IA que generan audio y video juntos, pero V1 de Midjourney se centra en el movimiento visual).
Flujos recomendados para añadir voz y sonido
- Texto a voz (TTS) para narración/voz — Usa ElevenLabs, Replica u otros servicios de clonación de voz/TTS para generar pistas de voz a partir de guiones. Estos servicios permiten producir estilos de habla naturales y, a veces, a bajo costo por minuto. (Publicaciones de LinkedIn y de la comunidad recomiendan ElevenLabs como una opción ligera para voz).
- Herramientas de diseño de audio con IA para música/SFX — Herramientas como MM Audio, Magicshot o generadores especializados de SFX pueden crear ambientes y efectos de fondo que se ajusten al clip. Guías y tutoriales de la comunidad muestran buena calidad con MM Audio y otras IAs de audio.
- Enfoque manual con DAW/editor (control fino) — Importa el MP4 generado a DaVinci Resolve / Premiere / Audacity, añade el audio TTS, efectos de sonido y mezcla. Es la mejor ruta para sincronización labial y tiempos precisos. Tutoriales de la comunidad y de YouTube muestran pasos detallados para ajustar audio a videos de Midjourney.
Ejemplo rápido: combinar audio + video con ffmpeg
Asumiendo que video.mp4 (silencioso) y speech.mp3 (TTS) están listos:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
Para mezclas más avanzadas (música de fondo + diálogo + efectos), renderiza una única pista de audio mezclada desde tu DAW y luego múxala en el video como arriba.
¿Cómo debo redactar prompts de movimiento para controlar la animación?
Patrones de prompts de movimiento
El prompting de movimiento en Midjourney V1 se basa en lenguaje natural. Patrones útiles:
- Direccional / acción: “la cámara hace dolly a la izquierda mientras el sujeto camina hacia adelante”
- Movimiento de objetos: “una hoja cae del árbol y deriva hacia la cámara”
- Instrucción de cámara: “zoom lento hacia adentro, ligero paralaje, velocidad 2x”
- Cualidad temporal: “movimiento sutil, en bucle, ritmo cinematográfico”
Empieza con una oración concisa sobre el movimiento y luego añade adjetivos para estilo y temporización: p. ej., "start_frame_url animate: 'slow spiral camera, subject bobs gently, loopable', style: 'film grain, cinematic, 2 fps tempo'". La experimentación y las pequeñas iteraciones son esenciales.
Animación manual vs automática
- Automático: Deja que el modelo infiera un movimiento plausible. Ideal para experimentos rápidos.
- Manual: Proporciona rutas de cámara y vectores del sujeto explícitos para resultados consistentes y repetibles — útil cuando necesitas coreografías predecibles o ajustar metraje de acción real.
¿Cómo extiendo videos, cambio el tamaño de lote o creo bucles?
Extender la duración del video
Tras la generación, Midjourney (y wrappers como CometAPI) exponen controles de “Extend”. La IU de Midjourney te permite extender un clip de 5 segundos en 4 segundos por extensión (hasta ~21 segundos). De forma programática, puedes llamar al mismo endpoint con una bandera extend o enviar un nuevo trabajo extend haciendo referencia al clip original (la documentación de CometAPI muestra endpoints y botones parametrizados en su resumen). Espera costos de extensión similares a los de una generación inicial.
Crear videos en bucle o especificar fotogramas finales
- Para hacer bucle, reutiliza el fotograma inicial como fotograma final o añade el parámetro
--loop. - Para un fotograma final diferente, proporciona otra URL de imagen (como
end) y asegúrate de que sea compatible en relación de aspecto. Midjourney admite un parámetro--end. Considera usar extendidomanualpara ajustar prompts a mitad de extensión y mantener la continuidad.
Tamaño de lote y control de costos
Midjourney genera múltiples variantes por defecto (tamaño de lote 4). Para flujos de producción o sensibles a costo, establece bs:1 para reducir cómputo. La documentación de Midjourney incluye estimaciones de tiempo de GPU para SD vs HD y diferentes tamaños de lote (útil para previsión de costos). CometAPI ofrece precios competitivos.
Conclusión
El modelo de Video V1 de Midjourney es el primer paso público hacia video programático — es conservador por diseño pero prometedor. Esperamos actualizaciones iterativas del modelo que mejoren secuencias más largas, mayor fidelidad y rigs de cámara más controlables. El papel de CometAPI como agregador reduce la barrera de integración para desarrolladores que quieren añadir video de Midjourney a apps sin lidiar con autenticación y particularidades de concurrencia específicas de cada proveedor.
Los desarrolladores pueden acceder a la Midjourney Video API a través de CometAPI. Para comenzar, explora las capacidades de modelo de CometAPI en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al precio oficial para ayudarte a integrar.
¿Listo para empezar? → Prueba gratuita de Midjourney!
