¿Cómo crear un video en la API de Midjourney?

La incursión de Midjourney en el video ha sido una de las mayores noticias de la tecnología creativa de 2025. Lo que comenzó como una herramienta muy querida centrada en imágenes ha añadido un flujo de trabajo de “Imagen a video” que convierte fotos fijas en clips animados cortos — y el sistema está cambiando rápidamente.

La capacidad de video de Midjourney es un flujo de trabajo de imagen a video que anima una sola imagen en un clip corto mediante el flujo “Animate”, produciendo clips de cinco segundos por defecto y permitiendo extensiones de hasta ~21 segundos. La función se lanzó a mediados de 2025 como el modelo de video V1 de Midjourney y está disponible a través de la Midjourney Video V1 API de CometAPI.

Qué es Midjourney V1

Qué hace Midjourney V1 y cómo se presenta a los usuarios

El modelo de video V1 de Midjourney convierte una sola imagen fija (ya sea una generada dentro de Midjourney o una imagen alojada externamente) en clips animados cortos — por defecto de unos 5 segundos — utilizando modos de animación automáticos o manuales y banderas de intensidad de movimiento (--motion low / --motion high). Los usuarios pueden extender los clips en incrementos de 4 segundos (hasta ~21 segundos) y controlar el tamaño de lote, el bucle y los fotogramas finales; las salidas de video son MP4. El modelo V1 Video de Midjourney es un modelo de imagen a video optimizado para clips cortos, estilizados y en bucle. Las características típicas del modelo V1 incluyen:

Duración base del clip ~5 segundos, con un mecanismo de extensión controlado (incrementos de 4 segundos, hasta un límite documentado).
Énfasis en preservar el estilo artístico de la imagen de origen (trazo, color, atmósfera).
Compromisos de resolución y calidad para una iteración rápida; V1 está orientado a contenido social y web más que a una salida plenamente cinematográfica.

Estas limitaciones influyen en cómo diseñas assets y prompts: V1 es mejor para movimiento conciso, fijas animadas, bucles “hero” de producto o pequeñas rutinas de personaje, en lugar de escenas largas.

Cómo CometAPI expone el modelo Midjourney Video

CometAPI es una pasarela multimodelo que agrega acceso a cientos de modelos de IA (texto, imagen, audio y ahora imagen a video) detrás de una única interfaz REST. Su oferta Midjourney Video envuelve la capacidad V1 Video de Midjourney para que los ingenieros puedan invocar la generación de imagen a video de forma programática en lugar de depender únicamente de la interacción por Discord/web. Esto lo hace útil para automatizar flujos creativos, crear pruebas de concepto e integrar activos animados cortos en aplicaciones o flujos de producción de contenido.

Midjourney Video de CometAPI permite a los desarrolladores autenticarse, llamar al endpoint /mj/submit/video y pasar parámetros como el prompt (que puede incluir una URL de imagen inicial), videoType (p. ej., vid_1.1_i2v_480), mode (fast/relax) y animateMode (automatic/manual). CometAPI ofrece menor precio por llamada y conveniencia (una sola clave de API + interfaz REST) frente a integrar directamente mediante el flujo centrado en Discord de Midjourney.

¿Cómo me preparo antes de llamar a la API?

¿Qué credenciales y cuentas necesito?

Regístrate en CometAPI y genera una clave de API desde tu panel de cuenta (CometAPI usa un token Bearer como sk-xxxxx).
Asegúrate de tener assets de imagen disponibles en línea (una URL públicamente accesible) si planeas usar imágenes externas como fotograma inicial. Midjourney necesita URLs alcanzables para flujos de imagen→video externos.

Decisiones que tomar de antemano

Imagen inicial — elige una imagen con un sujeto y una composición claros; la relación de aspecto afecta la resolución/relación de aspecto finales del video (Midjourney relaciona las relaciones de aspecto iniciales con tamaños en píxeles SD/HD).
Estilo de movimiento — decide entre movimiento bajo vs. alto (--motion low vs --motion high) y si quieres inferencia automática o control manual del movimiento de cámara/sujeto.
Duración y tamaño de lote — el valor por defecto es 5 segundos; puedes extender hasta ~21 s. El tamaño de lote por defecto es 4 (Midjourney devuelve 4 variantes), pero puedes pedir 1 o 2 para ahorrar cómputo.
Resolución — V1 es principalmente SD (480p) por defecto; HD (720p) requiere descripción de parámetro, como vid_1.1_i2v_480.

¿Cómo llamo al endpoint de video de Midjourney en CometAPI (paso a paso con ejemplos)?

¿Cuál es la carga mínima de la solicitud?

Como mínimo, envías:

prompt: la URL de la imagen inicial y un prompt textual de movimiento opcional (p. ej., "https://.../frame.png add a dog running from left to right").
videoType: p. ej., vid_1.1_i2v_480.
mode: "fast" (o "relax" si tu plan lo permite).
animateMode: "automatic" o "manual".

Este es un ejemplo de curl que ilustra un POST a https://api.cometapi.com/mj/submit/video. Aquí tienes un curl limpio y listo para copiar, adaptado del ejemplo de CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Ejemplo en Python (requests)

Si prefieres Python, aquí tienes un ejemplo robusto con requests que envía un trabajo de video y sondea hasta completarlo (sustituye los marcadores). Es un patrón práctico: enviar → sondear → descargar. El ejemplo es intencionalmente simple y deberías adaptarlo al sistema de tareas/async de tu app en producción.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

¿Cómo añado audio (voz, música, efectos) a un video de Midjourney/CometAPI?

¿Midjourney produce audio de forma nativa?

No — en V1, la salida de video de Midjourney es silenciosa (MP4 sin audio incrustado). Los usuarios añaden el sonido externamente. (Existen otros sistemas de IA que generan audio/video juntos, pero V1 de Midjourney se centra en el movimiento visual).

Flujos recomendados para añadir voz y sonido

Text-to-Speech (TTS) para narración/voz — Usa ElevenLabs, Replica u otros servicios de clonación de voz/TTS para generar locuciones a partir de guiones. Estos servicios permiten producir voces naturales y, a veces, a bajo costo por minuto. (Publicaciones en LinkedIn / comunidad recomiendan ElevenLabs como opción ligera para voz).
Herramientas de diseño de audio con IA para música/SFX — Herramientas como MM Audio, Magicshot o generadores especializados de SFX pueden crear fondos y efectos que encajen con el clip. Guías de la comunidad y tutoriales muestran buena calidad con MM Audio y otras IAs de audio.
Enfoque manual con DAW/Editor (control fino) — Importa el MP4 en DaVinci Resolve / Premiere / Audacity, añade TTS, efectos y mezcla. Es la mejor ruta para sincronía labial y tiempos precisos. Tutoriales de la comunidad y en YouTube muestran paso a paso cómo casar el audio con videos de Midjourney.

Ejemplo rápido: combinar audio + video con `ffmpeg`

Suponiendo que video.mp4 (silencioso) y speech.mp3 (TTS) están listos:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Para mezclas más avanzadas (música de fondo + diálogo + efectos), renderiza una única pista de audio desde tu DAW y luego múxala con el video como arriba.

¿Cómo redacto prompts de movimiento para controlar la animación?

Patrones de prompts de movimiento

El prompting de movimiento en Midjourney V1 se basa en lenguaje natural. Patrones útiles:

Direccional / acción: “travelling de cámara hacia la izquierda mientras el sujeto avanza”
Movimiento de objeto: “una hoja cae del árbol y deriva hacia la cámara”
Instrucción de cámara: “zoom lento de acercamiento, leve paralaje, velocidad 2x”
Cualidad temporal: “movimiento sutil, en bucle, ritmo cinematográfico”

Empieza con una frase concisa de movimiento y luego añade adjetivos para estilo y timing: p. ej., "start_frame_url animate: 'slow spiral camera, subject bobs gently, loopable', style: 'film grain, cinematic, 2 fps tempo'". La experimentación y las iteraciones pequeñas son esenciales.

Animación manual vs. automática

Automática: Deja que el modelo infiera un movimiento plausible. Ideal para experimentos rápidos.
Manual: Proporciona rutas de cámara y vectores del sujeto explícitos para resultados consistentes y repetibles — útil cuando necesitas una coreografía predecible o casar metraje de acción real.

¿Cómo extiendo videos, cambio el tamaño de lote o creo bucles?

Extender la duración del video

Tras la generación, Midjourney (y envoltorios como CometAPI) exponen controles de "Extend". La interfaz de Midjourney permite extender un clip de 5 segundos en 4 segundos por extensión (hasta ~21 segundos). De forma programática, o bien llamas al mismo endpoint con una marca extend o envías un nuevo trabajo de extensión haciendo referencia al clip original (la documentación de CometAPI muestra los endpoints parametrizados y los botones en su resumen). Espera costos de extensión similares a una generación inicial.

Crear videos en bucle o especificar fotogramas finales

Para hacer bucle, reutiliza el fotograma inicial como fotograma final o añade el parámetro --loop.
Para un fotograma final diferente, proporciona otra URL de imagen (como end) y asegúrate de que sea compatible en relación de aspecto. Midjourney admite un parámetro --end. Considera usar extensión manual para ajustar prompts a mitad de extensión y mantener la continuidad.

Tamaño de lote y control de costos

Midjourney genera múltiples variantes por defecto (tamaño de lote 4). Para producción o flujos sensibles al costo, define bs:1 para reducir cómputo. La documentación de Midjourney incluye estimaciones de tiempo de GPU para SD vs. HD y distintos tamaños de lote (útil para prever costos). CometAPI ofrece precios competitivos.

Conclusión

El modelo de video V1 de Midjourney es el primer paso público hacia lo programático en video — es conservador por diseño pero prometedor. Esperamos iteraciones del modelo que mejoren secuencias más largas, mayor fidelidad y rigs de cámara más controlables. El papel de CometAPI como agregador reduce la barrera de integración para desarrolladores que quieran añadir video de Midjourney a sus apps sin lidiar con autenticación específica de cada proveedor y particularidades de concurrencia.

Los desarrolladores pueden acceder a MIdjourney Video API a través de CometAPI. Para empezar, explora las capacidades del modelo de CometAPI en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. Com e tAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para empezar?→ Prueba gratuita de Midjourney!

Qué es Midjourney V1

Qué hace Midjourney V1 y cómo se presenta a los usuarios

Cómo CometAPI expone el modelo Midjourney Video

¿Cómo me preparo antes de llamar a la API?

¿Qué credenciales y cuentas necesito?

Decisiones que tomar de antemano

¿Cómo llamo al endpoint de video de Midjourney en CometAPI (paso a paso con ejemplos)?

¿Cuál es la carga mínima de la solicitud?

Ejemplo en Python (requests)

¿Cómo añado audio (voz, música, efectos) a un video de Midjourney/CometAPI?

¿Midjourney produce audio de forma nativa?

Flujos recomendados para añadir voz y sonido

Ejemplo rápido: combinar audio + video con `ffmpeg`

¿Cómo redacto prompts de movimiento para controlar la animación?

Patrones de prompts de movimiento

Animación manual vs. automática

¿Cómo extiendo videos, cambio el tamaño de lote o creo bucles?

Extender la duración del video

Crear videos en bucle o especificar fotogramas finales

Tamaño de lote y control de costos

Conclusión

Leer Más

500+ Modelos en Una API

¿Cómo crear un video en la API de Midjourney?

Qué es Midjourney V1

Qué hace Midjourney V1 y cómo se presenta a los usuarios

Cómo CometAPI expone el modelo Midjourney Video

¿Cómo me preparo antes de llamar a la API?

¿Qué credenciales y cuentas necesito?

Decisiones que tomar de antemano

¿Cómo llamo al endpoint de video de Midjourney en CometAPI (paso a paso con ejemplos)?

¿Cuál es la carga mínima de la solicitud?

Ejemplo en Python (requests)

¿Cómo añado audio (voz, música, efectos) a un video de Midjourney/CometAPI?

¿Midjourney produce audio de forma nativa?

Flujos recomendados para añadir voz y sonido

Ejemplo rápido: combinar audio + video con ffmpeg

¿Cómo redacto prompts de movimiento para controlar la animación?

Patrones de prompts de movimiento

Animación manual vs. automática

¿Cómo extiendo videos, cambio el tamaño de lote o creo bucles?

Extender la duración del video

Crear videos en bucle o especificar fotogramas finales

Tamaño de lote y control de costos

Conclusión

Leer Más

500+ Modelos en Una API

Ejemplo rápido: combinar audio + video con `ffmpeg`