Comment créer une vidéo avec l’API de Midjourney ?

L’entrée de Midjourney dans la vidéo a été l’une des plus grandes histoires de la technologie créative en 2025. Ce qui avait commencé comme un outil apprécié, centré sur l’image, a ajouté un flux « Image vers vidéo » qui transforme des images fixes en courts clips animés — et le système évolue rapidement.

La capacité vidéo de Midjourney est un flux image-vers-vidéo qui anime une seule image en un court clip via un flux « Animate », produisant par défaut des clips de cinq secondes et permettant des extensions jusqu’à ~21 secondes. La fonctionnalité a été lancée à la mi-2025 en tant que modèle vidéo V1 de Midjourney et est disponible via l’API Midjourney Video V1 de CometAPI.

Qu’est-ce que Midjourney V1

Ce que fait Midjourney V1 et comment c’est présenté aux utilisateurs

Le modèle vidéo V1 de Midjourney transforme une seule image fixe (générée dans Midjourney ou hébergée en externe) en courts clips animés — par défaut environ 5 secondes — en utilisant des modes d’animation automatiques ou manuels et des indicateurs d’intensité du mouvement (--motion low / --motion high). Les utilisateurs peuvent étendre les clips par incréments de 4 secondes (jusqu’à ~21 secondes) et contrôler la taille du lot, la mise en boucle et les images de fin ; les sorties vidéo sont en MP4. Le modèle vidéo V1 de Midjourney est un modèle image-vers-vidéo optimisé pour des clips courts, stylisés et loopables. Les caractéristiques typiques du modèle V1 incluent :

Longueur de clip de base ~5 secondes, avec un mécanisme d’extension contrôlé (incréments de 4 secondes, jusqu’à une limite documentée).
Accent sur la préservation du style artistique de l’image source (trait de pinceau, couleur, ambiance).
Compromis résolution/qualité pour une itération rapide ; V1 est orienté vers le contenu social et web plutôt que vers une sortie cinématographique complète.

Ces contraintes influencent la façon dont vous concevez vos assets et vos prompts : V1 est mieux utilisé pour des mouvements concis, des images animées, des boucles produit « hero » ou de courtes vignettes de personnages plutôt que de longues scènes.

Comment CometAPI expose le modèle vidéo de Midjourney

CometAPI est une passerelle multi-modèles qui agrège l’accès à des centaines de modèles d’IA (texte, image, audio, et désormais image-vers-vidéo) derrière une unique surface REST. Son offre Midjourney Video encapsule la capacité vidéo V1 de Midjourney afin que les ingénieurs puissent appeler la génération image-vers-vidéo de manière programmatique plutôt que de dépendre uniquement d’une interaction Discord/web. Cela la rend utile pour automatiser des pipelines créatifs, construire des preuves de concept (POC) et intégrer de courts assets animés dans des applications ou des workflows de production de contenu.

CometAPI’s Midjourney Video can provide developers authenticate, call a /mj/submit/video endpoint and pass parameters such as the prompt (which can include a starting image URL), videoType (e.g., vid_1.1_i2v_480), mode (fast/relax), and animateMode (automatic/manual). CometAPI a une tarification par appel plus basse et une plus grande commodité (clé API unique + interface REST) par rapport à une intégration directe via le workflow centré sur Discord de Midjourney.

Comment me préparer avant d’appeler l’API ?

De quels identifiants et comptes ai-je besoin ?

Inscrivez-vous sur CometAPI et générez une clé API depuis votre tableau de bord de compte (CometAPI utilise un jeton bearer comme sk-xxxxx).
Assurez-vous de disposer d’images disponibles en ligne (une URL publiquement accessible) si vous prévoyez d’utiliser des images externes comme image de départ. Midjourney a besoin d’URLs accessibles pour les workflows image→vidéo externes.

Quelles décisions prendre en amont

Image de départ — choisissez une image avec un sujet et une composition clairs ; le ratio d’aspect influence la résolution/l’aspect final de la vidéo (Midjourney mappe les ratios d’aspect de départ vers des tailles en pixels SD/HD).
Style de mouvement — choisissez un mouvement faible vs élevé (--motion low vs --motion high) et si vous souhaitez une inférence automatique ou un contrôle manuel des mouvements de caméra/sujet.
Durée & taille de lot — par défaut 5 secondes ; vous pouvez étendre jusqu’à ~21s. La taille de lot par défaut est 4 (Midjourney renvoie 4 variantes), mais vous pouvez demander 1 ou 2 pour économiser du calcul.
Résolution — V1 est principalement SD (480p) par défaut ; HD (720p) nécessite la description de paramètre, par exemple vid_1.1_i2v_480.

Comment appeler l’endpoint vidéo Midjourney de CometAPI (pas à pas avec exemples) ?

Quel est le payload minimal de requête ?

Au minimum, vous envoyez :

prompt : l’URL de l’image de départ et un éventuel prompt textuel de mouvement (par ex., "![image](https://.../frame.png) add a dog running from left to right").
videoType : par ex., vid_1.1_i2v_480.
mode : "fast" (ou "relax" si autorisé par votre plan).
animateMode : "automatic" ou "manual".

Ceci est un exemple curl illustrant un POST vers[![image](https://api.cometapi.com/mj/submit/video.) Voici un exemple curl nettoyé et prêt à copier, adapté de l’exemple de CometAPI :

curl --location --request POST '![image](https://api.cometapi.com/mj/submit/video') \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Exemple Python (requests)

Si vous préférez Python, voici un exemple robuste utilisant requests qui soumet un job vidéo et le sonde jusqu’à completion (remplacez les placeholders). C’est un schéma pratique : soumettre → sonder → télécharger. L’exemple ci-dessous est volontairement simple et doit être adapté au système async/jobs de votre application en production.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Comment ajouter de l’audio (voix, musique, effets sonores) à une vidéo Midjourney/CometAPI ?

Midjourney produit-il de l’audio nativement ?

Non — à ce stade (V1), la sortie vidéo de Midjourney est muette (MP4 sans audio intégré). Les utilisateurs ajoutent le son à l’extérieur. (D’autres systèmes d’IA génèrent audio et vidéo ensemble, mais V1 de Midjourney se concentre sur le mouvement visuel.)

Filières recommandées pour ajouter voix et son

Text-to-Speech (TTS) pour la narration/voix — Utilisez ElevenLabs, Replica ou des services TTS/voice-cloning similaires pour générer des pistes de parole à partir de scripts. Ces services permettent de produire des styles de voix naturels, souvent à faible coût par minute. (Des posts LinkedIn / communautaires recommandent ElevenLabs comme choix léger pour la voix.)
Outils d’IA audio pour musique/SFX — Des outils comme MM Audio, Magicshot ou des générateurs SFX spécialisés peuvent produire des ambiances et effets adaptés au clip. Les guides communautaires et tutoriels montrent une bonne qualité avec MM Audio et d’autres IA audio.
Approche manuelle via DAW/éditeur (contrôle fin) — Importez le MP4 généré dans DaVinci Resolve / Premiere / Audacity, ajoutez l’audio TTS, les effets sonores et mixez. C’est la meilleure voie pour une synchronisation labiale et un timing précis. Des tutoriels communautaires et des walkthroughs YouTube détaillent pas à pas l’alignement de l’audio sur les vidéos Midjourney.

Exemple rapide : combiner audio + vidéo avec `ffmpeg`

En supposant que video.mp4 (muet) et speech.mp3 (TTS) sont prêts :

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Pour des mixages plus avancés (musique de fond + dialogue + effets), rendez une seule piste audio mixée depuis votre DAW puis multiplexez-la dans la vidéo comme ci-dessus.

Comment rédiger des prompts de mouvement pour contrôler l’animation ?

Modèles de prompts de mouvement

Le prompting de mouvement dans Midjourney V1 se fait en langage naturel. Modèles utiles :

Direction/action : « la caméra se déplace latéralement vers la gauche tandis que le sujet marche vers l’avant »
Mouvement d’objet : « une feuille tombe de l’arbre et dérive vers la caméra »
Instruction caméra : « zoom lent avant, léger parallaxe, vitesse 2x »
Qualité temporelle : « mouvement subtil, loopable, rythme cinématographique »

Commencez par une phrase de mouvement concise, puis ajoutez des adjectifs pour le style et le timing : par ex., "start_frame_url animate: 'slow spiral camera, subject bobs gently, loopable', style: 'film grain, cinematic, 2 fps tempo'". L’expérimentation et de petites itérations sont essentielles.

Animation automatique vs manuelle

Automatique : laissez le modèle inférer un mouvement plausible. Idéal pour des essais rapides.
Manuelle : fournissez des trajectoires de caméra explicites et des vecteurs de sujet pour des résultats cohérents et reproductibles — utile lorsque vous avez besoin d’une chorégraphie prévisible ou d’un appariement avec des prises de vues réelles.

Comment étendre les vidéos, changer la taille de lot ou créer des boucles ?

Extension de la durée de la vidéo

Après la génération, Midjourney (et des wrappers comme CometAPI) exposent des contrôles « Extend ». L’UI de Midjourney permet d’étendre un clip de 5 secondes par tranches de 4 secondes (jusqu’à ~21 secondes). De manière programmatique, vous appelez soit le même endpoint avec un indicateur extend, soit vous soumettez un nouveau job extend référant le clip original (la documentation de CometAPI montre les endpoints paramétrés et les boutons dans leur aperçu). Attendez-vous à des coûts d’extension similaires à une génération initiale.

Création de vidéos en boucle ou spécification des images de fin

Pour boucler, réutilisez l’image de départ comme image de fin ou ajoutez le paramètre --loop.
Pour une image de fin différente, fournissez une autre URL d’image (comme end) et assurez-vous qu’elle est compatible en ratio d’aspect. Midjourney prend en charge un paramètre --end. Envisagez d’utiliser l’extension manual pour ajuster les prompts en cours d’extension afin d’assurer la continuité.

Taille de lot et contrôle des coûts

Midjourney génère plusieurs variantes par défaut (taille de lot 4). Pour la production ou des flux sensibles aux coûts, définissez bs:1 pour réduire le calcul. La documentation de Midjourney inclut des estimations de temps GPU pour SD vs HD et différentes tailles de lot (utile pour la prévision des coûts). CometAPI propose une tarification compétitive.

Conclusion

Le modèle vidéo V1 de Midjourney est le premier pas public vers la vidéo programmable — il est conservateur par conception mais prometteur. Nous attendons des mises à jour itératives du modèle améliorant les séquences plus longues, une fidélité supérieure et des rigs de caméra plus contrôlables. Le rôle de CometAPI en tant qu’agrégateur abaisse la barrière d’intégration pour les développeurs qui souhaitent ajouter la vidéo Midjourney dans des applications sans gérer les idiosyncrasies d’authentification et de concurrence propres à chaque fournisseur.

Les développeurs peuvent accéder à MIdjourney Video API via CometAPI. Pour commencer, explorez les capacités des modèles de CometAPI dans le Playground et consultez le guide de l’API pour des instructions détaillées. Avant d’y accéder, veuillez vous assurer que vous êtes connecté à CometAPI et que vous avez obtenu la clé API. CometAPI propose un prix bien inférieur au tarif officiel pour faciliter votre intégration.

Prêt à démarrer ?→ Free trial of Midjourney!

Qu’est-ce que Midjourney V1

Ce que fait Midjourney V1 et comment c’est présenté aux utilisateurs

Comment CometAPI expose le modèle vidéo de Midjourney

Comment me préparer avant d’appeler l’API ?

De quels identifiants et comptes ai-je besoin ?

Quelles décisions prendre en amont

Comment appeler l’endpoint vidéo Midjourney de CometAPI (pas à pas avec exemples) ?

Quel est le payload minimal de requête ?

Exemple Python (requests)

Comment ajouter de l’audio (voix, musique, effets sonores) à une vidéo Midjourney/CometAPI ?

Midjourney produit-il de l’audio nativement ?

Filières recommandées pour ajouter voix et son

Exemple rapide : combiner audio + vidéo avec `ffmpeg`

Comment rédiger des prompts de mouvement pour contrôler l’animation ?

Modèles de prompts de mouvement

Animation automatique vs manuelle

Comment étendre les vidéos, changer la taille de lot ou créer des boucles ?

Extension de la durée de la vidéo

Création de vidéos en boucle ou spécification des images de fin

Taille de lot et contrôle des coûts

Conclusion

Prêt à réduire vos coûts de développement IA de 20 % ?

En savoir plus

Comment créer une vidéo avec l’API de Midjourney ?

Qu’est-ce que Midjourney V1

Ce que fait Midjourney V1 et comment c’est présenté aux utilisateurs

Comment CometAPI expose le modèle vidéo de Midjourney

Comment me préparer avant d’appeler l’API ?

De quels identifiants et comptes ai-je besoin ?

Quelles décisions prendre en amont

Comment appeler l’endpoint vidéo Midjourney de CometAPI (pas à pas avec exemples) ?

Quel est le payload minimal de requête ?

Exemple Python (requests)

Comment ajouter de l’audio (voix, musique, effets sonores) à une vidéo Midjourney/CometAPI ?

Midjourney produit-il de l’audio nativement ?

Filières recommandées pour ajouter voix et son

Exemple rapide : combiner audio + vidéo avec ffmpeg

Comment rédiger des prompts de mouvement pour contrôler l’animation ?

Modèles de prompts de mouvement

Animation automatique vs manuelle

Comment étendre les vidéos, changer la taille de lot ou créer des boucles ?

Extension de la durée de la vidéo

Création de vidéos en boucle ou spécification des images de fin

Taille de lot et contrôle des coûts

Conclusion

Prêt à réduire vos coûts de développement IA de 20 % ?

En savoir plus

Exemple rapide : combiner audio + vidéo avec `ffmpeg`