Comment créer une vidéo avec l'API Midjourney ?

CometAPI
AnnaDec 29, 2025
Comment créer une vidéo avec l'API Midjourney ?

L’arrivée de Midjourney dans la vidéo a été l’un des plus grands sujets de la technologie créative en 2025. Ce qui a commencé comme un outil plébiscité et centré sur l’image a ajouté un flux « Image-to-Video » qui transforme des images fixes en courts clips animés — et le système évolue rapidement.

La capacité vidéo de Midjourney est un flux image-to-video qui anime une image unique en un court clip via un flux « Animate », produisant par défaut des clips de cinq secondes et permettant des extensions jusqu’à ~21 secondes. La fonctionnalité a été lancée à la mi‑2025 en tant que modèle vidéo V1 de Midjourney et est disponible via l’API Midjourney Video V1 de CometAPI.

Qu’est-ce que Midjourney V1

Ce que fait Midjourney V1 et comment il est proposé aux utilisateurs

Le modèle vidéo V1 de Midjourney transforme une image fixe unique (générée dans Midjourney ou hébergée en externe) en courts clips animés — par défaut d’environ 5 secondes — en utilisant des modes d’animation automatiques ou manuels et des indicateurs d’intensité de mouvement (--motion low / --motion high). Les utilisateurs peuvent prolonger les clips par incréments de 4 secondes (jusqu’à ~21 secondes) et contrôler la taille de lot, le bouclage et les images de fin ; les sorties vidéo sont en MP4. Le modèle V1 Video de Midjourney est un modèle d’image-to-video optimisé pour des clips courts, stylisés et bouclables. Les caractéristiques typiques du modèle V1 incluent :

  • Longueur de clip de base ~5 secondes, avec un mécanisme d’extension contrôlé (incréments de 4 secondes, jusqu’à une limite documentée).
  • Mise en avant de la préservation du style artistique de l’image source (trait, couleur, ambiance).
  • Compromis résolution/qualité pour itérations rapides ; V1 est orienté vers les contenus sociaux et web plutôt que vers une sortie cinématographique complète.

Ces contraintes influencent la manière dont vous concevez les assets et les prompts : V1 est idéal pour des mouvements concis, des images animées, des boucles produit « hero » ou de courts motifs de personnage plutôt que des scènes longues.

Comment CometAPI met à disposition le modèle vidéo Midjourney

CometAPI est une passerelle multi‑modèles qui agrège l’accès à des centaines de modèles d’IA (texte, image, audio et désormais image‑to‑video) derrière une seule surface REST. Son offre Midjourney Video encapsule la capacité V1 Video de Midjourney afin que les ingénieurs puissent appeler la génération image‑to‑video de manière programmatique au lieu de s’appuyer uniquement sur l’interaction Discord/web. Cela la rend utile pour automatiser des pipelines créatifs, construire des preuves de concept et intégrer de courts assets animés dans des applications ou des workflows de production de contenu.

CometAPI’s Midjourney Video permet aux développeurs de s’authentifier, d’appeler un endpoint /mj/submit/video et de passer des paramètres tels que le prompt (qui peut inclure une URL d’image de départ), videoType (par ex., vid_1.1_i2v_480), mode (fast/relax), et animateMode (automatic/manual). CometAPI propose un prix inférieur par appel et une plus grande commodité (clé API unique + interface REST) par rapport à une intégration directe via le workflow centré sur Discord de Midjourney.

Comment me préparer avant d’appeler l’API ?

Quels identifiants et comptes sont nécessaires ?

  1. Inscrivez-vous sur CometAPI et générez une clé API depuis le tableau de bord de votre compte (CometAPI utilise un jeton bearer comme sk-xxxxx).
  2. Assurez-vous que vos assets image sont disponibles en ligne (URL publiquement accessible) si vous prévoyez d’utiliser des images externes comme image de départ. Midjourney nécessite des URL accessibles pour les workflows image→vidéo externes.

Les décisions à prendre en amont

  • Image de départ — choisissez une image avec un sujet et une composition clairs ; le format d’image influe sur la résolution/aspect final de la vidéo (Midjourney mappe les formats d’images de départ vers des tailles de pixels SD/HD).
  • Style de mouvement — choisissez Low vs High motion (--motion low vs --motion high) et si vous souhaitez une inférence automatique ou un contrôle manuel du mouvement caméra/sujet.
  • Longueur et taille de lot — par défaut 5 secondes ; vous pouvez prolonger jusqu’à ~21 s. La taille de lot par défaut est 4 (Midjourney renvoie 4 variantes), mais vous pouvez demander 1 ou 2 pour économiser du calcul.
  • Résolution — V1 est principalement SD (480p) par défaut ; HD (720p) nécessite une description de paramètre, telle que vid_1.1_i2v_480.

Comment appeler l’endpoint vidéo Midjourney de CometAPI (pas à pas avec exemples) ?

Quel est le payload minimal de requête ?

Au minimum, vous envoyez :

  • prompt : l’URL de l’image de départ et un éventuel prompt textuel de mouvement (par ex., "https://.../frame.png ajouter un chien courant de gauche à droite").
  • videoType : par ex., vid_1.1_i2v_480.
  • mode : "fast" (ou "relax" si autorisé par votre plan).
  • animateMode : "automatic" ou "manual".

Voici un échantillon curl illustrant un POST vers https://api.cometapi.com/mj/submit/video. Ci‑dessous un exemple curl propre, prêt à copier, adapté à partir de l’exemple CometAPI :

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Exemple Python (requests)

Si vous préférez Python, voici un exemple robuste utilisant requests qui soumet un job vidéo et le sonde jusqu’à complétion (remplacez les placeholders). C’est un schéma pratique : soumettre → sonder → télécharger. L’exemple ci‑dessous est volontairement simple et devrait être adapté au système async/job de votre application en production.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Comment ajouter de l’audio (voix, musique, effets sonores) à une vidéo Midjourney/CometAPI ?

Midjourney produit‑il de l’audio nativement ?

Non — en V1, la sortie vidéo de Midjourney est muette (MP4 sans audio intégré). Les utilisateurs ajoutent le son en externe. (Il existe d’autres systèmes d’IA qui génèrent audio et vidéo ensemble, mais la V1 de Midjourney se concentre sur le mouvement visuel.)

Pipelines recommandés pour ajouter voix et son

  1. Text‑to‑Speech (TTS) pour la narration/la voix — utilisez ElevenLabs, Replica ou des services de clonage/TTS similaires pour générer des pistes de parole à partir de scripts. Ces services permettent de produire des styles de voix naturels et parfois à faible coût par minute. (Des posts LinkedIn / communautaires recommandent ElevenLabs comme choix léger pour la voix.)
  2. Outils d’IA audio pour musique/SFX — des outils comme MM Audio, Magicshot ou des générateurs SFX spécialisés peuvent créer des ambiances de fond et des effets adaptés au clip. Les guides communautaires et tutoriels montrent une bonne qualité avec MM Audio et d’autres IA audio.
  3. Approche manuelle via un DAW/éditeur (contrôle fin) — importez le MP4 généré dans DaVinci Resolve / Premiere / Audacity, ajoutez l’audio TTS, les effets sonores et faites le mix. C’est la meilleure voie pour une synchro labiale et un timing précis. Les tutoriels communautaires et les walkthroughs YouTube détaillent pas à pas la correspondance de l’audio avec les vidéos Midjourney.

Exemple rapide : combiner audio + vidéo avec ffmpeg

En supposant que video.mp4 (muette) et speech.mp3 (TTS) soient prêts :

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Pour des mixages plus avancés (musique de fond + dialogue + effets), exportez une piste audio unique depuis votre DAW puis multiplexez‑la dans la vidéo comme ci‑dessus.

Comment rédiger des motion prompts pour contrôler l’animation ?

Schémas de motion prompts

Le motion prompting dans Midjourney V1 se fait en langage naturel. Schémas utiles :

  • Direction / action : « travelling latéral gauche de la caméra tandis que le sujet avance »
  • Mouvement d’objet : « une feuille tombe de l’arbre et dérive vers la caméra »
  • Instruction caméra : « zoom lent avant, léger parallaxe, vitesse 2x »
  • Qualité temporelle : « mouvement subtil, bouclable, rythme cinématographique »

Commencez par une phrase concise décrivant le mouvement, puis ajoutez des adjectifs pour le style et le timing : par ex., "start_frame_url animate: 'caméra en spirale lente, le sujet oscille doucement, bouclable', style: 'grain de film, cinématographique, rythme 2 fps'". L’expérimentation et de petites itérations sont essentielles.

Animation automatique vs manuelle

  • Automatique : laissez le modèle inférer un mouvement plausible. Idéal pour des essais rapides.
  • Manuelle : fournissez des trajectoires de caméra et des vecteurs de sujet explicites pour des résultats cohérents et reproductibles — utile quand vous avez besoin d’une chorégraphie prévisible ou d’un raccord avec des prises live.

Comment prolonger des vidéos, changer la taille de lot ou créer des boucles ?

Prolonger la longueur de la vidéo

Après la génération, Midjourney (et des wrappers comme CometAPI) expose des contrôles « Extend ». L’interface de Midjourney permet d’étendre un clip de 5 secondes par tranches de 4 secondes (jusqu’à ~21 secondes). Programmatiquement, vous appelez soit le même endpoint avec un indicateur extend, soit soumettez un nouveau job extend référant le clip original (la documentation de CometAPI présente les endpoints paramétrés et les boutons dans leur aperçu). Attendez‑vous à des coûts d’extension similaires à une génération initiale.

Créer des vidéos bouclées ou spécifier des images de fin

  • Pour boucler, réutilisez l’image de départ comme image de fin ou ajoutez le paramètre --loop.
  • Pour une image de fin différente, fournissez une autre URL d’image (en tant que end) et assurez‑vous qu’elle est compatible en format d’image. Midjourney prend en charge un paramètre --end. Envisagez d’utiliser l’extension manual pour ajuster les prompts en cours d’extension afin d’assurer la continuité.

Taille de lot et maîtrise des coûts

Midjourney génère plusieurs variantes par défaut (taille de lot 4). Pour des flux de production ou sensibles aux coûts, définissez bs:1 pour réduire le calcul. La documentation de Midjourney inclut des estimations de temps GPU pour SD vs HD et différentes tailles de lot (utile pour la prévision des coûts). CometAPI propose des tarifs compétitifs.

Conclusion

Le modèle vidéo V1 de Midjourney constitue la première étape publique vers la vidéo programmable — il est conservateur par conception mais prometteur. Nous anticipons des mises à jour itératives améliorant les séquences plus longues, une fidélité accrue et des rigs de caméra plus contrôlables. Le rôle de CometAPI en tant qu’agrégateur réduit la barrière d’intégration pour les développeurs souhaitant ajouter la vidéo Midjourney dans des applications sans gérer les spécificités d’authentification et de concurrence propres à chaque fournisseur.

Les développeurs peuvent accéder à la MIdjourney Video API via CometAPI. Pour commencer, explorez les capacités des modèles de CometAPI dans le Playground et consultez le guide de l’API pour des instructions détaillées. Avant d’y accéder, veuillez vous assurer que vous êtes connecté à CometAPI et que vous avez obtenu la clé API. CometAPI offre un prix bien inférieur au prix officiel pour vous aider à intégrer.

Prêt à vous lancer ?→ Essai gratuit de Midjourney!

En savoir plus

500+ Modèles en Une API

Jusqu'à 20% de réduction