Comment ajouter de la voix et du son à une vidéo Midjourney

CometAPI
AnnaDec 2, 2025
Comment ajouter de la voix et du son à une vidéo Midjourney

L'arrivée de Midjourney dans la génération vidéo est passionnante : la plateforme transforme des images fixes en courts clips animés, évolutifs et évolutifs, ouvrant la voie à la narration et au contenu animé. Mais en attendant que Midjourney propose des pistes audio intégrées et soignées (si tant est qu'il le fasse un jour), les créateurs doivent assembler l'audio sur la sortie vidéo silencieuse à l'aide d'outils audio IA et de logiciels de montage classiques. Cet article présente le paysage actuel (outils, workflows, astuces et garde-fous juridiques) et vous propose un workflow étape par étape, prêt à l'emploi, pour ajouter de la voix et du son aux clips vidéo Midjourney.

Qu’est-ce qu’une « vidéo Midjourney » exactement et pourquoi a-t-elle besoin d’un audio externe ?

Ce que produit actuellement la fonctionnalité vidéo de Midjourney

La fonctionnalité vidéo de Midjourney convertit une image générée ou téléchargée en un court clip animé (initialement de 5 secondes, extensible par incréments) qui met l'accent sur le mouvement et les interactions caméra/sujet plutôt que sur la synchronisation audio ou les dialogues en playback. L'outil est conçu pour générer de courtes boucles visuellement riches, et non des récits audiovisuels finis. Cela signifie que chaque vidéo Midjourney exportée sera silencieuse et devra être couplée à un son en postproduction pour devenir plus qu'une image animée.

Quelles sont les règles et limitations de base de la vidéo Midjourney ?

La fonction vidéo de Midjourney convertit une image de départ en un court clip animé (5 s par défaut). Vous pouvez étendre la durée jusqu'à 21 secondes, choisir un mouvement « faible » ou « élevé », lire en boucle et modifier la taille du lot. Les vidéos sont téléchargeables au format .mp4 et Midjourney expose un --video paramètre (et --motion low|high, --loop, --end, --bs #, --raw --endet --bs paramètres— sont dans Documents officiels de Midjourney) pour les invites Discord ou API. La résolution est SD (480p) et HD (720p). La taille des lots et les paramètres de mouvement affectent le temps et le coût du GPU.

Points pratiques à retenir : Les clips de mi-parcours sont courts (5 à 21 secondes), prévoyez donc une narration et un son adaptés à cette durée, ou préparez-vous à assembler plusieurs clips. Téléchargez le Vidéo brute (.mp4) depuis la page Créer de Midjourney pour la meilleure qualité de travail en post-production.

Pourquoi vous devriez ajouter de la voix, de la musique et des effets sonores

Ajout d'audio :

  • Fournit un contexte et un récit (voix off), rendant les visuels abstraits communicatifs.
  • Donne le ton émotionnel (choix musical) et améliore la rétention du spectateur.
  • Ancre les visuels de l'IA dans le réalisme (conception sonore, Foley, lits ambiants).
  • Rend le contenu prêt pour la plate-forme TikTok, YouTube ou les bobines où l'audio est essentiel.

Quel est le flux de travail le plus simple pour ajouter de la voix et du son à une vidéo MidJourney ?

Recette rapide en un paragraphe

  1. Générez votre vidéo visuelle ou vos images animées dans MidJourney (Galerie → Animer / Fonctionnalités vidéo).
  2. Exporter/télécharger la vidéo produite (MP4/GIF).
  3. Produisez une voix off avec TTS d'OpenAI (par exemple, gpt-4o-mini-tts ou d'autres modèles TTS) et exportez-les au format WAV/MP3.
  4. Créez de la musique de fond et des effets sonores à l'aide d'outils audio IA (des outils tels que MM Audio, Udio ou Runway peuvent vous aider).
  5. Alignez et mixez dans un DAW (Reaper, Audacity, Logic, ou utilisez simplement ffmpeg pour des fusions directes).
  6. Exécutez éventuellement la synchronisation labiale IA si la vidéo contient des visages et que vous souhaitez que la bouche corresponde à la parole (Wav2Lip, Sync.so et services commerciaux).

Pourquoi cette séparation (visuels et audio) est importante

MidJourney se concentre sur la créativité visuelle et le motion design ; la conception audio repose sur une approche technique différente (génération vocale, conception audio, synchronisation). La séparation des responsabilités vous offre un contrôle accru (personnage vocal, rythme, conception sonore et mastering), sans avoir à gérer le générateur visuel.

Comment dois-je créer l'invite Midjourney pour la vidéo ?

Vous pouvez créer des vidéos à partir de n'importe quelle image de votre galerie ou en collant l'URL d'une image hébergée publiquement dans la barre Imagine et en ajoutant le --video Paramètre (sur Discord ou API). Après la génération, vous pouvez télécharger le fichier MP4 (versions brute ou sociale) directement depuis la page de création de Midjourney ou depuis Discord.

Un exemple simple de style Discord qui utilise une image téléchargée comme image de départ :

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Remarques :

  • Placez l'URL de l'image au début pour l'utiliser comme cadre de départ.
  • Ajouter --video et un indicateur de mouvement (--motion low or --motion high).
  • Utilisez le --bs 1 si vous n'avez besoin que d'une seule sortie (gain de temps GPU).
  • Utilisez le --raw si vous voulez moins de stylisation et un mouvement plus déterministe.

Si la vidéo est plus courte que la narration souhaitée, vous pouvez soit l'allonger dans Midjourney (jusqu'à 4 secondes par extension, soit 21 secondes au total), soit couper/boucler l'audio pour l'adapter. Notez la durée exacte (secondes + millisecondes) afin d'aligner la narration et les effets sonores. Midjourney propose une option « Télécharger la vidéo brute » sur la page Créer et dans Discord ; utilisez-la comme fichier de départ.

Quels modèles OpenAI TTS dois-je considérer et pourquoi ?

Quelles sont les options TTS disponibles actuellement ?

OpenAI propose plusieurs options TTS : historiquement tts-1 / tts-1-hd et le plus récent orientable gpt-4o-mini-ttsL’ gpt-4o-mini-tts le modèle met l'accent sur la maniabilité (vous pouvez instruire le ton, le rythme, l'émotion) et est conçu pour une génération de voix flexible et expressive ; tts-1 et tts-1-hd restent des choix forts pour des TTS de haute qualité et plus traditionnels. gpt-4o-mini-tts quand tu veux contrôler how le texte est parlé (style, ambiance), et tts-1-hd Pour une fidélité maximale lorsque le contrôle du style est moins critique. penAI a continué d'itérer sur les modèles audio (les annonces en 2025 ont étendu les capacités de parole et de transcription), alors choisissez le modèle qui équilibre le coût, la qualité et les contrôles pour votre projet. Les API du modèle TTS sont également intégrées dans API Comet.

Y a-t-il des mises en garde ou des limitations de production actuelles ?

gpt-4o-mini-tts Les fichiers audio longs peuvent parfois présenter une certaine instabilité (pauses, fluctuations de volume), surtout au-delà d'environ 1.5 à 2 minutes. Pour les courts extraits Midjourney (moins de 20 à 30 secondes), cela pose rarement problème. En revanche, pour les narrations plus longues ou les voix off longues, testez et validez. Si vous prévoyez une narration plus longue, privilégiez-la. tts-1-hd ou divisez le texte en morceaux plus courts et assemblez-les soigneusement.

Autre outil d'option

Musique de fond et effets sonores : Des outils tels que MM Audio (outils communautaires), Udio, MagicShot ou Runway permettent de créer rapidement une musique de fond et des effets sonores contextuels. Les fils de discussion et tutoriels de la communauté montrent comment les créateurs les intègrent à leurs vidéos MidJourney. Pour un contrôle de qualité professionnelle, générez des stems (musique et ambiance) et exportez-les pour le mixage.

Synchronisation labiale et animation du visage : Si la vidéo inclut des personnages ou des gros plans de visages et que vous souhaitez des mouvements de bouche réalistes, pensez à Wav2Lip (open source) ou à des API commerciales comme Sync.so, Synthesia ou d'autres services de synchronisation labiale. Ces outils analysent l'audio pour produire des formes de bouche alignées sur les phonèmes et les appliquer à un visage ou à une séquence d'images cible.

Comment générer un fichier vocal avec TTS d'OpenAI (code pratique) ?

Vous trouverez ci-dessous deux exemples pratiques du format d'appel CometAPI générant un fichier MP3 (ou WAV) à l'aide du point de terminaison TTS d'OpenAI. Vous pouvez adapter les noms des voix et les indicateurs de diffusion en fonction de votre compte CometAPI et des mises à jour du SDK.

⚠️ Remplacer YOUR_CometAPI_API_KEY avec votre clé API. Testez d'abord sur une courte phrase. Consultez
Modèles audio DOC dans CometAPI.

Exemple A — rapide curl (ligne de commande)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Si vous préférez WAV :

  • Changer le nom du fichier de sortie en narration.wav, et (si disponible) spécifiez un paramètre de format audio dans le corps (certains SDK le permettent format: "wav").

Pourquoi cela fonctionne: Le point de terminaison TTS accepte le texte et renvoie un fichier audio binaire que vous pouvez enregistrer et fusionner ultérieurement avec votre vidéo. voice et instructions (le cas échéant) pour orienter la prosodie et le style.

Exemple B : Python utilisant des requêtes

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Comment combiner l'audio TTS avec un fichier vidéo MidJourney ?

Exporter la vidéo depuis MidJourney

Les fonctionnalités Vidéo/Animation de MidJourney vous permettent de créer un fichier MP4/GIF ou d'exporter une vidéo depuis votre galerie. Utilisez la fonction « Animer » ou les options d'exportation de la galerie pour obtenir un fichier local.

Fusion simple avec ffmpeg

Si vous avez déjà video.mp4 (pas d'audio ou audio d'espace réservé) et voiceover.wav (ou mp3), utilisez ffmpeg pour fusionner :

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Remarques :

  • -shortest s'arrête au flux le plus court ; omettez-le si vous souhaitez que la vidéo continue à jouer plus longtemps que l'audio (ou vice versa).
  • -c:v copy maintient le flux vidéo inchangé.
  • -c:a aac encode l'audio en AAC (compatible avec MP4).
  • Utilisez le -af "volume=... filtres pour l'adaptation du volume sonore.
  • Pour une finalisation professionnelle, ouvrez les fichiers audio dans un DAW pour ajuster le timing, l'égalisation et la compression.

Couper ou ajuster l'audio à la longueur exacte de la vidéo

Si l'audio est plus long que la vidéo et que vous souhaitez un découpage précis :

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Si l'audio est plus court et que vous souhaitez que la musique de fond remplisse le reste ou boucle la voix, utilisez adelay, apad, ou mixez avec une musique d'ambiance. Exemple : narration en boucle pour un extrait de 20 s (généralement déconseillé pour la voix) :

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Comment décaler l'audio (si la narration doit commencer plus tard)

Si votre narration doit commencer après un court silence ou si vous avez plusieurs segments à placer à des décalages, utilisez -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 retarde la deuxième entrée de 0.5 seconde.

Pour plusieurs pistes audio ou un placement très précis, utilisez -filter_complex avec adelay après Générer le TTS en petits segments (une phrase par fichier) :

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Ici adelay Cela prend quelques millisecondes (2500 ms = 2.5 s), ce qui vous permet d'aligner précisément le texte sur les repères visuels.

Gardez une narration courte et cohérente avec la scène : les clips de Midjourney étant courts et souvent stylisés, privilégiez une accroche concise (environ 5 à 15 secondes) qui corresponde au rythme de la vidéo. Découpez le texte en phrases courtes qui respirent grâce aux coupes visuelles ou aux signaux de mouvement.

Comment mélanger musique de fond + narration + effets sonores

Utilisez le filter_complex Pour mixer plusieurs entrées audio et contrôler le volume. Exemple :

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Cela mélange la narration (narration.mp3) et la musique (music.mp3) tout en réglant le volume de la musique à un niveau bas pour qu'il soit en dessous de la voix. Vous pouvez également appliquer un ducking dynamique (faisant disparaître la musique pendant la lecture) via des filtres sidechain ou éditer dans un logiciel audionumérique pour des fondus précis.

Montage avancé

Scénario et rythme

  • Rédigez un script précis et marquez des repères visuels (code temporel ou numéros d'image) afin que la sortie TTS s'aligne sur les changements de scène.
  • Utilisez des phrases courtes pour une meilleure cadence naturelle ; si vous avez besoin de longues lectures, insérez des pauses intentionnelles ou divisez-les en plusieurs appels TTS.

Associez le mouvement, l'intensité et la texture

  • Utilisez des effets sonores transitoires pour accentuer les coupures visuelles ou les mouvements de caméra.
  • Pour un mouvement lent et pictural de Midjourney (--motion low), privilégiez une ambiance subtile et de longues queues de réverbération.
  • Pour une action élevée (--motion high), utilisez des effets sonores percutants, des hits musicaux adaptés au tempo et une réverbération courte.

Style de voix de direction

Utilisez des invites instructives pour orienter gpt-4o-mini-tts — par exemple, "instructions": "Calm, conversational, slight warmth, medium speed" ou inclure cette instruction dans la charge utile textuelle. Par exemple :

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Attention : les noms exacts des paramètres diffèrent selon les versions du SDK. Testez les champs pris en charge par votre SDK.

Conseils de conception sonore

  • Ajoutez une piste de lit à faible volume (musique) et faites-la une chaîne latérale ou atténuez-la pendant la voix.
  • Utilisez des sifflements courts, des montées ou des effets sonores d'impact alignés sur les transitions visuelles. Veillez à ce que les effets sonores soient courts et précis.
  • Normalisez la voix (-1 dBFS) et compressez légèrement (ratio 2:1) pour un volume sonore cohérent sur toutes les plateformes.
  • Pour les plateformes sociales, encodez la vidéo finale avec l'audio AAC-LC et la vidéo H.264 pour plus de compatibilité.

Puis-je faire « parler » (synchronisation labiale) les personnages d’une vidéo MidJourney à la voix générée ?

Oui, utilisez un modèle de synchronisation labiale pour associer les phonèmes de la synthèse vocale aux images de mouvement de la bouche. Les deux approches les plus courantes sont :

Utilisez des outils ouverts comme Wav2Lip (locaux ou hébergés)

Wav2Lip aligne le son parlé sur le mouvement de la bouche et peut être exécuté localement ou via des interfaces utilisateur hébergées. Flux de travail typique :

  1. Exporter une vidéo ou une série d'images (séquence d'images) depuis MidJourney.
  2. Produire le fichier vocal (OpenAI TTS).
  3. Exécutez Wav2Lip pour générer une nouvelle vidéo dans laquelle les formes de la bouche correspondent à l'audio.

Wav2Lip est excellent pour l'alignement de la bouche 1:1 et est open source ; vous aurez peut-être besoin d'un post-traitement pour un peaufinage visuel.

Utiliser des API commerciales pour une synchronisation labiale en une seule étape

Des services comme Sync.so, Synthesia et d'autres proposent des pipelines API/GUI qui gèrent à la fois la parole et le doublage/la synchronisation labiale, incluant parfois le doublage multilingue. Ces services peuvent être plus rapides et moins techniques, mais sont payants et peuvent limiter le contrôle précis.

Notes pratiques sur le réalisme

  • Un réalisme parfait nécessite souvent des micro-expressions, des clignements d'yeux et des mouvements de tête. Certains services de synchronisation labiale les ajoutent automatiquement ; d'autres nécessitent des ajustements manuels.
  • Si les personnages sont stylisés (non photoréalistes), les petites erreurs de synchronisation labiale sont moins visibles ; pour les gros plans, investissez du temps dans un DAW + un pipeline de retouche faciale.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Utiliser la vidéo MidJourney dans CometAPI

API Comet proposer un prix bien inférieur au prix officiel pour vous aider à intégrer API à mi-parcours et API vidéo MidjourneyBienvenue pour vous inscrire et découvrir CometAPI. Pour commencer, explorez les capacités du modèle dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. CometAPI prend en charge les résolutions SD 480p et HD 720p.

Méthode d'appel : utilisez le paramètre videoType=vid_1.1_i2v_720.

Vidéo Midjourney V1génération: Les développeurs peuvent intégrer la génération vidéo via une API RESTful. Structure de requête typique (à titre d'illustration)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Modèles audio

Les développeurs peuvent accéder à l'audio GPT 4o et au tts-1 via CometAPI, la dernière version du modèle (point de terminaison :gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) est constamment mis à jour avec le site officiel. Pour commencer, explorez les capacités du modèle dans le cour de récréation et consultez le guide de l'API audio Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Conclusion

L'ajout de voix et de son à une vidéo Midjourney est simple : générez un court clip Midjourney, synthétisez une courte narration avec le TTS orientable d'OpenAI, puis combinez et peaufinez à l'aide de ffmpeg. La nouvelle gpt-4o-mini-tts Le modèle vous offre un contrôle stylistique fort, tandis que celui de Midjourney --video Le flux de travail produit des animations courtes et nettes, parfaites pour le travail social, de prototypage ou de concept.

SHARE THIS BLOG

500+ Modèles en Une API

Jusqu'à 20% de réduction