Hoe je stem en geluid toevoegt aan een Midjourney-video

CometAPI
AnnaDec 2, 2025
Hoe je stem en geluid toevoegt aan een Midjourney-video

De sprong van Midjourney naar de videogeneratie is spannend: het zet stilstaande beelden om in korte, herhaalbare animatieclips die de deur openen naar storytelling en bewegingsgestuurde content. Maar totdat Midjourney ingebouwde, gepolijste audiotracks levert (als dat ooit gebeurt), moeten makers audio aan de stille video-uitvoer stikken met behulp van een combinatie van AI-audiotools en klassieke editors. Dit artikel legt het huidige landschap uit (tools, workflows, tips en juridische randvoorwaarden) en geeft je een stapsgewijze, productieklare workflow voor het toevoegen van stem en geluid aan Midjourney-videoclips.

Wat is precies een "Midjourney-video" en waarom is er externe audio nodig?

Wat de videofunctie van Midjourney momenteel produceert

De videofunctie van Midjourney zet een gegenereerde of geüploade afbeelding om in een korte geanimeerde clip (aanvankelijk 5 seconden, uitbreidbaar in stappen) die de nadruk legt op beweging en camera-/onderwerpbewegingen in plaats van gesynchroniseerde audio of lipsynchrone dialogen. De tool is bedoeld om visueel rijke korte loops te genereren, geen afgewerkte audiovisuele verhalen. Dit betekent dat elke Midjourney-video die u exporteert geluidloos is en in de postproductie met audio moet worden gecombineerd om meer te worden dan alleen een bewegend beeld.

Wat zijn de basisregels en beperkingen voor Midjourney-video's?

De videofunctie van Midjourney zet een startafbeelding om in een korte geanimeerde clip (standaard 5 seconden), met opties om de lengte te verlengen tot maximaal 21 seconden, te kiezen voor 'Laag' of 'Hoog' beweging, herhaling en het wijzigen van de batchgrootte. Video's kunnen worden gedownload als .mp4 en Midjourney onthult een --video parameter (en --motion low|high, --loop, --end, --bs #, --raw --enden --bs parameters—zijn in Officiële documenten van Midjourney) voor Discord- of API-prompts. De resolutie is SD (480p), met HD (720p); batchgroottes en bewegingsinstellingen beïnvloeden de GPU-tijd en -kosten.

Praktische les: Midjourney-clips zijn kort (5–21 seconden), dus plan de gesproken tekst en audio die daarbij passen – of bereid je voor om meerdere clips aan elkaar te plakken. Download de Ruwe video (.mp4) van de Create-pagina van Midjourney voor de beste kwaliteit om mee te werken in de postproductie.

Waarom je stem, muziek en geluidseffecten moet toevoegen

Audio toevoegen:

  • Biedt context en verhaal (voice-over) en maakt abstracte beelden communicatief.
  • Bepaalt emotionele toon (muziekkeuze) en verbetert de kijkersbinding.
  • Baseer de AI-beelden op realisme (geluidsontwerp, Foley, ambient beds).
  • Maakt content geschikt voor TikTok, YouTube of Reels waarbij audio essentieel is.

Wat is de eenvoudigste workflow om stem en geluid toe te voegen aan een MidJourney-video?

Snel recept in één alinea

  1. Genereer uw visuele video of geanimeerde frames in MidJourney (Galerij → Animeren / Videofuncties).
  2. Exporteer/download de geproduceerde video (MP4/GIF).
  3. Produceer voice-over met OpenAI's TTS (bijv. gpt-4o-mini-tts of andere TTS-modellen) en exporteren als WAV/MP3.
  4. Maak achtergrondmuziek en geluidseffecten met behulp van AI-audiotools (tools zoals MM Audio, Udio of Runway kunnen hierbij helpen).
  5. Lijn uit en meng in een DAW (Reaper, Audacity, Logic, of gebruik gewoon ffmpeg voor directe samenvoegingen).
  6. U kunt eventueel AI-lipsynchronisatie uitvoeren als de video gezichten bevat en u wilt dat de mond overeenkomt met wat er wordt gesproken (Wav2Lip, Sync.so en commerciële diensten).

Waarom deze scheiding (visueel versus audio) belangrijk is

MidJourney richt zich op visuele creativiteit en bewegingsontwerp; audioontwerp is een andere technische stack (spraakgeneratie, audioontwerp, synchronisatie). Door verantwoordelijkheden te scheiden, heb je veel meer controle – stemkarakter, tempo, geluidsontwerp en mastering – zonder dat je in conflict komt met de visuele generator.

Hoe schrijf ik de Midjourney-prompt voor een video?

U kunt video's maken van elke afbeelding in uw galerij of door een openbaar gehoste afbeeldings-URL in de Imagine-balk te plakken en de --video parameter (op Discord of API). Na generatie kun je de MP4 (Raw of Social-versie) rechtstreeks downloaden vanaf de Midjourney Create-pagina of via Discord.

Een eenvoudig voorbeeld in Discord-stijl dat een geüploade afbeelding als startframe gebruikt:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Opmerkingen:

  • Plaats de URL van de afbeelding aan het begin om deze als startframe te gebruiken.
  • Toevoegen --video en een bewegingsvlag (--motion low or --motion high).
  • Gebruik --bs 1 als u slechts één uitgang nodig hebt (bespaart GPU-tijd).
  • Gebruik --raw als u minder stilering en meer deterministische beweging wilt.

Als de video korter is dan de gewenste voice-over, kun je de video in Midjourney verlengen (je kunt tot +4 seconden per verlenging verlengen, tot maximaal 21 seconden in totaal) of de audio knippen/herhalen om deze passend te maken. Let op de exacte duur (seconden + milliseconden) zodat je de voice-over en de geluidseffecten op elkaar kunt afstemmen. Midjourney biedt een optie "Raw video downloaden" op de pagina 'Create' en in Discord; gebruik die optie als je startbestand.

Welke OpenAI TTS-modellen moet ik overwegen en waarom?

Welke TTS-opties zijn er momenteel beschikbaar?

OpenAI biedt meerdere TTS-opties: historisch gezien tts-1 / tts-1-hd en de nieuwere stuurbare gpt-4o-mini-tts. De gpt-4o-mini-tts model legt de nadruk op stuurbaarheid (je kunt toon, tempo en emotie aanleren) en is ontworpen voor flexibele, expressieve stemgeneratie; tts-1 en tts-1-hd blijven sterke keuzes voor hoogwaardige, meer traditionele TTS. Gebruik gpt-4o-mini-tts wanneer je controle wilt hebben hoe de tekst wordt gesproken (stijl, sfeer), en tts-1-hd voor maximale trouw wanneer stijlcontrole minder kritisch is. penAI is blijven itereren op audiomodellen (aankondigingen in 2025 hebben de spraak- en transcriptiemogelijkheden uitgebreid), dus kies het model dat kosten, kwaliteit en controle voor uw project in evenwicht brengt. tts-model-API's zijn ook geïntegreerd in KomeetAPI.

Zijn er productiebeperkingen of huidige beperkingen?

gpt-4o-mini-tts kan soms instabiliteit vertonen bij langere audiobestanden (pauzes, volumeschommelingen), vooral bij bestanden langer dan 1.5–2 minuten. Voor korte Midjourney-clips (korter dan 20–30 seconden) is dit zelden een probleem, maar voor langere voice-overs of voice-overs is het raadzaam om te testen en te valideren. Verwacht u langere voice-overs, geef dan de voorkeur aan tts-1-hd of de tekst in kleinere stukken splitsen en ze zorgvuldig aan elkaar plakken.

Andere optietool

Achtergrondmuziek en geluidseffecten: Tools zoals MM Audio (communitytools), Udio, MagicShot of Runway kunnen snel bijpassende achtergrondmuziek en contextgevoelige geluidseffecten creëren; communitythreads en tutorials laten zien hoe makers deze in MidJourney-video's kunnen verwerken. Voor productiecontrole kun je stems (muziek + ambient) genereren en exporteren voor de mix.

Lipsynchronisatie en gezichtsanimatie: Als de video personages of close-ups van gezichten bevat en je realistische mondbewegingen wilt, overweeg dan Wav2Lip (open source) of commerciële API's zoals Sync.so, Synthesia of andere lipsynchronisatiediensten. Deze tools analyseren audio om foneem-gealigneerde mondvormen te produceren en deze toe te passen op een bepaald gezicht of een bepaalde framereeks.

Hoe genereer ik een spraakbestand met OpenAI's TTS (praktische code)?

Hieronder staan ​​twee praktische voorbeelden van CometAPI-oproepformaten die een MP3 (of WAV) genereren met behulp van het TTS-eindpunt van OpenAI. U kunt stemnamen en streamingvlaggen aanpassen op basis van uw CometAPI-account en SDK-updates.

⚠️ Vervangen YOUR_CometAPI_API_KEY met uw API-sleutel. Test eerst op een korte zin. Raadpleeg
Audiomodellen DOC in CometAPI.

Voorbeeld A — snel curl (opdrachtregel)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Als u de voorkeur geeft aan WAV:

  • Wijzig de naam van het uitvoerbestand naar narration.waven (indien beschikbaar) specificeer een audioformaatparameter in de body (sommige SDK's staan ​​dit toe format: "wav").

Waarom dit werkt: Het TTS-eindpunt accepteert tekst en retourneert een binair audiobestand dat u kunt opslaan en later kunt samenvoegen met uw video. Gebruik voice en instructions (indien beschikbaar) om prosodie en stijl te sturen.

Voorbeeld B: Python gebruikt verzoeken

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Hoe combineer ik de TTS-audio met een MidJourney-videobestand?

Exporteer de video van MidJourney

Met de Video/Animate-functies van MidJourney kunt u een MP4/GIF maken of een video exporteren vanuit uw galerij. Gebruik de functie 'Animate' of de exportopties voor de galerij om een ​​lokaal bestand te verkrijgen.

Eenvoudig samenvoegen met ffmpeg

Als u al hebt video.mp4 (geen of tijdelijke audio) en voiceover.wav (of mp3), gebruik ffmpeg om samen te voegen:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Opmerkingen:

  • -shortest stopt bij de kortste stream; laat dit weg als u wilt dat de video langer doorspeelt dan de audio (of andersom).
  • -c:v copy houdt de videostream ongewijzigd.
  • -c:a aac codeert audio naar AAC (compatibel met MP4).
  • Gebruik -af "volume=... filters voor luidheidsaanpassing.
  • Voor een professionele afwerking opent u de audio-stems in een DAW om de timing, EQ en compressie aan te passen.

Audio bijsnijden of aanvullen tot de exacte videolengte

Als de audio langer is dan de video en u een nauwkeurige montage wenst:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Als de audio korter is en u wilt dat achtergrondmuziek de rest van de tekst opvult of de stem herhaalt, gebruik dan adelay, apad, of mix met een achtergrondtrack. Voorbeeld: herhaal de voice-over om een ​​clip van 20 seconden te matchen (meestal niet aanbevolen voor voice-over):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Hoe je audio kunt compenseren (als de vertelling later moet beginnen)

Als uw vertelling na een korte stilte moet beginnen of als u meerdere segmenten op een afstand van elkaar moet plaatsen, gebruik dan -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 vertraagt ​​de tweede invoer met 0.5 seconde.

Voor meerdere audiotracks of zeer nauwkeurige plaatsing gebruik -filter_complex with adelay Genereer de TTS in kleine segmenten (één zin per bestand).:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Here adelay duurt milliseconden (2500 ms = 2.5s), zodat u tekst nauwkeurig kunt uitlijnen met visuele signalen.

Houd de vertelling kort en scènebewust: Omdat de clips van Midjourney kort en vaak gestileerd zijn, streef je naar een bondige hook (ongeveer 5-15 seconden) die past bij het tempo van de video. Verdeel de tekst in korte zinnen die ademen met de visuele overgangen of bewegingssignalen.

Hoe je achtergrondmuziek, voice-over en geluidseffecten mixt

Gebruik filter_complex om meerdere audio-ingangen te mixen en volumes te regelen. Voorbeeld:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Dit mengt vertelling (narration.mp3) en muziek (music.mp3) terwijl je het muziekvolume laag instelt, zodat het onder de stem zit. Je kunt ook dynamische ducking gebruiken (muziek laten faden wanneer de voice-over wordt afgespeeld) via sidechain-filters of bewerken in een DAW voor nauwkeurige fades.

Geavanceerde bewerking

Script en tempo

  • Schrijf een strak script en markeer visuele signalen (tijdcode of framenummers), zodat de TTS-uitvoer overeenkomt met de scèneveranderingen.
  • Gebruik korte zinnen voor een beter natuurlijk ritme. Als u langere zinnen nodig hebt, kunt u bewust pauzes inlassen of de tekst opsplitsen in meerdere TTS-aanroepen.

Pas beweging, intensiteit en textuur aan

  • Gebruik tijdelijke SFX om visuele overgangen of camerabewegingen te accentueren.
  • Voor een langzame, schilderachtige Midjourney-beweging (--motion low), geven de voorkeur aan subtiele ambiance en lange galmstaarten.
  • Voor hoge actie (--motion high), gebruik krachtige SFX, tempo-aangepaste muziekhits en korte galm.

Stuurstemstijl

Gebruik instructieve aanwijzingen om te sturen gpt-4o-mini-tts — bijvoorbeeld "instructions": "Calm, conversational, slight warmth, medium speed" of neem die instructie op als onderdeel van de tekstuele lading. Bijvoorbeeld:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Let op: de exacte parameternamen verschillen per SDK-versie. Test daarom de velden die uw SDK ondersteunt.

Tips voor geluidsontwerp

  • Voeg een track met een laag volume (muziek) toe en voeg er sidechain of duck-tracks aan toe tijdens de zang.
  • Gebruik korte whooshes, risers of impact-SFX die aansluiten op visuele overgangen. Houd de SFX kort en krachtig.
  • Normaliseer spraak (-1 dBFS) en comprimeer licht (verhouding 2:1) voor een consistent volume op alle platforms.
  • Voor sociale platforms kunt u de uiteindelijke video coderen met AAC-LC-audio en H.264-video voor compatibiliteit.

Kan ik personages in een MidJourney-video laten 'spreken' (lipsync) met de gegenereerde stem?

Ja – gebruik een lipsynchronisatiemodel om de fonemen van de TTS-audio naar de mondbewegingsframes te koppelen. De twee meest gebruikte benaderingen zijn:

Gebruik open tools zoals Wav2Lip (lokaal of gehost)

Wav2Lip stemt gesproken audio af op mondbewegingen en kan lokaal of via gehoste GUI's worden uitgevoerd. Typische workflow:

  1. Exporteer video of een reeks frames (beeldreeks) vanuit MidJourney.
  2. Maak het spraakbestand (OpenAI TTS).
  3. Start Wav2Lip om een ​​nieuwe video te maken waarin de mondvormen overeenkomen met de audio.

Wav2Lip is uitstekend geschikt voor 1:1-uitlijning van de mond en is open source. Mogelijk hebt u wat nabewerking nodig voor een visueel verfijnd resultaat.

Gebruik commerciële API's voor lipsynchronisatie in één stap

Diensten zoals Sync.so, Synthesia en andere bieden API/GUI-pipelines die zowel spraak als lipsynchronisatie/nasynchronisatie verwerken, soms inclusief meertalige nasynchronisatie. Deze diensten zijn vaak sneller en minder technisch, maar zijn betaalde diensten en kunnen de controle beperken.

Praktische notities over realisme

  • Voor perfect realisme zijn vaak micro-expressies, oogknipperingen en hoofdbewegingen nodig. Sommige lipsynchronisatiediensten voegen dit automatisch toe, terwijl andere handmatige aanpassingen vereisen.
  • Als de personages gestileerd zijn (niet fotorealistisch), vallen kleine lipsynchronisatiefouten minder op. Voor close-ups kunt u beter investeren in een DAW en een gezichtsretoucheringssysteem.

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

Gebruik MidJourney-video in CometAPI

KomeetAPI bieden een prijs die veel lager is dan de officiële prijs om u te helpen integreren Midjours-API  en  Midjourney Video-APIWelkom om u te registreren en CometAPI te ervaren. Om te beginnen kunt u de mogelijkheden van het model verkennen in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt. CometAPI ondersteunt resoluties van SD 480P en HD 720P.

Aanroepmethode: Gebruik de parameter videoType=vid_1.1_i2v_720.

Midjourney V1-videogeneratie: Ontwikkelaars kunnen videogeneratie integreren via de RESTful API. Een typische aanvraagstructuur (illustratief)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Audiomodellen

Ontwikkelaars hebben toegang tot GPT 4o audio en tts-1 via CometAPI, de nieuwste modelversie (eindpunt:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) wordt altijd bijgewerkt met de officiële website. Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de audio API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt. KomeetAPI bieden een prijs die veel lager is dan de officiële prijs om u te helpen integreren.

Conclusie

Het toevoegen van stem en geluid aan Midjourney-video is eenvoudig: genereer een korte Midjourney-clip, synthetiseer een korte vertelling met de stuurbare TTS van OpenAI en combineer en polijst deze vervolgens met behulp van ffmpeg. De nieuwe gpt-4o-mini-tts model geeft je een sterke stijlcontrole, terwijl Midjourney's --video workflow produceert heldere, korte animaties — perfect voor sociaal, prototype- of conceptwerk.

SHARE THIS BLOG

500+ modellen in één API

Tot 20% korting