Sådan tilføjer du stemme og lyd til en Midjourney-video

Midjourneys spring ind i videogenerering er spændende: det forvandler stillbilleder til korte, loopbare animerede klip, der åbner døren for historiefortælling og bevægelsesdrevet indhold. Men indtil Midjourney leverer indbyggede, polerede lydspor (hvis det nogensinde gør), skal skabere sammenføje lyd til lydløs videooutput ved hjælp af en blanding af AI-lydværktøjer og klassiske editorer. Denne artikel forklarer det nuværende landskab (værktøjer, arbejdsgange, tips og juridiske sikkerhedsforanstaltninger) og giver dig en trin-for-trin, produktionsklar arbejdsgang til at tilføje stemme og lyd til Midjourney-videoklip.

Hvad er en "Midjourney-video" præcist, og hvorfor har den brug for ekstern lyd?

Hvad Midjourneys videofunktion producerer i øjeblikket

Midjourneys videofunktion konverterer et genereret eller uploadet billede til et kort animeret klip (i starten 5 sekunder, kan forlænges i intervaller), der fremhæver bevægelse og kamera-/motivbevægelse i stedet for synkroniseret lyd eller læbesynkroniseret dialog. Værktøjet er beregnet til at generere visuelt fyldige korte loops, ikke færdige audiovisuelle fortællinger. Det betyder, at alle Midjourneys videoer, du eksporterer, vil være lydløse og skal parres med lyd i postproduktionen for at blive mere end et levende billede.

Hvad er de grundlæggende regler og begrænsninger for Midjourney-videoer?

Midjourneys videofunktion konverterer et startbillede til et kort animeret klip (5 sekunder som standard) med muligheder for at forlænge længden op til 21 sekunder i alt, vælge "Lav" eller "Høj" bevægelse, loope og ændre batchstørrelse. Videoer kan downloades som .mp4 og Midjourney afslører en --video parameter (og --motion low|high, --loop, --end, --bs #, --raw --endog --bs parametre — er i Midjourneys officielle dokumentation) til Discord- eller API-prompts. Opløsningen er SD (480p) med HD (720p); batchstørrelser og bevægelsesindstillinger påvirker GPU-tid og -omkostninger.

Praktisk takeaway: Midtvejsklip er korte (5-21 sekunder), så planlæg fortælling og lyd, så de passer til den ramme – eller forbered dig på at sammensætte flere klip. Download Rå video (.mp4) fra Midjourneys Create-side for at få den bedste kvalitet at arbejde med i postproduktionen.

Hvorfor du bør tilføje stemme, musik og SFX

Tilføjelse af lyd:

Giver kontekst og fortælling (voiceover), hvilket gør abstrakte visuelle elementer kommunikative.
Sætter en følelsesmæssig tone (musikvalg) og forbedrer seerfastholdelse.
Forankrer AI-visualerne i realisme (lyddesign, Foley, ambient beds).
Gør indhold platformsklar til TikTok, YouTube eller reels, hvor lyd er afgørende.

Hvad er den enkleste arbejdsgang til at tilføje stemme og lyd til en MidJourney-video?

Hurtig opskrift på ét afsnit

Generer din visuelle video eller animerede billeder i MidJourney (Galleri → Animér / Videofunktioner).
Eksporter/download den producerede video (MP4/GIF).
Producer voiceover med OpenAI's TTS (f.eks. gpt-4o-mini-tts eller andre TTS-modeller) og eksporter som WAV/MP3.
Skab baggrundsmusik og SFX ved hjælp af AI-lydværktøjer (værktøjer som MM Audio, Udio eller Runway kan hjælpe).
Juster og mix i en DAW (Reaper, Audacity, Logic, eller brug blot ffmpeg til direkte merges).
Kør eventuelt AI-læbesynkronisering, hvis videoen indeholder ansigter, og du ønsker, at munden skal matche tale (Wav2Lip, Sync.so og kommercielle tjenester).

Hvorfor denne adskillelse (visuelt vs. lyd) er vigtig

MidJourney fokuserer på visuel kreativitet og motion design; lyddesign er en anden teknisk stak (talegenerering, lyddesign, synkronisering). Adskillelse af ansvarsområder giver dig meget mere kontrol – stemmekarakter, tempo, lyddesign og mastering – uden at skulle kæmpe med den visuelle generator.

Hvordan skal jeg lave Midjourney-prompten til video?

Du kan oprette videoer fra ethvert billede i dit galleri eller ved at indsætte en offentligt hostet billed-URL i Imagine-linjen og tilføje --video parameter (på Discord eller API). Efter generering kan du downloade MP4-filen (Raw- eller sociale versioner) direkte fra Midjourney Create-siden eller fra Discord.

Et simpelt Discord-lignende eksempel, der bruger et uploadet billede som startbillede:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Bemærkninger:

Indsæt billedets URL i starten for at bruge den som startramme.
Tilføj --video og et bevægelsesflag (--motion low or --motion high).
Brug --bs 1 hvis du kun har brug for et enkelt output (sparer GPU-tid).
Brug --raw hvis du ønsker mindre stilisering og mere deterministisk bevægelse.

Hvis videoen er kortere end din ønskede fortælling, kan du enten forlænge videoen i Midjourney (du kan forlænge den med op til +4 sekunder pr. forlængelse, op til 21 sekunder i alt) eller klippe/loope lyden, så den passer. Bemærk den nøjagtige varighed (sekunder + millisekunder), så du kan justere fortælling og SFX. Midjourney tilbyder en "Download Raw Video"-mulighed på opretsiden og i Discord; brug den som din startfil.

Hvilke OpenAI TTS-modeller bør jeg overveje, og hvorfor?

Hvilke TTS-muligheder er tilgængelige lige nu?

OpenAI tilbyder flere TTS-muligheder: historisk set tts-1 / tts-1-hd og den nyere styrbare gpt-4o-mini-tts. Det gpt-4o-mini-tts Modellen lægger vægt på styrbarhed (du kan instruere tone, tempo, følelser) og er designet til fleksibel, udtryksfuld stemmegenerering; tts-1 og tts-1-hd forbliver stærke valg for mere traditionelle TTS af høj kvalitet. gpt-4o-mini-tts når du vil kontrollere hvordan teksten er talt (stil, stemning), og tts-1-hd for maksimal kvalitet, når stilkontrol er mindre kritisk. penAI har fortsat med at iterere på lydmodeller (meddelelser i 2025 udvidede tale- og transskriptionsfunktioner), så vælg den model, der balancerer omkostninger, kvalitet og kontrol for dit projekt. tts-model-API'er er også integreret i CometAPI.

Er der nogen produktionsmæssige forbehold eller nuværende begrænsninger?

gpt-4o-mini-tts kan nogle gange være ustable på længere lydfiler (pauser, lydstyrkeudsving), især ud over ~1.5-2 minutter. For korte Midjourney-klip (under ~20-30 sekunder) er dette sjældent et problem, men for længere fortælling eller lange voiceovers, test og valider. Hvis du forventer længere fortælling, foretrækkes tts-1-hd eller opdel tekst i kortere bidder og sammensæt dem omhyggeligt.

Andet valgfrit værktøj

Baggrundsmusik og SFX: Værktøjer som MM Audio (fællesskabsværktøjer), Udio, MagicShot eller Runway kan hurtigt skabe matchende baggrundsmusik og kontekstafhængige SFX; fællesskabstråde og tutorials viser skabere, der blander disse ind i MidJourney-videoer. For kontrol i produktionsklasse kan du generere stems (musik + ambient) og eksportere dem til mixning.

Læbesynkronisering og ansigtsanimation: Hvis videoen indeholder karakterer eller nærbilleder af ansigter, og du ønsker realistiske mundbevægelser, kan du overveje Wav2Lip (open source) eller kommercielle API'er som Sync.so, Synthesia eller andre lip-sync-tjenester. Disse værktøjer analyserer lyd for at producere fonemjusterede mundformer og anvender dem på et målansigt eller en billedsekvens.

Hvordan genererer jeg en stemmefil med OpenAI's TTS (praktisk kode)?

Nedenfor er to praktiske eksempler fra CometAPI-kaldsformatet, der genererer en MP3 (eller WAV) ved hjælp af OpenAI's TTS-slutpunkt. Du kan tilpasse stemmenavne og streamingflag i henhold til din CometAPI-konto og SDK-opdateringer.

⚠️ Udskift YOUR_CometAPI_API_KEY med din API-nøgle. Test først på en kort sætning. Se
Lydmodeller DOC i CometAPI.

Eksempel A — hurtigt `curl` (kommandolinje)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Hvis du foretrækker WAV:

Skift outputfilnavn til narration.wav, og (hvis tilgængelig) angiv en lydformatparameter i brødteksten (nogle SDK'er tillader format: "wav").

Hvorfor dette virker: TTS-slutpunktet accepterer tekst og returnerer en binær lydfil, som du kan gemme og flette med din video senere. voice og instructions (hvor tilgængeligt) til at styre prosodi og stil.

Eksempel B: Python ved hjælp af anmodninger

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Hvordan kombinerer jeg TTS-lyden med en MidJourney-videofil?

Eksporter videoen fra MidJourney

MidJourneys Video/Animate-funktioner giver dig mulighed for at oprette en MP4/GIF eller eksportere en video fra dit galleri – brug funktionen "Animate" eller galleriets eksportmuligheder for at hente en lokal fil.

Simpel sammenflettelse med ffmpeg

Hvis du allerede har video.mp4 (ingen eller midlertidig lyd) og voiceover.wav (eller mp3), brug ffmpeg til at flette:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Bemærkninger:

-shortest stopper ved den kortere stream; udelad dette, hvis du vil have, at videoen skal afspilles længere end lyden (eller omvendt).
-c:v copy holder videostreamen uændret.
-c:a aac koder lyd til AAC (kompatibel med MP4).
Brug -af "volume=... filtre til lydstyrkematchning.
For professionel finalisering skal du åbne lydstammerne i en DAW for at justere timing, EQ og kompression.

Trim eller juster lyd til den nøjagtige videolængde

Hvis lyden er længere end videoen, og du ønsker en præcis klipning:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Hvis lyden er kortere, og du ønsker, at baggrundsmusikken skal udfylde resten eller loope stemmen, skal du bruge adelay, apad, eller bland med baggrundsspor. Eksempel: loop-fortælling, der matcher et 20'er-klip (anbefales normalt ikke til stemme):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Sådan forskydes lyd (hvis fortællingen skal starte senere)

Hvis din fortælling skal starte efter en kort stilhed, eller du har flere segmenter, der skal placeres forskudt, skal du bruge -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 forsinker det andet input med 0.5 sekunder.

Til brug ved flere lydspor eller meget præcis placering -filter_complex med adelay efter generering af TTS i små segmenter (én sætning pr. fil):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Her adelay tager millisekunder (2500 ms = 2.5 s), så du kan justere tekst præcist i forhold til visuelle signaler.

Hold fortællingen kort og scenebevidst: Da Midjourneys klip er korte og ofte stiliserede, skal du sigte efter en præcis hook (~5-15 sekunder), der matcher videoens tempo. Opdel teksten i korte sætninger, der følger de visuelle klip eller bevægelsessignaler.

Sådan mikser du baggrundsmusik + fortælling + SFX

Brug filter_complex for at blande flere lydindgange og styre lydstyrken. Eksempel:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Dette blander fortælling (narration.mp3) og musik (music.mp3) mens du indstiller musikniveauet lavt, så det ligger under stemmen. Du kan også køre dynamisk ducking (få musikken til at fade ud, når fortællingen afspilles) via sidechain-filtre eller redigere i en DAW for præcise fades.

Avanceret redigering

Manuskript og tempo

Skriv et stramt manuskript og marker visuelle signaler (tidskode eller billednumre), så TTS-outputtet justeres til sceneskift.
Brug korte sætninger for en bedre naturlig kadence; hvis du har brug for lange læsninger, så indsæt bevidste pauser eller opdel teksten i flere TTS-opkald.

Match bevægelse, intensitet og tekstur

Brug forbigående SFX til at fremhæve visuelle klip eller kamerabevægelser.
For langsom, malerisk Midjourney-bevægelse (--motion low), foretrækker diskret ambience og lange rumklangshaler.
For høj aktion (--motion high), brug slagkraftige SFX, tempo-matchede musikalske hits og kort rumklang.

Styringsstemmestil

Brug instruktionsmæssige instruktioner til at styre gpt-4o-mini-tts — f.eks. "instructions": "Calm, conversational, slight warmth, medium speed" eller inkluder den instruktion som en del af tekstnyttelasten. For eksempel:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Vær forsigtig: De nøjagtige parameternavne varierer på tværs af SDK-versioner – test de felter, dit SDK understøtter.

Tips til lyddesign

Tilføj et lavvolumen-baseret musikspor og sidechain eller duck det under voice.
Brug korte sus, risers eller slagkraftige SFX, der er justeret til visuelle overgange. Hold SFX korte og skarpe.
Normaliser stemmen (-1 dBFS) og komprimer let (forhold 2:1) for ensartet lydstyrke på tværs af platforme.
For sociale platforme skal den endelige video kodes med AAC-LC-lyd og H.264-video for kompatibilitet.

Kan jeg få karakterer i en MidJourney-video til at "tale" (lip-sync) til den genererede stemme?

Ja – brug en læbesynkroniseringsmodel til at kortlægge fonemer fra TTS-lyden til mundbevægelsesrammer. De to almindelige tilgange er:

Brug åbne værktøjer som Wav2Lip (lokalt eller hostet)

Wav2Lip justerer talt lyd til mundbevægelser og kan køres lokalt eller via hostede brugergrænseflader. Typisk arbejdsgang:

Eksporter video eller en serie af billeder (billedsekvens) fra MidJourney.
Producer stemmefilen (OpenAI TTS).
Kør Wav2Lip for at udsende en ny video, hvor mundformerne matcher lyden.

Wav2Lip er fremragende til 1:1 mundjustering og er open source; du skal muligvis have noget efterbehandling for visuel finpudsning.

Brug kommercielle API'er til lipsynkronisering i ét trin

Tjenester som Sync.so, Synthesia og andre tilbyder API/GUI-pipelines, der håndterer både tale og lipsync/dubbing, nogle gange inklusive flersproget dubbing. De kan være hurtigere og mindre tekniske, men er betalte tjenester og kan begrænse finkontrol.

Praktiske noter om realisme

Perfekt realisme kræver ofte mikroudtryk, blink med øjnene og hovedbevægelser – nogle lip-sync-tjenester tilføjer disse automatisk; andre kræver manuelle justeringer.
Hvis figurerne er stiliserede (ikke-fotoreale), er små læbesynkroniseringsfejl mindre synlige; til nærbilleder bør du investere tid i en DAW + ansigtsretouchering-pipeline.

Kom godt i gang

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Brug MidJourney Video i CometAPI

CometAPI tilbyde en pris langt lavere end den officielle pris for at hjælpe dig med at integrere Midjourney API og Midjourney Video APIVelkommen til at registrere dig og opleve CometAPI. For at begynde, udforsk modellens muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI understøtter opløsninger på SD 480P og HD 720P.

Kaldemetode: Brug parameteren videoType=vid_1.1_i2v_720.

Midjourney V1-videogeneration: Udviklere kan integrere videogenerering via RESTful API. En typisk anmodningsstruktur (illustrativ)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Lydmodeller

Udviklere kan få adgang til GPT 4o-lyd og tts-1 via CometAPI, den seneste modelversion (slutpunkt:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) opdateres altid med den officielle hjemmeside. For at begynde, udforsk modellens muligheder i Legeplads og konsulter Guide til lyd-API'en for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.

Konklusion

Det er ligetil at tilføje stemme og lyd til Midjourney-video: generer et kort Midjourney-klip, syntetiser en kort fortælling med OpenAI's styrbare TTS, og kombiner og finpuds derefter ved hjælp af ffmpeg. De nye gpt-4o-mini-tts modellen giver dig stærk stilistisk kontrol, mens Midjourneys --video Workflow producerer rene korte animationer – perfekt til socialt arbejde, prototypearbejde eller konceptarbejde.

Hvad er en "Midjourney-video" præcist, og hvorfor har den brug for ekstern lyd?

Hvad Midjourneys videofunktion producerer i øjeblikket

Hvad er de grundlæggende regler og begrænsninger for Midjourney-videoer?

Hvorfor du bør tilføje stemme, musik og SFX

Hvad er den enkleste arbejdsgang til at tilføje stemme og lyd til en MidJourney-video?

Hurtig opskrift på ét afsnit

Hvorfor denne adskillelse (visuelt vs. lyd) er vigtig

Hvordan skal jeg lave Midjourney-prompten til video?

Hvilke OpenAI TTS-modeller bør jeg overveje, og hvorfor?

Hvilke TTS-muligheder er tilgængelige lige nu?

Er der nogen produktionsmæssige forbehold eller nuværende begrænsninger?

Andet valgfrit værktøj

Hvordan genererer jeg en stemmefil med OpenAI's TTS (praktisk kode)?

Eksempel A — hurtigt `curl` (kommandolinje)

Eksempel B: Python ved hjælp af anmodninger

Hvordan kombinerer jeg TTS-lyden med en MidJourney-videofil?

Eksporter videoen fra MidJourney

Simpel sammenflettelse med ffmpeg

Trim eller juster lyd til den nøjagtige videolængde

Sådan forskydes lyd (hvis fortællingen skal starte senere)

Sådan mikser du baggrundsmusik + fortælling + SFX

Avanceret redigering

Manuskript og tempo

Match bevægelse, intensitet og tekstur

Styringsstemmestil

Tips til lyddesign

Kan jeg få karakterer i en MidJourney-video til at "tale" (lip-sync) til den genererede stemme?

Brug åbne værktøjer som Wav2Lip (lokalt eller hostet)

Brug kommercielle API'er til lipsynkronisering i ét trin

Praktiske noter om realisme

Kom godt i gang

Brug MidJourney Video i CometAPI

Lydmodeller

Konklusion

Læs mere

500+ modeller i én API

Sådan tilføjer du stemme og lyd til en Midjourney-video

Hvad er en "Midjourney-video" præcist, og hvorfor har den brug for ekstern lyd?

Hvad Midjourneys videofunktion producerer i øjeblikket

Hvad er de grundlæggende regler og begrænsninger for Midjourney-videoer?

Hvorfor du bør tilføje stemme, musik og SFX

Hvad er den enkleste arbejdsgang til at tilføje stemme og lyd til en MidJourney-video?

Hurtig opskrift på ét afsnit

Hvorfor denne adskillelse (visuelt vs. lyd) er vigtig

Hvordan skal jeg lave Midjourney-prompten til video?

Hvilke OpenAI TTS-modeller bør jeg overveje, og hvorfor?

Hvilke TTS-muligheder er tilgængelige lige nu?

Er der nogen produktionsmæssige forbehold eller nuværende begrænsninger?

Andet valgfrit værktøj

Hvordan genererer jeg en stemmefil med OpenAI's TTS (praktisk kode)?

Eksempel A — hurtigt curl (kommandolinje)

Eksempel B: Python ved hjælp af anmodninger

Hvordan kombinerer jeg TTS-lyden med en MidJourney-videofil?

Eksporter videoen fra MidJourney

Simpel sammenflettelse med ffmpeg

Trim eller juster lyd til den nøjagtige videolængde

Sådan forskydes lyd (hvis fortællingen skal starte senere)

Sådan mikser du baggrundsmusik + fortælling + SFX

Avanceret redigering

Manuskript og tempo

Match bevægelse, intensitet og tekstur

Styringsstemmestil

Tips til lyddesign

Kan jeg få karakterer i en MidJourney-video til at "tale" (lip-sync) til den genererede stemme?

Brug åbne værktøjer som Wav2Lip (lokalt eller hostet)

Brug kommercielle API'er til lipsynkronisering i ét trin

Praktiske noter om realisme

Kom godt i gang

Brug MidJourney Video i CometAPI

Lydmodeller

Konklusion

Læs mere

500+ modeller i én API

Eksempel A — hurtigt `curl` (kommandolinje)