Slik legger du til stemme og lyd i en Midjourney-video

CometAPI
AnnaDec 2, 2025
Slik legger du til stemme og lyd i en Midjourney-video

Midjourneys sprang inn i videogenerering er spennende: det gjør stillbilder om til korte, loopbare animerte klipp som åpner døren for historiefortelling og bevegelsesdrevet innhold. Men inntil Midjourney leverer innebygde, polerte lydspor (hvis det noen gang gjør det), må skapere sette lyd på den stille videoutgangen ved hjelp av en blanding av AI-lydverktøy og klassiske redigeringsprogrammer. Denne artikkelen forklarer det nåværende landskapet (verktøy, arbeidsflyter, tips og juridiske sikkerhetstiltak), og gir deg en trinnvis, produksjonsklar arbeidsflyt for å legge til tale og lyd i Midjourney-videoklipp.

Hva er egentlig en «Midjourney-video», og hvorfor trenger den ekstern lyd?

Hva Midjourneys videofunksjon produserer for øyeblikket

Midjourneys videofunksjonalitet konverterer et generert eller opplastet bilde til et kort animert klipp (i utgangspunktet 5 sekunder, kan utvides i trinn) som vektlegger bevegelse og kamera-/motivbevegelse i stedet for synkronisert lyd eller leppesynkronisert dialog. Verktøyet er ment å generere visuelt rike korte løkker, ikke ferdige audiovisuelle fortellinger. Dette betyr at hver Midjourney-video du eksporterer vil være lydløs og må kobles sammen med lyd i etterproduksjonen for å bli noe mer enn et levende bilde.

Hva er de grunnleggende reglene og begrensningene for Midjourney-videoer?

Midjourneys videofunksjon konverterer et startbilde til et kort animert klipp (5 sekunder standard), med alternativer for å forlenge lengden til opptil 21 sekunder totalt, velge "Lav" eller "Høy" bevegelse, loope og endre batchstørrelse. Videoer kan lastes ned som .mp4 og Midjourney avslører en --video parameter (og --motion low|high, --loop, --end, --bs #, --raw --endog --bs parametere – er i Midjourneys offisielle dokumenter) for Discord- eller API-ledetekster. Oppløsningen er SD (480p) med HD (720p); batchstørrelser og bevegelsesinnstillinger påvirker GPU-tid og -kostnader.

Praktisk takeaway: Klipp midtveis i reisen er korte (5–21 sekunder), så planlegg fortellerstemme og lyd slik at de passer inn – eller forbered deg på å sette sammen flere klipp. Last ned Råvideo (.mp4) fra Midjourneys «Opprett»-side for å få den beste kvaliteten å jobbe med i etterproduksjon.

Hvorfor du bør legge til stemme, musikk og SFX

Legge til lyd:

  • Gir kontekst og fortelling (voiceover), noe som gjør abstrakte visuelle elementer kommunikative.
  • Setter emosjonell tone (musikkvalg) og forbedrer seerlojalitet.
  • Forankrer AI-grafikken i realisme (lyddesign, Foley, ambient beds).
  • Gjør innhold plattformklart for TikTok, YouTube eller reels der lyd er viktig.

Hva er den enkleste arbeidsflyten for å legge til stemme og lyd i en MidJourney-video?

Rask oppskrift på ett avsnitt

  1. Generer din visuelle video eller animerte bilder i MidJourney (Galleri → Animer / Videofunksjoner).
  2. Eksporter/last ned den produserte videoen (MP4/GIF).
  3. Lag voiceover med OpenAIs TTS (f.eks. gpt-4o-mini-tts eller andre TTS-modeller) og eksporter som WAV/MP3.
  4. Lag bakgrunnsmusikk og SFX ved hjelp av AI-lydverktøy (verktøy som MM Audio, Udio eller Runway kan hjelpe).
  5. Juster og miks i en DAW (Reaper, Audacity, Logic, eller bruk ffmpeg for rette merginger).
  6. Kjør eventuelt AI-leppesynkronisering hvis videoen inneholder ansikter og du vil at munnen skal matche tale (Wav2Lip, Sync.so og kommersielle tjenester).

Hvorfor denne separasjonen (visuelt vs. lyd) er viktig

MidJourney fokuserer på visuell kreativitet og bevegelsesdesign; lyddesign er en annen teknisk stabel (talegenerering, lyddesign, synkronisering). Å skille ansvarsområder gir deg mye mer kontroll – stemmekarakter, tempo, lyddesign og mastering – uten å måtte krangle med den visuelle generatoren.

Hvordan bør jeg lage Midjourney-ledeteksten for video?

Du kan lage videoer fra et hvilket som helst bilde i galleriet ditt, eller ved å lime inn en offentlig lagret bilde-URL i Imagine-linjen og legge til --video parameter (på Discord eller API). Etter generering kan du laste ned MP4-filen (Raw- eller sosiale versjoner) direkte fra Midjourney Create-siden eller fra Discord.

Et enkelt Discord-lignende eksempel som bruker et opplastet bilde som startbilde:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Merknader:

  • Sett inn URL-adressen til bildet i starten for å bruke den som startramme.
  • Legg til --video og et bevegelsesflagg (--motion low or --motion high).
  • Bruk --bs 1 hvis du bare trenger én utgang (sparer GPU-tid).
  • Bruk --raw hvis du ønsker mindre stilisering og mer deterministisk bevegelse.

Hvis videoen er kortere enn ønsket fortellerstemme, kan du enten forlenge videoen i Midjourney (du kan forlenge den med opptil +4 sekunder per forlengelse, opptil 21 sekunder totalt) eller klippe/loope lyden slik at den passer. Noter den nøyaktige varigheten (sekunder + millisekunder) slik at du kan justere fortellerstemme og SFX. Midjourney tilbyr et alternativ for «Last ned rå video» på opprettingssiden og i Discord. Bruk det som startfil.

Hvilke OpenAI TTS-modeller bør jeg vurdere, og hvorfor?

Hvilke TTS-alternativer er tilgjengelige akkurat nå?

OpenAI tilbyr flere TTS-alternativer: historisk sett tts-1 / tts-1-hd og den nyere styrbare gpt-4o-mini-tts. De gpt-4o-mini-tts modellen vektlegger styrbarhet (du kan instruere tone, tempo, følelser) og er designet for fleksibel, uttrykksfull stemmegenerering; tts-1 og tts-1-hd fortsatt sterke valg for høykvalitets, mer tradisjonell TTS. Bruk gpt-4o-mini-tts når du vil kontrollere hvordan teksten blir sagt (stil, stemning), og tts-1-hd for maksimal gjengivelse når stilkontroll er mindre kritisk. penAI har fortsatt å iterere på lydmodeller (kunngjøringer i 2025 utvidede tale- og transkripsjonsmuligheter), så velg modellen som balanserer kostnad, kvalitet og kontroller for prosjektet ditt. tts-modell-API-er er også integrert i CometAPI.

Noen produksjonsbegrensninger eller nåværende begrensninger?

gpt-4o-mini-tts kan noen ganger være ustabelt på lengre lydfiler (pauser, volumvariasjoner), spesielt utover ~1.5–2 minutter. For korte klipp underveis (under ~20–30 sekunder) er dette sjelden et problem, men for lengre fortellerstemme eller lange voiceovers, test og valider. Hvis du forventer lengre fortellerstemme, foretrekk tts-1-hd eller del opp tekst i kortere deler og sett dem forsiktig sammen.

Andre alternativer

Bakgrunnsmusikk og SFX: Verktøy som MM Audio (fellesskapsverktøy), Udio, MagicShot eller Runway kan raskt lage matchende bakgrunnsmusikk og kontekstsensitive SFX. Fellesskapstråder og veiledninger viser innholdsskapere som blander disse inn i MidJourney-videoer. For kontroll i produksjonsklasse, generer stems (musikk + ambient) og eksporter dem for miksing.

Leppesynkronisering og ansiktsanimasjon: Hvis videoen inneholder karakterer eller nærbilder av ansikter, og du ønsker realistiske munnbevegelser, bør du vurdere Wav2Lip (åpen kildekode) eller kommersielle API-er som Sync.so, Synthesia eller andre leppesynkroniseringstjenester. Disse verktøyene analyserer lyd for å produsere fonemjusterte munnformer og bruker dem på et målansikt eller en bildesekvens.

Hvordan genererer jeg en stemmefil med OpenAIs TTS (praktisk kode)?

Nedenfor finner du to praktiske eksempler fra CometAPI-kallformat som genererer en MP3 (eller WAV) ved hjelp av OpenAIs TTS-endepunkt. Du kan tilpasse stemmenavn og strømmeflagg i henhold til CometAPI-kontoen din og SDK-oppdateringer.

⚠️ Erstatt YOUR_CometAPI_API_KEY med API-nøkkelen din. Test først på en kort frase. Se
Lydmodeller DOC i CometAPI.

Eksempel A – raskt curl (kommandolinje)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Hvis du foretrekker WAV:

  • Endre navnet på utdatafilen til narration.wav, og (hvis tilgjengelig) angi en lydformatparameter i brødteksten (noen SDK-er tillater format: "wav").

Hvorfor dette fungerer: TTS-endepunktet godtar tekst og returnerer en binær lydfil du kan lagre og slå sammen med videoen din senere. voice og instructions (der det er tilgjengelig) for å styre prosodi og stil.

Eksempel B: Python ved bruk av forespørsler

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Hvordan kombinerer jeg TTS-lyden med en MidJourney-videofil?

Eksporter videoen fra MidJourney

MidJourneys Video/Animate-funksjoner lar deg lage en MP4/GIF eller eksportere en video fra galleriet ditt – bruk «Animate»-funksjonen eller eksportalternativene for galleriet for å hente en lokal fil.

Enkel sammenslåing med ffmpeg

Hvis du allerede har video.mp4 (ingen eller midlertidig lyd) og voiceover.wav (eller mp3), bruk ffmpeg for å slå sammen:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Merknader:

  • -shortest stopper ved den kortere strømmen; utelat dette hvis du vil at videoen skal spilles av lenger enn lyden (eller omvendt).
  • -c:v copy holder videostrømmen uendret.
  • -c:a aac koder lyd til AAC (kompatibel med MP4).
  • Bruk -af "volume=... filtre for lydstyrketilpasning.
  • For profesjonell ferdigstilling, åpne lydstammene i en DAW for å justere timing, EQ og kompresjon.

Trim eller juster lyd til nøyaktig videolengde

Hvis lyden er lengre enn videoen og du ønsker et presist klipp:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Hvis lyden er kortere og du vil at bakgrunnsmusikk skal fylle resten eller gjengi stemmen i en loop, bruk adelay, apad, eller bland med bakgrunnsspor. Eksempel: loop-fortelling for å matche et 20-sekundersklipp (vanligvis ikke anbefalt for stemme):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Slik forskyver du lyd (hvis fortellerstemmen må starte senere)

Hvis fortellingen din skal starte etter en kort stillhet, eller du har flere segmenter å plassere ved forskyvninger, bruk -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 forsinker den andre inngangen med 0.5 sekunder.

For flere lydspor eller svært presis plassering -filter_complex med adelay etter å ha generert TTS i små segmenter (én setning per fil):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Her adelay tar millisekunder (2500 ms = 2.5 s), slik at du kan justere tekst presist etter visuelle signaler.

Hold fortellerstemmen kort og scenebevisst: Fordi klippene i Midjourney er korte og ofte stiliserte, bør du sikte på en konsis hook (~5–15 sekunder) som matcher videoens tempo. Del opp teksten i korte setninger som følger med på de visuelle klippene eller bevegelsessignalene.

Hvordan blande bakgrunnsmusikk + fortellerstemme + SFX

Bruk filter_complex for å blande flere lydinnganger og kontrollere volumet. Eksempel:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Dette blander fortelling (narration.mp3) og musikk (music.mp3) mens du setter musikknivået lavt slik at det ligger under stemmen. Du kan også kjøre dynamisk ducking (få musikken til å fade ut når fortellingen spilles av) via sidekjedefiltre eller redigere i en DAW for presise fades.

Avansert redigering

Manus og tempo

  • Skriv et stramt manus og merk visuelle signaler (tidskode eller bildenummer) slik at TTS-utdataene justeres etter sceneendringer.
  • Bruk korte setninger for bedre naturlig kadens; hvis du trenger lange lesninger, sett inn bevisste pauser eller del opp i flere TTS-kall.

Match bevegelse, intensitet og tekstur

  • Bruk forbigående SFX for å fremheve visuelle kutt eller kamerabevegelser.
  • For langsom, malerisk Midjourney-bevegelse (--motion low), favoriserer subtil atmosfære og lange etterklangshaler.
  • For høy action (--motion high), bruk slagkraftige SFX, tempo-tilpassede musikalske treff og kort etterklang.

Styrestemmestil

Bruk instruksjonsoppgaver for å styre gpt-4o-mini-tts — f.eks. "instructions": "Calm, conversational, slight warmth, medium speed" eller inkludere den instruksjonen som en del av tekstnyttelasten. For eksempel:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Vær forsiktig: eksakte parameternavn varierer på tvers av SDK-versjoner – test feltene SDK-en din støtter.

Tips til lyddesign

  • Legg til et lavvolums-sengespor (musikk) og sidechain eller duck det under stemmeføring.
  • Bruk korte sus, risers eller slagkraftige SFX justert til visuelle overganger. Hold SFX korte og skarpe.
  • Normaliser stemmen (-1 dBFS) og komprimer lett (forhold 2:1) for jevn lydstyrke på tvers av plattformer.
  • For sosiale plattformer, koder den endelige videoen med AAC-LC-lyd og H.264-video for kompatibilitet.

Kan jeg få karakterer i en MidJourney-video til å «snakke» (lip-synkronisere) til den genererte stemmen?

Ja – bruk en leppesynkroniseringsmodell for å kartlegge fonemer fra TTS-lyden til munnbevegelsesrammer. De to vanlige tilnærmingene er:

Bruk åpne verktøy som Wav2Lip (lokalt eller hostet)

Wav2Lip justerer talt lyd til munnbevegelser og kan kjøres lokalt eller via vertsbaserte grafiske brukergrensesnitt. Typisk arbeidsflyt:

  1. Eksporter video eller en serie med bilder (bildesekvens) fra MidJourney.
  2. Produser stemmefilen (OpenAI TTS).
  3. Kjør Wav2Lip for å sende ut en ny video der munnformene matcher lyden.

Wav2Lip er utmerket for 1:1 munnjustering og er åpen kildekode; du trenger kanskje litt etterbehandling for visuell polering.

Bruk kommersielle API-er for leppesynkronisering i ett trinn

Tjenester som Sync.so, Synthesia og andre tilbyr API/GUI-pipelines som håndterer både tale og leppesynkronisering/dubbing, noen ganger inkludert flerspråklig dubbing. De kan være raskere og mindre tekniske, men er betalte tjenester og kan begrense finkontrollen.

Praktiske notater om realisme

  • Perfekt realisme krever ofte mikrouttrykk, øyeblink og hodebevegelser – noen leppesynkroniseringstjenester legger til disse automatisk, mens andre krever manuelle justeringer.
  • Hvis karakterene er stiliserte (ikke-fotoreale), er små leppesynkroniseringsfeil mindre synlige. For nærbilder, invester tid i en DAW + ansiktsretusjering.

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Bruk MidJourney Video i CometAPI

CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere Midjourney API og Midjourney Video APIVelkommen til å registrere deg og oppleve CometAPI. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI støtter oppløsningen SD 480P og HD 720P.

Kallemetode: Bruk parameteren videoType=vid_1.1_i2v_720.

Midjourney V1-videogenerasjon: Utviklere kan integrere videogenerering via RESTful API. En typisk forespørselsstruktur (illustrativ)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Lydmodeller

Utviklere kan få tilgang til GPT 4o-lyd og tts-1 gjennom CometAPI, den nyeste modellversjonen (endepunkt:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) oppdateres alltid med det offisielle nettstedet. For å begynne, utforsk modellens muligheter i lekeplass og konsulter veiledning for lyd-API for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Konklusjon

Det er enkelt å legge til stemme og lyd i Midjourney-video: generer et kort Midjourney-klipp, syntetiser kort fortellerstemme med OpenAIs styrbare TTS, og kombiner og finjuster deretter ved hjelp av ffmpeg. Den nye gpt-4o-mini-tts modellen gir deg sterk stilkontroll, mens Midjourneys --video Arbeidsflyten produserer rene korte animasjoner – perfekt for sosialt arbeid, prototypearbeid eller konseptarbeid.

SHARE THIS BLOG

500+ modeller i ett API

Opptil 20 % rabatt