So fügen Sie einem Midjourney-Video Stimme und Ton hinzu

CometAPI
AnnaDec 2, 2025
So fügen Sie einem Midjourney-Video Stimme und Ton hinzu

Midjourneys Vorstoß in die Videoproduktion ist spannend: Es verwandelt Standbilder in kurze, schleifenfähige Animationsclips, die neue Wege für Storytelling und bewegungsbasierte Inhalte eröffnen. Bis Midjourney jedoch integrierte, ausgefeilte Audiospuren bietet (falls dies jemals der Fall sein wird), müssen Entwickler mithilfe einer Mischung aus KI-Audiotools und klassischen Editoren Audio in die stille Videoausgabe einfügen. Dieser Artikel erläutert die aktuelle Situation (Tools, Workflows, Tipps und rechtliche Hinweise) und bietet einen schrittweisen, produktionsbereiten Workflow zum Hinzufügen von Sprache und Ton zu Midjourney-Videoclips.

Was genau ist ein „Midjourney-Video“ und warum benötigt es externen Ton?

Was Midjourneys Video-Feature derzeit produziert

Die Videofunktion von Midjourney wandelt ein generiertes oder hochgeladenes Bild in einen kurzen animierten Clip (zunächst 5 Sekunden, schrittweise erweiterbar) um, der Bewegung und Kamera-/Motivbewegungen betont, anstatt synchronisierten Ton oder lippensynchronen Dialog. Das Tool ist für die Generierung visuell ansprechender kurzer Loops gedacht, nicht für fertige audiovisuelle Erzählungen. Das bedeutet, dass jedes exportierte Midjourney-Video stumm ist und in der Nachbearbeitung mit Ton gepaart werden muss, um mehr als nur ein bewegtes Bild zu werden.

Was sind die grundlegenden Regeln und Einschränkungen für Midjourney-Videos?

Die Videofunktion von Midjourney wandelt ein Startbild in einen kurzen animierten Clip (Standard: 5 Sekunden) um. Mit Optionen zur Verlängerung auf bis zu 21 Sekunden, zur Auswahl von „Low“ oder „High“ Motion, zur Loop-Funktion und zur Änderung der Batchgröße. Videos können heruntergeladen werden als .mp4 und Midjourney enthüllt eine --video Parameter (und --motion low|high, --loop, --end, --bs #, --raw --end und --bs Parameter – sind in Offizielle Dokumente von Midjourney) für Discord- oder API-Eingabeaufforderungen. Die Auflösung ist SD (480p), mit HD (720p); Stapelgrößen und Bewegungseinstellungen wirken sich auf GPU-Zeit und -Kosten aus.

Praktisches Mitnehmen: Die Clips zur Fahrt sind kurz (5–21 Sekunden), also planen Sie den Kommentar und den Ton entsprechend – oder bereiten Sie sich darauf vor, mehrere Clips zusammenzufügen. Laden Sie die Rohvideo (.mp4) von der Seite „Erstellen“ von Midjourney für die beste Qualität für die Nachbearbeitung.

Warum Sie Sprache, Musik und SFX hinzufügen sollten

Audio hinzufügen:

  • Bietet Kontext und Erzählung (Voiceover) und macht abstrakte Bilder kommunikativ.
  • Gibt einen emotionalen Ton an (Musikauswahl) und verbessert die Zuschauerbindung.
  • Verleiht den KI-Visuals einen realistischen Touch (Sounddesign, Geräuschemacher, Umgebungsgeräusche).
  • Macht Inhalte plattformbereit für TikTok, YouTube oder Reels, bei denen Audio unerlässlich ist.

Was ist der einfachste Arbeitsablauf, um einem MidJourney-Video Sprache und Ton hinzuzufügen?

Schnelles Rezept in einem Absatz

  1. Erstellen Sie Ihr visuelles Video oder Ihre animierten Frames in MidJourney (Galerie → Animations-/Videofunktionen).
  2. Exportieren/herunterladen Sie das erstellte Video (MP4/GIF).
  3. Produzieren Sie Voiceover mit OpenAIs TTS (zB, gpt-4o-mini-tts oder andere TTS-Modelle) und als WAV/MP3 exportieren.
  4. Erstellen Sie Hintergrundmusik und SFX mit KI-Audiotools (Tools wie MM Audio, Udio oder Runway können hilfreich sein).
  5. Ausrichten und Mischen in einer DAW (Reaper, Audacity, Logic oder verwenden Sie einfach ffmpeg für direkte Zusammenführungen).
  6. Führen Sie optional eine KI-Lippensynchronisation aus, wenn das Video Gesichter enthält und Sie möchten, dass der Mund zur Sprache passt (Wav2Lip, Sync.so und kommerzielle Dienste).

Warum diese Trennung (Bild und Ton) wichtig ist

MidJourney konzentriert sich auf visuelle Kreativität und Motion Design; Audiodesign ist ein anderer technischer Stack (Sprachgenerierung, Audiodesign, Synchronisation). Durch die Trennung der Verantwortlichkeiten haben Sie deutlich mehr Kontrolle – Stimmcharakter, Tempo, Sounddesign und Mastering – ohne sich mit dem visuellen Generator auseinandersetzen zu müssen.

Wie sollte ich die Midjourney-Eingabeaufforderung für das Video erstellen?

Sie können Videos aus jedem Bild in Ihrer Galerie erstellen oder indem Sie eine öffentlich gehostete Bild-URL in die Imagine-Leiste einfügen und das --video Parameter (auf Discord oder API). Nach der Generierung können Sie die MP4 (Raw- oder Social-Versionen) direkt von der Midjourney Create-Seite oder von Discord herunterladen.

Ein einfaches Beispiel im Discord-Stil, das ein hochgeladenes Bild als Startbild verwendet:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Anmerkungen:

  • Setzen Sie die Bild-URL an den Anfang, um sie als Startframe zu verwenden.
  • Speichern --video und eine Bewegungsflagge (--motion low or --motion high).
  • Nutzen Sie --bs 1 wenn Sie nur einen einzigen Ausgang benötigen (spart GPU-Zeit).
  • Nutzen Sie --raw wenn Sie weniger Stilisierung und mehr deterministische Bewegung wünschen.

Wenn das Video kürzer ist als der gewünschte Kommentar, kannst du es entweder in Midjourney verlängern (pro Verlängerung bis zu +4 Sekunden, insgesamt bis zu 21 Sekunden) oder den Ton passend schneiden bzw. in einer Schleife abspielen. Beachte die genaue Dauer (Sekunden + Millisekunden), damit du Kommentar und Soundeffekte aufeinander abstimmen kannst. Midjourney bietet auf der Erstellungsseite und in Discord die Option „Rohvideo herunterladen“. Verwende diese als Ausgangsdatei.

Welche OpenAI-TTS-Modelle sollte ich in Betracht ziehen und warum?

Welche TTS-Optionen sind derzeit verfügbar?

OpenAI bietet mehrere TTS-Optionen: historisch tts-1 / tts-1-hd und die neueren lenkbaren gpt-4o-mini-ttsdem „Vermischten Geschmack“. Seine gpt-4o-mini-tts Das Modell betont die Steuerbarkeit (Sie können Ton, Tempo und Emotionen anweisen) und ist für eine flexible, ausdrucksstarke Stimmerzeugung konzipiert. tts-1 kombiniert mit einem nachhaltigen Materialprofil. tts-1-hd bleiben eine gute Wahl für hochwertige, traditionellere TTS. Verwenden gpt-4o-mini-tts wenn Sie steuern möchten wie der Text gesprochen wird (Stil, Stimmung) und tts-1-hd Für maximale Wiedergabetreue, wenn die Stilkontrolle weniger wichtig ist. penAI hat die Audiomodelle kontinuierlich weiterentwickelt (Ankündigungen für 2025: erweiterte Sprach- und Transkriptionsfunktionen). Wählen Sie daher das Modell, das Kosten, Qualität und Kontrolle für Ihr Projekt in Einklang bringt. TTS-Modell-APIs sind auch integriert in CometAPI.

Gibt es Produktionsvorbehalte oder aktuelle Einschränkungen?

gpt-4o-mini-tts kann bei längeren Audiodateien (Pausen, Lautstärkeschwankungen) manchmal Instabilitäten aufweisen, insbesondere über 1.5–2 Minuten. Bei kurzen Midjourney-Clips (unter 20–30 Sekunden) ist dies selten ein Problem, aber bei längeren Kommentaren oder langen Voice-Overs sollten Sie dies testen und validieren. Wenn Sie längere Kommentare erwarten, bevorzugen Sie tts-1-hd oder teilen Sie den Text in kürzere Abschnitte auf und fügen Sie diese sorgfältig zusammen.

Anderes Optionstool

Hintergrundmusik und SFX: Tools wie MM Audio (Community-Tools), Udio, MagicShot oder Runway erstellen schnell passende Hintergrundmusik und kontextsensitive Soundeffekte. Community-Threads und Tutorials zeigen, wie diese in MidJourney-Videos integriert werden. Für eine produktionsgerechte Steuerung generieren Sie Stems (Musik + Ambient) und exportieren diese zum Mischen.

Lippensynchronisation und Gesichtsanimation: Wenn das Video Figuren oder Nahaufnahmen von Gesichtern enthält und Sie realistische Mundbewegungen wünschen, sollten Sie Wav2Lip (Open Source) oder kommerzielle APIs wie Sync.so, Synthesia oder andere Lippensynchronisationsdienste in Betracht ziehen. Diese Tools analysieren Audiodaten, um phonembasierte Mundformen zu erzeugen und diese auf ein Zielgesicht oder eine Bildsequenz anzuwenden.

Wie erstelle ich eine Sprachdatei mit OpenAIs TTS (praktischer Code)?

Nachfolgend finden Sie zwei praktische Beispiele aus dem CometAPI-Aufrufformat, die mithilfe des TTS-Endpunkts von OpenAI eine MP3- (oder WAV-)Datei generieren. Sie können Sprachnamen und Streaming-Flags an Ihr CometAPI-Konto und SDK-Updates anpassen.

⚠️ Ersetzen YOUR_CometAPI_API_KEY mit Ihrem API-Schlüssel. Testen Sie zunächst mit einer kurzen Phrase. Siehe
Audiomodelle DOC in CometAPI.

Beispiel A – schnell curl (Befehlszeile)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Wenn Sie WAV bevorzugen:

  • Ändern Sie den Namen der Ausgabedatei in narration.wav, und (falls verfügbar) geben Sie einen Audioformatparameter im Textkörper an (einige SDKs erlauben format: "wav").

Warum das funktioniert: Der TTS-Endpunkt akzeptiert Text und gibt eine binäre Audiodatei zurück, die Sie speichern und später mit Ihrem Video zusammenführen können. Verwenden Sie voice kombiniert mit einem nachhaltigen Materialprofil. instructions (sofern verfügbar) zur Steuerung von Prosodie und Stil.

Beispiel B: Python verwendet Anfragen

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Wie kombiniere ich das TTS-Audio mit einer MidJourney-Videodatei?

Exportieren Sie das Video aus MidJourney

Mit den Video-/Animationsfunktionen von MidJourney können Sie ein MP4/GIF erstellen oder ein Video aus Ihrer Galerie exportieren – verwenden Sie die Funktion „Animieren“ oder die Exportoptionen der Galerie, um eine lokale Datei zu erhalten.

Einfaches Zusammenführen mit ffmpeg

Wenn du schon hast video.mp4 (kein oder Platzhalter-Audio) und voiceover.wav (oder mp3), verwenden Sie ffmpeg zum Zusammenführen:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Anmerkungen:

  • -shortest stoppt beim kürzeren Stream; lassen Sie es weg, wenn das Video länger abgespielt werden soll als das Audio (oder umgekehrt).
  • -c:v copy behält den Videostream unverändert bei.
  • -c:a aac kodiert Audio in AAC (kompatibel mit MP4).
  • Nutzen Sie -af "volume=... Filter zur Lautstärkeanpassung.
  • Für eine professionelle Finalisierung öffnen Sie die Audio-Stems in einer DAW, um Timing, EQ und Komprimierung anzupassen.

Kürzen oder ergänzen Sie den Ton auf die exakte Videolänge

Wenn der Ton länger ist als das Video und Sie einen präzisen Schnitt wünschen:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Wenn der Ton kürzer ist und Sie möchten, dass Hintergrundmusik den Rest füllt oder die Stimme in einer Schleife wiedergibt, verwenden Sie adelay, apad, oder mit Hintergrundmusik mischen. Beispiel: Erzählschleife passend zu einem 20-Sekunden-Clip (normalerweise nicht für Sprache empfohlen):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

So versetzen Sie den Ton (wenn die Erzählung später beginnen muss)

Wenn Ihr Kommentar nach einer kurzen Pause beginnen soll oder Sie mehrere Segmente mit unterschiedlichen Abständen platzieren möchten, verwenden Sie -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 verzögert die zweite Eingabe um 0.5 Sekunden.

Für mehrere Audiospuren oder eine sehr präzise Platzierung verwenden Sie -filter_complex mit adelay nach dem Generieren des TTS in kleinen Segmenten (ein Satz pro Datei):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Hier adelay dauert Millisekunden (2500 ms = 2.5 s), sodass Sie Text präzise an visuellen Hinweisen ausrichten können.

Halten Sie den Kommentar kurz und szenenbezogen: Da die Clips von Midjourney kurz und oft stilisiert sind, sollten Sie einen prägnanten Aufhänger (ca. 5–15 Sekunden) wählen, der zum Tempo des Videos passt. Teilen Sie den Text in kurze Sätze auf, die mit den visuellen Schnitten oder Bewegungshinweisen atmen.

So mischen Sie Hintergrundmusik + Erzählung + SFX

Nutzen Sie filter_complex um mehrere Audioeingänge zu mischen und die Lautstärke zu regeln. Beispiel:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Dies vermischt Erzählung (narration.mp3) und Musik (music.mp3), während Sie die Musiklautstärke niedrig einstellen, sodass sie unter der Stimme liegt. Sie können auch dynamisches Ducking (Ausblenden der Musik beim Abspielen des Kommentars) über Sidechain-Filter ausführen oder in einer DAW für präzise Ausblendungen bearbeiten.

Erweiterte Bearbeitung

Drehbuch und Tempo

  • Schreiben Sie ein prägnantes Skript und markieren Sie visuelle Hinweise (Zeitcode oder Bildnummern), damit die TTS-Ausgabe mit den Szenenwechseln übereinstimmt.
  • Verwenden Sie kurze Sätze für eine bessere natürliche Kadenz. Wenn Sie längere Texte benötigen, fügen Sie absichtlich Pausen ein oder teilen Sie sie in mehrere TTS-Anrufe auf.

Passen Sie Bewegung, Intensität und Textur an

  • Verwenden Sie vorübergehende Spezialeffekte, um visuelle Schnitte oder Kamerabewegungen hervorzuheben.
  • Für langsame, malerische Midjourney-Bewegung (--motion low), bevorzugen subtile Atmosphäre und lange Nachhallzeiten.
  • Für hohe Aktion (--motion high), verwenden Sie druckvolle Soundeffekte, zum Tempo passende Musikhits und kurzen Hall.

Lenkungssprachstil

Verwenden Sie lehrreiche Eingabeaufforderungen zur Steuerung gpt-4o-mini-tts — zB, "instructions": "Calm, conversational, slight warmth, medium speed" oder fügen Sie diese Anweisung als Teil der Textnutzlast ein. Beispiel:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Seien Sie vorsichtig: Die genauen Parameternamen unterscheiden sich je nach SDK-Version. Testen Sie die Felder, die Ihr SDK unterstützt.

Tipps zum Sounddesign

  • Fügen Sie eine leise Grundspur (Musik) hinzu und führen Sie eine Sidechain durch oder blenden Sie sie während der Sprachwiedergabe aus.
  • Verwenden Sie kurze Rauschgeräusche, Riser oder wirkungsvolle Soundeffekte, die auf visuelle Übergänge abgestimmt sind. Halten Sie die Soundeffekte kurz und knackig.
  • Normalisieren Sie die Stimme (-1 dBFS) und komprimieren Sie sie leicht (Verhältnis 2:1), um eine konsistente Lautstärke auf allen Plattformen zu erzielen.
  • Kodieren Sie für soziale Plattformen das endgültige Video aus Kompatibilitätsgründen mit AAC-LC-Audio und H.264-Video.

Kann ich Charaktere in einem MidJourney-Video mit der generierten Stimme „sprechen“ lassen (Lippensynchronisation)?

Ja – verwenden Sie ein Lippensynchronisationsmodell, um Phoneme aus dem TTS-Audio auf Mundbewegungsbilder abzubilden. Die beiden gängigen Ansätze sind:

Verwenden Sie offene Tools wie Wav2Lip (lokal oder gehostet)

Wav2Lip passt gesprochenes Audio an Mundbewegungen an und kann lokal oder über gehostete GUIs ausgeführt werden. Typischer Arbeitsablauf:

  1. Exportieren Sie Videos oder eine Reihe von Frames (Bildsequenzen) aus MidJourney.
  2. Erstellen Sie die Sprachdatei (OpenAI TTS).
  3. Führen Sie Wav2Lip aus, um ein neues Video auszugeben, bei dem die Mundformen zum Audio passen.

Wav2Lip eignet sich hervorragend für die 1:1-Mundausrichtung und ist Open Source. Für den optischen Feinschliff ist möglicherweise eine Nachbearbeitung erforderlich.

Verwenden Sie kommerzielle APIs für die Lippensynchronisation in einem Schritt

Dienste wie Sync.so, Synthesia und andere bieten API/GUI-Pipelines, die sowohl Sprache als auch Lippensynchronisation/Synchronisation verarbeiten, manchmal auch mehrsprachige Synchronisation. Diese Dienste sind zwar schneller und weniger technisch, aber kostenpflichtig und können die Feinsteuerung einschränken.

Praktische Hinweise zum Realismus

  • Perfekter Realismus erfordert oft Mikroausdrücke, Augenzwinkern und Kopfbewegungen – einige Lippensynchronisationsdienste fügen diese automatisch hinzu, andere erfordern manuelle Anpassungen.
  • Wenn die Charaktere stilisiert (nicht fotorealistisch) sind, fallen kleine Lippensynchronisationsfehler weniger auf; für Nahaufnahmen sollten Sie Zeit in eine DAW- und Gesichtsretusche-Pipeline investieren.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Verwenden Sie MidJourney Video in CometAPI

CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen Midjourney-API kombiniert mit einem nachhaltigen Materialprofil. Midjourney-Video-API, Willkommen bei der Registrierung und beim Erleben von CometAPI. .Erkunden Sie zunächst die Möglichkeiten des Modells in der Spielplatz und konsultieren Sie die API-Leitfaden Detaillierte Anweisungen finden Sie unter. Melden Sie sich vor dem Zugriff bei CometAPI an und erhalten Sie den API-Schlüssel. CometAPI unterstützt die Auflösungen SD 480P und HD 720P.

Aufrufmethode: Verwenden Sie den Parameter videoType=vid_1.1_i2v_720.

Midjourney V1-VideoGeneration: Entwickler können die Videogenerierung über RESTful API integrieren. Eine typische Anfragestruktur (illustrativ)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Audiomodelle

Entwickler können über CometAPI, die neueste Modellversion (Endpunkt:), auf GPT 4o Audio und tts-1 zugreifen.gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) wird immer mit der offiziellen Website aktualisiert. Erkunden Sie zunächst die Fähigkeiten des Modells in der Spielplatz und konsultieren Sie die Audio-API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Fazit

Das Hinzufügen von Sprache und Ton zu Midjourney-Videos ist unkompliziert: Erstellen Sie einen kurzen Midjourney-Clip, synthetisieren Sie kurze Erzählungen mit OpenAIs steuerbarem TTS, kombinieren und verfeinern Sie dann mit ffmpeg. Die neue gpt-4o-mini-tts Modell gibt Ihnen starke stilistische Kontrolle, während Midjourneys --video Der Workflow erzeugt saubere, kurze Animationen – perfekt für soziale, Prototyp- oder Konzeptarbeit.

SHARE THIS BLOG

500+ Modelle in einer API

Bis zu 20% Rabatt