Wie man mit der Midjourney-API ein Video erstellt

Midjourneys Vorstoß in den Videobereich zählt zu den größten Kreativtechnologie‑Geschichten des Jahres 2025. Aus einem geliebten, bildzentrierten Tool ist ein „Image‑to‑Video“-Workflow hinzugekommen, der Standbilder in kurze animierte Clips verwandelt — und das System entwickelt sich rasant weiter.

Midjourneys Videofunktion ist ein Image‑to‑Video‑Workflow, der über einen „Animate“-Flow ein einzelnes Bild zu einem kurzen Clip animiert, standardmäßig fünfsekündige Clips erzeugt und Erweiterungen bis zu ~21 Sekunden erlaubt. Die Funktion startete Mitte 2025 als Midjourneys V1‑Videomodell und ist über die Midjourney Video V1 API von CometAPI verfügbar.

Was ist Midjourney V1

Was Midjourney V1 leistet und wie es den Nutzern bereitgestellt wird

Das V1‑Videomodell von Midjourney verwandelt ein einzelnes Standbild (entweder innerhalb von Midjourney generiert oder ein extern gehostetes Bild) in kurze animierte Clips — standardmäßig etwa 5 Sekunden — wahlweise mit automatischen oder manuellen Animationsmodi und Bewegungsintensitäts‑Flags (--motion low / --motion high). Nutzer können Clips in 4‑Sekunden‑Schritten verlängern (bis zu ~21 Sekunden) und Stapelgröße, Looping und Endframes steuern; die Videoausgaben sind MP4. Midjourneys V1 Video‑Modell ist ein Image‑to‑Video‑Modell, optimiert für kurze, stilisierte, loopfähige Clips. Typische Merkmale des V1‑Modells sind:

Basis‑Clip‑Länge ~5 Sekunden, mit einem kontrollierten Erweiterungsmechanismus (4‑Sekunden‑Schritte, bis zu einer dokumentierten Grenze).
Betonung der Bewahrung des künstlerischen Stils des Ausgangsbildes (Pinselstrich, Farbe, Stimmung).
Abwägungen bei Auflösung und Qualität für schnelle Iteration; V1 ist auf Social‑ und Web‑Inhalte ausgerichtet und nicht auf vollwertige Kinoproduktion.

Diese Einschränkungen prägen die Gestaltung von Assets und Prompts: V1 eignet sich am besten für prägnante Bewegungen, animierte Standbilder, Produkt‑Hero‑Loops oder kurze Charakter‑Beats statt langer Szenen.

Wie CometAPI das Midjourney‑Videomodell bereitstellt

CometAPI ist ein Multi‑Modell‑Gateway, das den Zugriff auf Hunderte KI‑Modelle (Text, Bild, Audio und jetzt Image‑to‑Video) hinter einer einheitlichen REST‑Schnittstelle bündelt. Das Midjourney‑Video‑Angebot von CometAPI kapselt die V1‑Video‑Fähigkeiten von Midjourney, sodass Entwickler die Image‑to‑Video‑Generierung programmatisch aufrufen können, anstatt sich ausschließlich auf Discord/Web‑Interaktionen zu stützen. Das ist nützlich, um kreative Pipelines zu automatisieren, Proof‑of‑Concepts zu bauen und kurze animierte Assets in Apps oder Content‑Produktions‑Workflows zu integrieren.

CometAPIs Midjourney Video ermöglicht es Entwicklern, sich zu authentifizieren, den Endpunkt /mj/submit/video aufzurufen und Parameter wie den prompt (der eine Startbild‑URL enthalten kann), videoType (z. B. vid_1.1_i2v_480), mode (fast/relax) und animateMode (automatic/manual) zu übergeben. Im Vergleich zur direkten, Discord‑zentrierten Integration von Midjourney bietet CometAPI niedrigere Kosten pro Aufruf und Komfort (ein einzelner API‑Schlüssel + REST‑Schnittstelle).

Wie bereite ich mich vor, bevor ich die API aufrufe?

Welche Zugangsdaten und Konten brauche ich?

Melden Sie sich bei CometAPI an und erzeugen Sie einen API‑Schlüssel in Ihrem Account‑Dashboard (CometAPI verwendet ein Bearer‑Token wie sk-xxxxx).
Stellen Sie sicher, dass Bild‑Assets online verfügbar sind (eine öffentlich zugängliche URL), wenn Sie externe Bilder als Startframe verwenden möchten. Midjourney benötigt erreichbare URLs für externe Image→Video‑Workflows.

Welche Entscheidungen Sie im Vorfeld treffen sollten

Startbild — Wählen Sie ein Bild mit klar erkennbarem Motiv und Komposition; das Seitenverhältnis beeinflusst die endgültige Videoauflösung bzw. das Format (Midjourney mappt Start‑Seitenverhältnisse auf SD/HD‑Pixelgrößen).
Bewegungsstil — Entscheiden Sie sich für Low vs High Motion (--motion low vs --motion high) und ob Sie automatische Inferenz oder manuelle Kontrolle von Kamera/Objektbewegung wünschen.
Länge & Batch‑Größe — Standard sind 5 Sekunden; Sie können bis zu ~21 s verlängern. Die Batch‑Größe ist standardmäßig 4 (Midjourney liefert 4 Varianten), Sie können jedoch 1 oder 2 anfordern, um Compute zu sparen.
Auflösung — V1 ist standardmäßig primär SD (480p); HD (720p) erfordert die Parametrisierung, z. B. vid_1.1_i2v_480.

Wie rufe ich den Midjourney‑Video‑Endpunkt von CometAPI auf (Schritt für Schritt mit Beispielen)?

Was ist die minimale Request‑Payload?

Mindestens senden Sie:

prompt: die Startbild‑URL und optional ein textueller Bewegungs‑Prompt (z. B. "![image](https://.../frame.png) füge einen von links nach rechts laufenden Hund hinzu").
videoType: z. B. vid_1.1_i2v_480.
mode: "fast" (oder "relax", falls im Plan erlaubt).
animateMode: "automatic" oder "manual".

Dies ist ein curl‑Beispiel, das einen POST an[![image](https://api.cometapi.com/mj/submit/video) veranschaulicht. Hier ist ein bereinigtes, kopierfertiges curl‑Beispiel, adaptiert aus CometAPIs Beispiel:

curl --location --request POST '![image](https://api.cometapi.com/mj/submit/video') \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Python‑Beispiel (requests)

Wenn Sie Python bevorzugen, finden Sie hier ein robustes Beispiel mit requests, das einen Videojob einreicht und auf die Fertigstellung pollt (Platzhalter ersetzen). Dies ist ein praktisches Muster: submit → poll → download. Das folgende Beispiel ist bewusst einfach gehalten und sollte in der Produktion an das asynchrone Job‑System Ihrer App angepasst werden.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Wie füge ich einem Midjourney/CometAPI‑Video Audio (Sprache, Musik, Soundeffekte) hinzu?

Erzeugt Midjourney nativ Audio?

Nein — in V1 ist die Videoausgabe von Midjourney stumm (MP4 ohne eingebettetes Audio). Nutzer fügen Ton extern hinzu. (Es gibt andere KI‑Systeme, die Audio und Video gemeinsam erzeugen, aber Midjourneys V1 konzentriert sich auf visuelle Bewegung.)

Empfohlene Pipelines, um Sprache und Ton hinzuzufügen

Text‑zu‑Sprache (TTS) für Narration/Stimme — Nutzen Sie ElevenLabs, Replica oder ähnliche Voice‑Cloning/TTS‑Dienste, um aus Skripten Sprach‑Tracks zu generieren. Diese Dienste ermöglichen natürliche Sprechstile und oft geringe Kosten pro Minute. (LinkedIn/Community‑Beiträge empfehlen ElevenLabs als leichte Wahl für Voice.)
KI‑Audiodesign‑Tools für Musik/SFX — Tools wie MM Audio, Magicshot oder spezialisierte SFX‑Generatoren können Hintergrundatmosphären und Effekte erzeugen, die zum Clip passen. Community‑Guides und Tutorials zeigen gute Qualität von MM Audio und anderen Audio‑AIs.
Manueller DAW/Editor‑Ansatz (feine Kontrolle) — Importieren Sie das generierte MP4 in DaVinci Resolve/Premiere/Audacity, fügen Sie TTS‑Audio und Soundeffekte hinzu und mischen Sie. Das ist der beste Weg für präzise Lippensynchronität und Timing. Community‑Tutorials und YouTube‑Walkthroughs zeigen Schritt‑für‑Schritt‑Ansätze, um Audio an Midjourney‑Videos anzupassen.

Schnelles Beispiel: Audio + Video mit `ffmpeg` kombinieren

Angenommen, video.mp4 (stumm) und speech.mp3 (TTS) liegen vor:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Für komplexere Mischungen (Hintergrundmusik + Dialog + Sound‑FX) rendern Sie eine einzelne gemischte Audiospur aus Ihrer DAW und muxen Sie sie wie oben in das Video.

Wie sollte ich Bewegungs‑Prompts schreiben, um die Animation zu steuern?

Muster für Bewegungs‑Prompts

Motion‑Prompting in Midjourney V1 ist natürlichsprachlich. Nützliche Muster:

Richtung/Action: „Kamera fährt nach links, während das Motiv nach vorn geht“
Objektbewegung: „Ein Blatt fällt vom Baum und treibt zur Kamera“
Kamerainstruktion: „Langsamer Zoom‑in, leichte Parallaxe, 2× Geschwindigkeit“
Zeitliche Qualität: „Subtile Bewegung, loopfähig, filmischer Rhythmus“

Beginnen Sie mit einem prägnanten Bewegungssatz und fügen Sie dann Adjektive für Stil und Timing an: z. B. "start_frame_url animate: 'langsame Spiral‑Kamera, das Motiv wippt sanft, loopfähig', style: 'Filmkorn, cinematisch, 2 fps Tempo'". Experimentieren und kleine Iterationen sind entscheidend.

Manuelle vs automatische Animation

Automatisch: Das Modell plausible Bewegung inferieren lassen. Am besten für schnelle Experimente.
Manuell: Explizite Kamerapfade und Objektvektoren vorgeben, um konsistente, reproduzierbare Ergebnisse zu erzielen — nützlich, wenn vorhersehbare Choreografie benötigt wird oder um Realfilm‑Footage zu matchen.

Wie verlängere ich Videos, ändere die Batch‑Größe oder erstelle Loops?

Videolänge verlängern

Nach der Generierung stellen Midjourney (und Wrapper wie CometAPI) „Extend“-Steuerungen bereit. Die Midjourney‑UI erlaubt es, einen 5‑Sekunden‑Clip jeweils um 4 Sekunden zu verlängern (bis zu ~21 Sekunden). Programmatisch rufen Sie entweder denselben Endpunkt mit einem extend‑Flag auf oder reichen einen neuen extend‑Job ein, der auf den Originalclip verweist (die CometAPI‑Dokumentation zeigt die parametrisierten Endpunkte und Buttons in der Übersicht). Rechnen Sie bei Verlängerungen mit ähnlichen Kosten wie bei einer initialen Generierung.

Loop‑Videos erstellen oder Endframes festlegen

Zum Loopen das Startframe als Endframe wiederverwenden oder den Parameter --loop hinzufügen.
Für ein anderes Endframe eine weitere Bild‑URL (als end) angeben und auf kompatibles Seitenverhältnis achten. Midjourney unterstützt einen --end‑Parameter. Ziehen Sie ein manual Extend in Betracht, um Prompts während der Verlängerung für Kontinuität zu justieren.

Batch‑Größe und Kostenkontrolle

Midjourney erzeugt standardmäßig mehrere Varianten (Batch‑Größe 4). Für Produktion oder kostenempfindliche Abläufe setzen Sie bs:1, um Compute zu reduzieren. Die Midjourney‑Doku enthält Schätzungen der GPU‑Zeit für SD vs HD und verschiedene Batch‑Größen (nützlich für Kostenplanung). CometAPI bietet wettbewerbsfähige Preise.

Fazit

Midjourneys V1‑Videomodell ist der erste öffentliche Schritt in die programmatische Videoerzeugung — bewusst konservativ, aber vielversprechend. Wir erwarten iterative Modellupdates mit längeren Sequenzen, höherer Wiedergabetreue und besser steuerbaren Kamerarigs. CometAPI senkt als Aggregator die Integrationshürde für Entwickler, die Midjourney‑Video in Apps einbinden möchten, ohne sich mit mehreren anbieterspezifischen Authentifizierungen und Konkurrenzbedingungen auseinandersetzen zu müssen.

Entwickler können über CometAPI auf die MIdjourney Video API zugreifen. Beginnen Sie damit, die Modellfähigkeiten von CometAPI im Playground zu erkunden, und konsultieren Sie den API‑Guide für detaillierte Anweisungen. Bevor Sie zugreifen, stellen Sie bitte sicher, dass Sie sich bei CometAPI angemeldet und den API‑Schlüssel erhalten haben. CometAPI bietet einen deutlich niedrigeren Preis als den offiziellen, um Ihnen die Integration zu erleichtern.

Bereit loszulegen?→ Kostenlose Testversion von Midjourney!

Was ist Midjourney V1

Was Midjourney V1 leistet und wie es den Nutzern bereitgestellt wird

Wie CometAPI das Midjourney‑Videomodell bereitstellt

Wie bereite ich mich vor, bevor ich die API aufrufe?

Welche Zugangsdaten und Konten brauche ich?

Welche Entscheidungen Sie im Vorfeld treffen sollten

Wie rufe ich den Midjourney‑Video‑Endpunkt von CometAPI auf (Schritt für Schritt mit Beispielen)?

Was ist die minimale Request‑Payload?

Python‑Beispiel (requests)

Wie füge ich einem Midjourney/CometAPI‑Video Audio (Sprache, Musik, Soundeffekte) hinzu?

Erzeugt Midjourney nativ Audio?

Empfohlene Pipelines, um Sprache und Ton hinzuzufügen

Schnelles Beispiel: Audio + Video mit `ffmpeg` kombinieren

Wie sollte ich Bewegungs‑Prompts schreiben, um die Animation zu steuern?

Muster für Bewegungs‑Prompts

Manuelle vs automatische Animation

Wie verlängere ich Videos, ändere die Batch‑Größe oder erstelle Loops?

Videolänge verlängern

Loop‑Videos erstellen oder Endframes festlegen

Batch‑Größe und Kostenkontrolle

Fazit

Bereit, die KI-Entwicklungskosten um 20 % zu senken?

Mehr lesen

Wie man mit der Midjourney-API ein Video erstellt

Was ist Midjourney V1

Was Midjourney V1 leistet und wie es den Nutzern bereitgestellt wird

Wie CometAPI das Midjourney‑Videomodell bereitstellt

Wie bereite ich mich vor, bevor ich die API aufrufe?

Welche Zugangsdaten und Konten brauche ich?

Welche Entscheidungen Sie im Vorfeld treffen sollten

Wie rufe ich den Midjourney‑Video‑Endpunkt von CometAPI auf (Schritt für Schritt mit Beispielen)?

Was ist die minimale Request‑Payload?

Python‑Beispiel (requests)

Wie füge ich einem Midjourney/CometAPI‑Video Audio (Sprache, Musik, Soundeffekte) hinzu?

Erzeugt Midjourney nativ Audio?

Empfohlene Pipelines, um Sprache und Ton hinzuzufügen

Schnelles Beispiel: Audio + Video mit ffmpeg kombinieren

Wie sollte ich Bewegungs‑Prompts schreiben, um die Animation zu steuern?

Muster für Bewegungs‑Prompts

Manuelle vs automatische Animation

Wie verlängere ich Videos, ändere die Batch‑Größe oder erstelle Loops?

Videolänge verlängern

Loop‑Videos erstellen oder Endframes festlegen

Batch‑Größe und Kostenkontrolle

Fazit

Bereit, die KI-Entwicklungskosten um 20 % zu senken?

Mehr lesen

Schnelles Beispiel: Audio + Video mit `ffmpeg` kombinieren