Der Schritt von Midjourney in Richtung Video ist eine der größten Kreativ‑Tech‑Geschichten des Jahres 2025. Was als beliebtes, bildzentriertes Tool begann, hat einen „Image‑to‑Video“-Workflow hinzugefügt, der Standbilder in kurze animierte Clips verwandelt — und das System entwickelt sich rasant.
Die Videofähigkeit von Midjourney ist ein Image‑to‑Video‑Workflow, der ein einzelnes Bild über einen „Animate“-Flow zu einem kurzen Clip animiert, standardmäßig mit fünf Sekunden und Erweiterungen bis zu ~21 Sekunden. Das Feature wurde Mitte 2025 als Video‑Modell V1 von Midjourney gestartet und ist über die Midjourney Video V1 API von CometAPI verfügbar.
Was ist Midjourney V1
Was Midjourney V1 leistet und wie es den Nutzern präsentiert wird
Das Video‑Modell V1 von Midjourney verwandelt ein einzelnes Standbild (entweder innerhalb von Midjourney generiert oder ein extern gehostetes Bild) in kurze animierte Clips — standardmäßig etwa 5 Sekunden — mit automatischen oder manuellen Animationsmodi und Bewegungsintensitäts‑Flags (--motion low / --motion high). Nutzer können Clips in 4‑Sekunden‑Schritten verlängern (bis zu ~21 Sekunden) und Batch‑Größe, Looping und End‑Frames steuern; Videoausgaben sind MP4. Das V1‑Videomodell von Midjourney ist ein Image‑to‑Video‑Modell, optimiert für kurze, stilisierte, loopfähige Clips. Typische Eigenschaften des V1‑Modells umfassen:
- Basis‑Cliplänge ~5 Sekunden, mit einem kontrollierten Verlängerungsmechanismus (4‑Sekunden‑Inkremente, bis zu einem dokumentierten Limit).
- Betonung der Bewahrung des künstlerischen Stils des Ausgangsbilds (Pinselstrich, Farbe, Stimmung).
- Auflösung‑ und Qualitäts‑Trade‑offs für schnelle Iteration; V1 ist auf Social‑ und Web‑Content ausgerichtet und nicht auf vollwertige Kinoausgabe.
Diese Einschränkungen prägen, wie Sie Assets und Prompts entwerfen: V1 eignet sich am besten für prägnante Bewegung, animierte Standbilder, Produkt‑Hero‑Loops oder kurze Charaktersequenzen statt für lange Szenen.
Wie CometAPI das Midjourney‑Video‑Modell bereitstellt
CometAPI ist ein Multi‑Modell‑Gateway, das den Zugriff auf Hunderte von KI‑Modellen (Text, Bild, Audio und jetzt Image‑to‑Video) hinter einer einzigen REST‑Surface aggregiert. Das Midjourney‑Video‑Angebot von CometAPI kapselt die V1‑Videofunktion von Midjourney, sodass Ingenieure die Image‑to‑Video‑Generierung programmatisch aufrufen können, statt sich ausschließlich auf Discord/Web‑Interaktion zu verlassen. Das ist nützlich für die Automatisierung kreativer Pipelines, den Aufbau von Proof‑of‑Concepts und die Integration kurzer animierter Assets in Apps oder Content‑Produktions‑Workflows.
CometAPI’s Midjourney Video ermöglicht es Entwicklern, sich zu authentifizieren, einen /mj/submit/video‑Endpunkt aufzurufen und Parameter zu übergeben wie prompt (dieser kann eine Startbild‑URL enthalten), videoType (z. B. vid_1.1_i2v_480), mode (fast/relax) und animateMode (automatic/manual). CometAPI bietet geringere Preise pro Call und mehr Komfort (ein einzelner API‑Key + REST‑Interface) im Vergleich zur direkten Integration über den Discord‑zentrierten Workflow von Midjourney.
Wie bereite ich mich vor, bevor ich die API aufrufe?
Welche Zugangsdaten und Konten brauche ich?
- Melden Sie sich bei CometAPI an und generieren Sie einen API‑Key in Ihrem Account‑Dashboard (CometAPI verwendet ein Bearer‑Token wie
sk-xxxxx). - Stellen Sie sicher, dass Sie Bild‑Assets online verfügbar haben (eine öffentlich zugängliche URL), wenn Sie externe Bilder als Startframe verwenden möchten. Midjourney benötigt erreichbare URLs für externe Image→Video‑Workflows.
Welche Entscheidungen im Vorfeld
- Startbild — Wählen Sie ein Bild mit klarem Motiv und Komposition; das Seitenverhältnis beeinflusst die endgültige Videoauflösung/‑Aspect (Midjourney ordnet Start‑Aspects SD/HD‑Pixelgrößen zu).
- Bewegungsstil — Entscheiden Sie Low vs High Motion (
--motion lowvs--motion high) und ob Sie automatische Inferenz oder manuelle Steuerung von Kamera/Objektbewegung wünschen. - Länge & Batch‑Größe — Standard sind 5 Sekunden; Sie können bis zu ~21 s verlängern. Die Batch‑Größe ist standardmäßig 4 (Midjourney liefert 4 Varianten), Sie können 1 oder 2 anfordern, um Compute zu sparen.
- Auflösung — V1 ist primär SD (480p) standardmäßig; HD (720p) benötigt Parameterangaben, wie etwa vid_1.1_i2v_480.
Wie rufe ich den Midjourney‑Video‑Endpunkt von CometAPI auf (Schritt für Schritt mit Beispielen)?
Was ist die minimale Request‑Payload?
Mindestens senden Sie:
prompt: die Startbild‑URL und optional einen textuellen Motion‑Prompt (z. B."https://.../frame.png add a dog running from left to right").videoType: z. B.vid_1.1_i2v_480.mode:"fast"(oder"relax", falls vom Plan erlaubt).animateMode:"automatic"oder"manual".
Dies ist ein Beispiel‑curl, das einen POST an https://api.cometapi.com/mj/submit/video. illustriert. Hier ist ein bereinigtes, kopierfertiges curl‑Beispiel, adaptiert aus dem Beispiel von CometAPI:
curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Python‑Beispiel (requests)
Wenn Sie Python bevorzugen, folgt hier ein robustes Beispiel mit requests, das einen Video‑Job einreicht und auf die Fertigstellung pollt (Platzhalter ersetzen). Dies ist ein praktisches Muster: submit → poll → download. Das untenstehende Beispiel ist bewusst einfach und sollte in der Produktion an das Async/Job‑System Ihrer App angepasst werden.
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
Wie füge ich Audio (Stimme, Musik, Soundeffekte) zu einem Midjourney/CometAPI‑Video hinzu?
Produziert Midjourney Audio nativ?
Nein — mit V1 ist die Videoausgabe von Midjourney stumm (MP4 ohne eingebettetes Audio). Nutzer ergänzen Ton extern. (Es gibt andere KI‑Systeme, die Audio/Video gemeinsam generieren, aber Midjourney V1 konzentriert sich auf visuelle Bewegung.)
Empfohlene Pipelines für Stimme und Sound
- Text‑to‑Speech (TTS) für Narration/Stimme — Nutzen Sie ElevenLabs, Replica oder ähnliche Voice‑Cloning/TTS‑Dienste, um Sprachspuren aus Skripten zu generieren. Diese Dienste erlauben natürliche Sprechstile und teils geringe Kosten pro Minute. (LinkedIn‑/Community‑Posts empfehlen ElevenLabs als leichtgewichtige Wahl für Voice.)
- KI‑Audiodesign‑Tools für Musik/SFX — Tools wie MM Audio, Magicshot oder spezialisierte SFX‑Generatoren können Hintergrundatmosphären und Effekte erzeugen, die zum Clip passen. Community‑Guides und Tutorials zeigen gute Qualität von MM Audio und anderen Audio‑AIs.
- Manueller DAW/Editor‑Ansatz (feine Kontrolle) — Importieren Sie das generierte MP4 in DaVinci Resolve/Premiere/Audacity, fügen Sie TTS‑Audio und Soundeffekte hinzu und mischen Sie. Dies ist der beste Weg für präzises Lipsync und Timing. Community‑Tutorials und YouTube‑Walkthroughs zeigen Schritt‑für‑Schritt‑Vorgehen zum Abgleich von Audio und Midjourney‑Videos.
Kurzes Beispiel: Audio + Video mit ffmpeg kombinieren
Angenommen, video.mp4 (stumm) und speech.mp3 (TTS) sind bereit:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
Für fortgeschrittene Mixes (Hintergrundmusik + Dialog + Sound‑FX) rendern Sie eine einzelne gemischte Audiospur aus Ihrer DAW und muxen Sie sie anschließend wie oben ins Video.
Wie sollte ich Bewegungs‑Prompts formulieren, um die Animation zu steuern?
Muster für Motion Prompts
Motion‑Prompting in Midjourney V1 ist natürlichsprachlich gesteuert. Nützliche Muster:
- Richtung/Aktion: „Kamera dollyt nach links, während das Motiv nach vorn geht“
- Objektbewegung: „Ein Blatt fällt vom Baum und treibt auf die Kamera zu“
- Kamerainstruktion: „Langsamer Zoom‑in, leichte Parallaxe, 2× Geschwindigkeit“
- Zeitliche Qualität: „Subtile Bewegung, loopfähig, cineastischer Rhythmus“
Beginnen Sie mit einem prägnanten Bewegungssatz und hängen Sie dann Adjektive für Stil und Timing an: z. B. "start_frame_url animate: 'langsamer Spiral-Kameraweg, Motiv wippt sanft, loopfähig', style: 'Filmkorn, cineastisch, 2 fps Tempo'". Experimentieren und kleine Iterationen sind entscheidend.
Manuelle vs automatische Animation
- Automatic: Das Modell inferiert plausible Bewegung. Am besten für schnelle Experimente.
- Manual: Liefern Sie explizite Kamerapfade und Objektvektoren für konsistente, reproduzierbare Ergebnisse — nützlich, wenn Sie vorhersehbare Choreografie benötigen oder Live‑Action‑Footage matchen möchten.
Wie verlängere ich Videos, ändere Batch‑Größe oder erstelle Loops?
Verlängern der Videolänge
Nach der Generierung stellen Midjourney (und Wrapper wie CometAPI) „Extend“-Steuerungen bereit. Die Midjourney‑UI erlaubt das Verlängern eines 5‑Sekunden‑Clips um jeweils 4 Sekunden (bis zu ~21 Sekunden). Programmatisch rufen Sie entweder denselben Endpunkt mit einem extend‑Flag auf oder reichen einen neuen extend‑Job ein, der auf den Originalclip verweist (die CometAPI‑Docs zeigen die parametrierten Endpunkte und Buttons in ihrer Übersicht). Rechnen Sie mit ähnlichen Kosten wie bei einer Initialgenerierung.
Loop‑Videos erstellen oder End‑Frames spezifizieren
- Zum Loopen verwenden Sie den Startframe erneut als Endframe oder fügen den Parameter
--loophinzu. - Für einen anderen Endframe geben Sie eine weitere Bild‑URL (als
end) an und stellen Sie sicher, dass das Seitenverhältnis kompatibel ist. Midjourney unterstützt einen--end‑Parameter. Erwägen SiemanualExtend, um Prompts während der Verlängerung für Kontinuität zu justieren.
Batch‑Größe und Kostenkontrolle
Midjourney generiert standardmäßig mehrere Varianten (Batch‑Größe 4). Für Produktion oder kostenempfindliche Abläufe setzen Sie bs:1, um Compute zu reduzieren. Die Midjourney‑Dokumentation enthält Schätzungen zur GPU‑Zeit für SD vs HD und unterschiedliche Batch‑Größen (nützlich für Kostenprognosen). CometAPI bietet wettbewerbsfähige Preise.
Fazit
Das Video‑Modell V1 von Midjourney ist der erste öffentliche Schritt in Richtung programmatisches Video — es ist konservativ konzipiert, aber vielversprechend. Wir erwarten iterative Modellupdates mit Verbesserungen bei längeren Sequenzen, höherer Wiedergabetreue und stärker steuerbaren Kamerarigs. Die Rolle von CometAPI als Aggregator senkt die Integrationshürde für Entwickler, die Midjourney‑Video in Apps einbinden möchten, ohne sich mit verschiedenen anbieterspezifischen Authentifizierungen und Konkurrenz‑Eigenheiten auseinandersetzen zu müssen.
Entwickler können über CometAPI auf die Midjourney Video API zugreifen. Beginnen Sie damit, die Modellfähigkeiten von CometAPI im Playground zu erkunden und konsultieren Sie den API‑Leitfaden für detaillierte Anweisungen. Bitte stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API‑Key erhalten haben. CometAPI bietet einen deutlich niedrigeren Preis als der offizielle Preis, um Ihnen die Integration zu erleichtern.
Bereit? → Kostenlose Testversion von Midjourney!
