Midjourney-Video-API

Mit der MidJourney Video-API können Entwickler mithilfe der Modelle und Eingabeaufforderungen von MidJourney KI-generierte Videoinhalte programmgesteuert erstellen, bearbeiten und abrufen.

Übersicht

Midjourney Video ist das erste Videogenerierungsmodell (Videomodell V1), das Midjourney am 18. Juni 2025 veröffentlichte. Es führt einen „Bild-zu-Video“-Workflow ein, der statische, KI-generierte oder benutzerhochgeladene Bilder in kurze animierte Clips umwandelt. Dies markiert Midjourneys Erweiterung von der Erstellung von Standbildern hin zu dynamischen Inhalten und positioniert es neben anderen KI-Videotools von Google, OpenAI und Meta.

So funktioniert MidJourney Video

Bild-zu-Video-Workflow: Sie stellen entweder ein von Midjourney generiertes Bild oder ein externes Bild sowie eine optionale Bewegungsaufforderung bereit. Das Modell von Midjourney interpretiert dann, „wer sich bewegt“, „wie er sich bewegt“ und „was als Nächstes passiert“, um die Szene standardmäßig etwa 5 Sekunden lang zu animieren.
Automatische vs. manuelle Animation: Im Automatikmodus leitet das System Bewegungsparameter und Kamerabewegungspfade ab. Im manuellen Modus können Sie Aspekte wie Kamerawinkel, Motivbewegungspfad und Geschwindigkeit feinabstimmen und so mehr kreative Kontrolle haben.

Technische Architektur

Midjourney Video basiert auf einer Transformator-Architektur verbessert zu handhaben zeitliche Konsistenz über Frames hinweg. Die Pipeline funktioniert wie folgt:

Merkmalsextraktion: Das Eingabebild wird durch tiefe Faltungs- und Transformatorschichten verarbeitet, um räumliche Merkmale zu erfassen.
Keyframe-Generierung: Eine kleine Menge repräsentativer Frames wird synthetisiert.
Frame-Interpolation: Spezialisierte Untermodelle erzeugen Zwischenbilder und sorgen so für einen reibungslosen Bewegungssynthese zwischen Keyframes.
Bewegungskonditionierung: Es hängt davon ab Hoch or Geringe Bewegung Einstellungen (und alle manuellen Eingabeaufforderungen) passt das Modell die Objekt- und Kamerabahnen an.

Modellversionierung und Roadmap

V1-Videomodell (Juni 2025): Erstveröffentlichung mit Schwerpunkt auf der Konvertierung von Bild zu Video.

Benchmark-Leistung

Erste Auswertungen positionieren das V1-Modell als wettbewerbsfähig:

Rahmenqualität (FID-Score): Erreicht eine Fréchet-Inception-Distanz von 22.4und übertrifft vergleichbare Open-Source-Videomodelle bei Standard-Video-Benchmarks um ca. 15 %.
Zeitliche Glätte (TS-Metrik): Zeichnet einen Zeitlichen Glättewert von 0.88 im DAVIS-Datensatz, was auf eine hohe visuelle Kontinuität über alle Frames hinweg hinweist.
Latency: Durchschnittliche Generationszeit von 12 Sekunden pro Clip auf einer einzelnen NVIDIA A100 GPU, wodurch die Leistung mit den Benutzererwartungen in Einklang gebracht wird.
Qualitätsmetriken: Erzielt eine SSIM (Struktureller Ähnlichkeitsindex) oben 0.85 auf synthetischen Bewegungsdatensätzen im Vergleich zu Ground-Truth-Clips, was darauf hindeutet Hi-Fi zu natürlichen Bewegungsmustern.

Hinweis: Diese Zahlen spiegeln die internen Tests von Midjourney wider; die externe Leistung kann je nach Auslastung und Abonnementstufe variieren.

Hauptmerkmale von V1

Cliplänge: Basisclips dauern ca. 5 Sekunden. Sie können sie in 4-Sekunden-Schritten auf insgesamt bis zu 21 Sekunden verlängern.
Stilkonsistenz: Animationen bewahren den künstlerischen Stil des Originalbilds – Pinselstriche, Farbpaletten und Stimmung werden durch die Bewegung übertragen.
Leistung & Geschwindigkeit: Ein typisches 4-Segment-Video (≈17 Sekunden) wird in weniger als 70 Sekunden gerendert, wobei Qualität und schnelle Iteration im Gleichgewicht bleiben.
Auflösung: Derzeit auf 480p begrenzt, was für Clips im Social-Media-Stil klar ist, aber nicht auf Großbildschirme oder kommerzielle High-End-Projekte abzielt.

So rufen Sie die MidJourney Video API von CometAPI auf