Jak utworzyć wideo w Midjourney API?

CometAPI
AnnaDec 29, 2025
Jak utworzyć wideo w Midjourney API?

Wejście Midjourney w wideo było jednym z największych wydarzeń technologii kreatywnej w 2025 roku. To, co zaczynało jako cenione narzędzie nastawione przede wszystkim na obrazy, dodało przepływ pracy „Image-to-Video”, który zamienia statyczne ujęcia w krótkie animowane klipy — i system szybko się rozwija.

Możliwość wideo w Midjourney to przepływ „image-to-video”, który animuje pojedynczy obraz w krótki klip za pomocą przepływu „Animate”, domyślnie tworząc pięciosekundowe klipy i umożliwiając wydłużenia do ~21 sekund. Funkcja została uruchomiona w połowie 2025 roku jako model wideo V1 Midjourney i jest dostępna przez Midjourney Video V1 API w CometAPI.

Czym jest Midjourney V1

Co robi Midjourney V1 i jak jest udostępniany użytkownikom

Model wideo V1 Midjourney zamienia pojedynczy nieruchomy obraz (wygenerowany w Midjourney lub zewnętrznie hostowany) w krótkie animowane klipy — domyślnie około 5 sekund — korzystając z trybów animacji automatycznej lub manualnej oraz flag intensywności ruchu (--motion low / --motion high). Użytkownicy mogą wydłużać klipy w krokach po 4 sekundy (do ~21 sekund) i kontrolować rozmiar partii, zapętlanie oraz klatki końcowe; wyjściowe wideo to MP4. Model V1 Video Midjourney to model image-to-video zoptymalizowany pod krótkie, stylizowane, zapętlane klipy. Typowe cechy modelu V1 obejmują:

  • Bazowa długość klipu ~5 sekund, z kontrolowanym mechanizmem wydłużania (inkrementy po 4 sekundy, do udokumentowanego limitu).
  • Nacisk na zachowanie artystycznego stylu obrazu źródłowego (pociągnięcia pędzla, kolor, nastrój).
  • Kompromisy rozdzielczości i jakości dla szybkiej iteracji; V1 jest ukierunkowany na treści społecznościowe i webowe, a nie pełny, kinowy output.

Te ograniczenia wpływają na projektowanie assetów i promptów: V1 najlepiej sprawdza się w zwięzłym ruchu, animowanych nieruchomych ujęciach, pętlach z bohaterem produktu lub krótkich sekwencjach postaci, zamiast długich scen.

Jak CometAPI udostępnia model Midjourney Video

CometAPI to brama multi-modelowa, która agreguje dostęp do setek modeli AI (tekst, obraz, audio, a teraz image-to-video) pod pojedynczym interfejsem REST. Jej oferta Midjourney Video obejmuje możliwości V1 Video Midjourney, dzięki czemu inżynierowie mogą wywoływać generowanie image-to-video programowo, zamiast polegać wyłącznie na interakcji przez Discord/web. To czyni rozwiązanie użytecznym do automatyzacji kreatywnych pipeline’ów, budowania proof-of-conceptów oraz integrowania krótkich animowanych assetów w aplikacjach lub przepływach produkcji treści.

CometAPI’s Midjourney Video pozwala deweloperom uwierzytelniać, wywoływać endpoint /mj/submit/video i przekazywać parametry, takie jak prompt (który może zawierać początkowy URL obrazu), videoType (np. vid_1.1_i2v_480), mode (fast/relax) oraz animateMode (automatic/manual). CometAPI oferuje niższe ceny za wywołanie i wygodę (pojedynczy klucz API + interfejs REST) w porównaniu z bezpośrednią integracją przez skoncentrowany na Discordzie workflow Midjourney.

Jak się przygotować przed wywołaniem API?

Jakie dane uwierzytelniające i konta są potrzebne?

  1. Zarejestruj się w CometAPI i wygeneruj klucz API w panelu konta (CometAPI używa tokena typu bearer, np. sk-xxxxx).
  2. Upewnij się, że masz zasoby obrazów dostępne online (publicznie dostępny URL), jeśli planujesz użyć zewnętrznych obrazów jako klatki początkowej. Midjourney potrzebuje osiągalnych URL-i dla workflow obraz→wideo.

Jakie decyzje podjąć na początku

  • Obraz startowy — wybierz obraz z wyraźnym tematem i kompozycją; proporcje wpływają na końcową rozdzielczość/aspekt wideo (Midjourney mapuje proporcje startowe na rozmiary pikselowe SD/HD).
  • Styl ruchu — zdecyduj o niskim vs wysokim ruchu (--motion low vs --motion high) oraz czy chcesz automatyczną inferencję czy manualną kontrolę ruchu kamery/obiektu.
  • Długość i rozmiar partii — domyślnie 5 sekund; możesz wydłużyć do ~21 s. Domyślna partia to 4 (Midjourney zwraca 4 warianty), ale możesz poprosić o 1 lub 2, aby oszczędzić obliczenia.
  • Rozdzielczość — V1 jest domyślnie głównie SD (480p); HD (720p) wymaga opisu parametru, takiego jak vid_1.1_i2v_480.

Jak wywołać endpoint wideo Midjourney w CometAPI (krok po kroku z przykładami)?

Jaki jest minimalny zestaw danych żądania?

Co najmniej wysyłasz:

  • prompt: URL obrazu startowego oraz opcjonalny tekstowy prompt ruchu (np. "https://.../frame.png add a dog running from left to right").
  • videoType: np. vid_1.1_i2v_480.
  • mode: "fast" (lub "relax", jeśli plan na to pozwala).
  • animateMode: "automatic" lub "manual".

To jest przykładowy curl ilustrujący POST do https://api.cometapi.com/mj/submit/video. Oto oczyszczony, gotowy do kopiowania przykład curl zaadaptowany z przykładu CometAPI:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Przykład w Pythonie (requests)

Jeśli wolisz Pythona, oto solidny przykład używający requests, który zgłasza zadanie wideo i sprawdza jego zakończenie (zastąp pola). To praktyczny wzorzec: submit → poll → download. Poniższy przykład jest celowo prosty i powinien zostać dostosowany do asynchronicznego/systemu zadań w Twojej aplikacji produkcyjnej.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

Jak dodać audio (głos, muzykę, efekty dźwiękowe) do wideo Midjourney/CometAPI?

Czy Midjourney generuje dźwięk natywnie?

Nie — w wersji V1 wyjście wideo Midjourney jest bez dźwięku (MP4 bez osadzonego audio). Użytkownicy dodają dźwięk zewnętrznie. (Istnieją inne systemy AI generujące audio i wideo razem, ale V1 Midjourney koncentruje się na ruchu wizualnym).

Rekomendowane pipeline’y dodawania głosu i dźwięku

  1. Text-to-Speech (TTS) do narracji/głosu — użyj ElevenLabs, Replica lub podobnych usług klonowania głosu/TTS, aby generować ścieżki mowy ze skryptów. Te usługi pozwalają uzyskać naturalne style mowy i czasem niski koszt za minutę. (LinkedIn / posty społeczności rekomendują ElevenLabs jako lekką opcję do głosu).
  2. Narzędzia AI do projektowania audio (muzyka/SFX) — narzędzia takie jak MM Audio, Magicshot lub wyspecjalizowane generatory SFX mogą tworzyć tła i efekty pasujące do klipu. Poradniki społeczności i tutoriale pokazują dobrą jakość z MM Audio i innych AI audio.
  3. Manualne podejście w DAW/edytorze (precyzyjna kontrola) — zaimportuj wygenerowane MP4 do DaVinci Resolve / Premiere / Audacity, dodaj TTS, efekty dźwiękowe i zmiksuj. To najlepsze rozwiązanie dla precyzyjnej synchronizacji ust i timingów. Poradniki społeczności i filmy na YouTube pokazują podejścia krok po kroku do dopasowania audio do wideo Midjourney.

Szybki przykład: połącz audio + wideo za pomocą ffmpeg

Zakładając, że video.mp4 (bez dźwięku) i speech.mp3 (TTS) są gotowe:

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

Dla bardziej zaawansowanych miksów (muzyka w tle + dialog + efekty), wyrenderuj pojedynczą zmiksowaną ścieżkę audio z DAW, a następnie zmuxuj ją do wideo jak powyżej.

Jak pisać prompty ruchu, aby kontrolować animację?

Wzorce promptów ruchu

Promptowanie ruchu w Midjourney V1 opiera się na języku naturalnym. Przydatne wzorce:

  • Kierunek/akcja: „kamera jedzie w lewo, podczas gdy obiekt idzie naprzód”
  • Ruch obiektu: „liść spada z drzewa i dryfuje w stronę kamery”
  • Instrukcja kamery: „powolny zoom, lekki paralaks, prędkość 2x”
  • Jakość temporalna: „subtelny ruch, zapętlane, filmowy rytm”

Zacznij od zwięzłego zdania opisującego ruch, a potem dodaj przymiotniki dotyczące stylu i timingów: np. "start_frame_url animate: 'powolna spiralna kamera, obiekt kołysze się delikatnie, zapętlane', style: 'ziarno filmowe, filmowy, tempo 2 fps'". Eksperymentowanie i małe iteracje są kluczowe.

Animacja manualna vs automatyczna

  • Automatyczna: Pozwól modelowi wnioskować wiarygodny ruch. Najlepsza do szybkich eksperymentów.
  • Manualna: Podaj jawne ścieżki kamery i wektory obiektu dla spójnych, powtarzalnych wyników — użyteczne, gdy potrzebujesz przewidywalnej choreografii lub dopasowania do materiału live-action.

Jak wydłużać wideo, zmieniać rozmiar partii lub tworzyć pętle?

Wydłużanie długości wideo

Po wygenerowaniu Midjourney (i opakowania, takie jak CometAPI) udostępniają kontrolki „Extend”. Interfejs Midjourney pozwala wydłużać 5-sekundowy klip o 4 sekundy na każde wydłużenie (do ~21 sekund). Programowo albo wywołujesz ten sam endpoint z flagą extend, albo zgłaszasz nowe zadanie extend, referencjonując oryginalny klip (dokumentacja CometAPI pokazuje parametryzowane endpointy i przyciski w przeglądzie). Spodziewaj się kosztów wydłużenia podobnych do kosztów generacji początkowej.

Tworzenie zapętlanych wideo lub określanie klatek końcowych

  • Aby zapętlić, użyj klatki startowej jako klatki końcowej lub dodaj parametr --loop.
  • Dla innej klatki końcowej podaj kolejny URL obrazu (jako end) i upewnij się, że jest zgodny pod względem proporcji. Midjourney obsługuje parametr --end. Rozważ użycie manual extend, aby dostroić prompty w trakcie wydłużania dla zachowania ciągłości.

Rozmiar partii i kontrola kosztów

Midjourney domyślnie generuje wiele wariantów (rozmiar partii 4). W produkcji lub przepływach wrażliwych na koszty ustaw bs:1, aby zredukować obliczenia. Dokumentacja Midjourney zawiera szacunki czasu GPU dla SD vs HD i różnych rozmiarów partii (przydatne do prognozowania kosztów). CometAPI zapewnia konkurencyjne ceny.

Podsumowanie

Model wideo V1 Midjourney to pierwszy publiczny krok w stronę programowalnego wideo — jest zaprojektowany konserwatywnie, ale obiecująco. Oczekujemy iteracyjnych aktualizacji modeli poprawiających dłuższe sekwencje, wyższą wierność i bardziej kontrolowalne riggi kamery. Rola CometAPI jako agregatora obniża próg integracji dla deweloperów, którzy chcą dodać wideo Midjourney do aplikacji bez mierzenia się z wieloma specyficznymi dla dostawców mechanizmami uwierzytelniania i współbieżności.

Developers can access MIdjourney Video API through CometAPI. To begin, explore the model capabilities of CometAPI in the Playground and consult the API guide for detailed instructions. Before accessing, please make sure you have logged in to CometAPI and obtained the API key. CometAPI offer a price far lower than the official price to help you integrate.

Ready to Go?→ Free trial of Midjourney!

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun