Jak utworzyć wideo w API Midjourney?

CometAPI
AnnaDec 29, 2025
Jak utworzyć wideo w API Midjourney?

Przejście Midjourney w wideo było jedną z największych historii technologii kreatywnej 2025 roku. To, co zaczęło się jako lubiane, obrazocentryczne narzędzie, zyskało workflow „Image‑to‑Video”, który zamienia zdjęcia w krótkie, animowane klipy — i system szybko się zmienia.

Możliwość wideo Midjourney to workflow image‑to‑video, który animuje pojedynczy obraz w krótki klip za pomocą przepływu „Animate”, domyślnie tworząc pięciosekundowe klipy i umożliwiając wydłużanie do ~21 sekund. Funkcja zadebiutowała w połowie 2025 roku jako model wideo Midjourney V1 i jest dostępna poprzez Midjourney Video V1 API CometAPI.

Czym jest Midjourney V1

Co robi Midjourney V1 i jak jest udostępniany użytkownikom

Model wideo V1 Midjourney zamienia pojedynczy nieruchomy obraz (wygenerowany w Midjourney lub hostowany zewnętrznie) w krótkie, animowane klipy — domyślnie około 5 sekund — korzystając z trybów animacji automatycznej lub manualnej oraz flag intensywności ruchu (--motion low / --motion high). Użytkownicy mogą wydłużać klipy w krokach co 4 sekundy (do ~21 sekund) i kontrolować rozmiar partii, zapętlanie oraz klatki końcowe; wyjścia wideo to pliki MP4. Model V1 Video Midjourney to model typu image‑to‑video zoptymalizowany pod kątem krótkich, stylizowanych, zapętlanych klipów. Typowe cechy modelu V1 obejmują:

  • Bazową długość klipu ~5 sekund z kontrolowanym mechanizmem wydłużania (przyrosty 4‑sekundowe, do udokumentowanego limitu).
  • Nacisk na zachowanie artystycznego stylu obrazu źródłowego (pociągnięcia pędzla, kolor, nastrój).
  • Kompromisy rozdzielczości i jakości dla szybkiej iteracji; V1 jest ukierunkowany na treści do social mediów i sieci, a nie pełne, kinowe wyjścia.

Te ograniczenia kształtują sposób projektowania zasobów i promptów: V1 najlepiej sprawdza się w zwięzłym ruchu, animowanych fotosach, pętlach produktowych lub krótkich ujęciach postaci, a nie w długich scenach.

Jak CometAPI udostępnia model Midjourney Video

CometAPI to brama multi‑modelowa, która agreguje dostęp do setek modeli SI (tekst, obraz, audio, a teraz image‑to‑video) pod wspólnym interfejsem REST. Oferta Midjourney Video w CometAPI opakowuje możliwości V1 Video Midjourney, aby inżynierowie mogli wywoływać generowanie image‑to‑video programowo, zamiast polegać wyłącznie na interakcji Discord/www. To czyni usługę użyteczną do automatyzacji kreatywnych pipeline’ów, budowy proof‑of‑conceptów oraz integracji krótkich, animowanych zasobów z aplikacjami lub przepływami produkcji treści.

CometAPI’s Midjourney Video pozwala deweloperom uwierzytelnić się, wywołać endpoint /mj/submit/video i przekazać parametry takie jak prompt (może zawierać URL obrazu startowego), videoType (np. vid_1.1_i2v_480), mode (fast/relax) oraz animateMode (automatic/manual). CometAPI oferuje niższe koszty pojedynczego wywołania i wygodę (jeden klucz API + interfejs REST) w porównaniu z bezpośrednią integracją z workflow skoncentrowanym na Discordzie Midjourney.

Jak przygotować się przed wywołaniem API?

Jakie poświadczenia i konta są potrzebne?

  1. Zarejestruj się w CometAPI i wygeneruj klucz API z pulpitu konta (CometAPI używa tokena bearer, np. sk-xxxxx).
  2. Upewnij się, że masz zasoby obrazów dostępne online (publicznie dostępny URL), jeśli planujesz używać obrazów zewnętrznych jako klatki początkowej. Midjourney wymaga osiągalnych URL‑i w workflow obraz→wideo.

Jakie decyzje podjąć na starcie

  • Obraz startowy — wybierz obraz z wyraźnym tematem i kompozycją; proporcje boków wpływają na rozdzielczość/proporcje końcowego wideo (Midjourney mapuje proporcje startowe na rozmiary pikseli SD/HD).
  • Styl ruchu — zdecyduj o niskim vs wysokim ruchu (--motion low vs --motion high) i czy chcesz wnioskowanie automatyczne, czy manualną kontrolę ruchu kamery/obiektu.
  • Długość i rozmiar partii — domyślnie 5 sekund; możesz wydłużać do ~21 s. Rozmiar partii domyślnie to 4 (Midjourney zwraca 4 warianty), ale możesz poprosić o 1 lub 2, by oszczędzić zasoby.
  • Rozdzielczość — V1 to głównie SD (480p) domyślnie; HD (720p) wymaga opisu parametru, np. vid_1.1_i2v_480.

Jak wywołać endpoint wideo Midjourney CometAPI (krok po kroku z przykładami)?

Minimalny payload żądania

W minimum wysyłasz:

  • prompt: URL obrazu startowego i opcjonalny tekstowy prompt ruchu (np. "![image](https://.../frame.png) dodaj psa biegnącego z lewej do prawej").
  • videoType: np. vid_1.1_i2v_480.
  • mode: "fast" (lub "relax", jeśli plan na to pozwala).
  • animateMode: "automatic" lub "manual".

To jest przykładowy curl ilustrujący POST do[![image](https://api.cometapi.com/mj/submit/video.) Oto oczyszczony, gotowy do skopiowania przykład curl zaadaptowany z przykładu CometAPI:

curl --location --request POST '![image](https://api.cometapi.com/mj/submit/video') \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) Spokojna nadmorska scena — kamera powoli odjeżdża, obok przelatuje mewa",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Przykład w Pythonie (requests)

Jeśli wolisz Pythona, oto solidny przykład używający requests, który składa zadanie wideo i odpyta o jego zakończenie (zamień placeholdery). To praktyczny wzorzec: submit → poll → download. Poniższy przykład jest celowo prosty i powinien zostać dostosowany do asynchronicznego/systemu zadań twojej aplikacji w produkcji.

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) Spokojna miejska ulica — kamera przesuwa się w lewo, pada deszcz",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Złóż zadanie
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Odpytuj o zakończenie (przykładowe odpytywanie)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # odpytywanie do ~60 razy
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Wideo gotowe:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Generowanie wideo nie powiodło się: " + str(st))
    time.sleep(2)

Jak dodać audio (głos, muzyka, efekty dźwiękowe) do wideo Midjourney/CometAPI?

Czy Midjourney natywnie generuje audio?

Nie — w wersji V1 wyjście wideo Midjourney jest nieme (MP4 bez osadzonego audio). Użytkownicy dodają dźwięk zewnętrznie. (Istnieją inne systemy SI generujące audio i wideo razem, ale V1 Midjourney koncentruje się na ruchu wizualnym).

Rekomendowane pipeline’y dodawania głosu i dźwięku

  1. Text‑to‑Speech (TTS) do narracji/głosu — Użyj ElevenLabs, Replica lub podobnych usług TTS/klonowania głosu, aby wygenerować ścieżki mowy ze skryptów. Usługi te pozwalają tworzyć naturalne style mowy i czasem mają niski koszt za minutę. (Posty na LinkedIn/społeczności często polecają ElevenLabs jako lekkie rozwiązanie do głosu).
  2. Narzędzia SI do projektowania audio dla muzyki/SFX — Narzędzia takie jak MM Audio, Magicshot lub wyspecjalizowane generatory SFX potrafią tworzyć tła i efekty dopasowane do klipu. Przewodniki społeczności i tutoriale pokazują dobrą jakość z MM Audio i innych SI audio.
  3. Ręczne podejście w DAW/edytorze (precyzyjna kontrola) — Zaimportuj wygenerowany MP4 do DaVinci Resolve / Premiere / Audacity, dodaj TTS, efekty dźwiękowe i zmiksuj. To najlepsza droga do precyzyjnej synchronizacji ust i timingów. Tutoriale społeczności i filmy na YouTube pokazują krok po kroku, jak dopasować audio do wideo Midjourney.

Szybki przykład: łączenie audio + wideo z ffmpeg

Zakładając, że masz video.mp4 (nieme) i speech.mp3 (TTS):

# Znormalizuj długość audio (opcjonalnie), a następnie połącz:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

W przypadku bardziej zaawansowanych miksów (muzyka w tle + dialog + efekty) wyrenderuj pojedynczą zmiksowaną ścieżkę audio z DAW, a następnie zmuxuj ją z wideo jak powyżej.

Jak pisać prompty ruchu, aby kontrolować animację?

Wzorce promptów ruchu

Prompting ruchu w Midjourney V1 opiera się na języku naturalnym. Przydatne wzorce:

  • Kierunek/akcja: „kamera jedzie w lewo, podczas gdy postać idzie do przodu”
  • Ruch obiektu: „liść spada z drzewa i dryfuje w stronę kamery”
  • Instrukcja kamery: „powolne zbliżenie, lekka paralaksa, 2x prędkość”
  • Jakość temporalna: „subtelny ruch, zapętlane, filmowe tempo”

Zacznij od zwięzłego zdania o ruchu, a następnie dodaj przymiotniki dotyczące stylu i timingów: np. "start_frame_url animate: 'powolna spiralna kamera, obiekt delikatnie podskakuje, zapętlane', style: 'ziarno filmowe, filmowy, tempo 2 fps'". Eksperymenty i małe iteracje są kluczowe.

Animacja manualna vs automatyczna

  • Automatyczna: Pozwól modelowi wywnioskować wiarygodny ruch. Najlepsza do szybkich eksperymentów.
  • Manualna: Dostarcz eksplicytne ścieżki kamery i wektory ruchu obiektu dla spójnych, powtarzalnych rezultatów — przydatne, gdy potrzebujesz przewidywalnej choreografii lub dopasowania do materiału live‑action.

Jak wydłużać wideo, zmieniać rozmiar partii lub tworzyć pętle?

Wydłużanie długości wideo

Po wygenerowaniu Midjourney (i wrapery takie jak CometAPI) udostępniają kontrolki „Extend”. Interfejs Midjourney pozwala wydłużyć 5‑sekundowy klip o 4 sekundy na każde wydłużenie (do ~21 sekund). Programowo wywołujesz ten sam endpoint z flagą extend lub składasz nowe zadanie extend odnoszące się do oryginalnego klipu (dokumentacja CometAPI pokazuje sparametryzowane endpointy i przyciski w swoim przeglądzie). Spodziewaj się kosztów wydłużenia podobnych do kosztu generacji początkowej.

Tworzenie zapętlonych wideo lub określanie klatek końcowych

  • Aby zapętlić, użyj klatki początkowej jako końcowej lub dodaj parametr --loop.
  • Aby użyć innej klatki końcowej, podaj inny URL obrazu (jako end) i upewnij się, że ma kompatybilne proporcje. Midjourney obsługuje parametr --end. Rozważ użycie manualnego wydłużenia, aby modyfikować prompty w trakcie wydłużania dla zachowania ciągłości.

Rozmiar partii i kontrola kosztów

Midjourney domyślnie generuje wiele wariantów (rozmiar partii 4). Dla produkcji lub oszczędności ustaw bs:1, aby ograniczyć obliczenia. Dokumentacja Midjourney zawiera szacunki czasu GPU dla SD vs HD i różnych rozmiarów partii (przydatne do prognozowania kosztów). CometAPI oferuje konkurencyjne ceny.

Zakończenie

Model wideo V1 Midjourney to pierwszy publiczny krok w stronę programowalnego wideo — zaprojektowany konserwatywnie, ale obiecujący. Spodziewamy się iteracyjnych aktualizacji modelu poprawiających dłuższe sekwencje, wyższą wierność i bardziej kontrolowalne ruchy kamery. Rola CometAPI jako agregatora obniża próg integracji dla deweloperów, którzy chcą dodać Midjourney video do aplikacji bez mierzenia się z wieloma specyficznymi dla dostawców mechanizmami uwierzytelniania i współbieżności.

Deweloperzy mogą uzyskać dostęp do MIdjourney Video API przez CometAPI. Aby rozpocząć, poznaj możliwości modeli CometAPI w Playground i zapoznaj się z przewodnikiem API, aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. CometAPI oferuje cenę znacznie niższą niż oficjalna, aby ułatwić integrację.

Gotowy do startu?→ Darmowa wersja próbna Midjourney!

Gotowy na obniżenie kosztów rozwoju AI o 20%?

Zacznij za darmo w kilka minut. Dołączone kredyty na bezpłatny okres próbny. Karta kredytowa nie jest wymagana.

Czytaj więcej