Skok Midjourney w generowanie wideo jest ekscytujący: przekształca on nieruchome obrazy w krótkie, zapętlone animowane klipy, które otwierają drzwi do opowiadania historii i treści opartych na ruchu. Jednak dopóki Midjourney nie będzie oferować wbudowanych, dopracowanych ścieżek audio (o ile w ogóle będzie), twórcy muszą łączyć dźwięk z niemym wyjściem wideo, korzystając z połączenia narzędzi audio opartych na sztucznej inteligencji i klasycznych edytorów. Ten artykuł wyjaśnia obecną sytuację (narzędzia, przepływy pracy, wskazówki i zabezpieczenia prawne) i przedstawia krok po kroku, gotowy do produkcji przepływ pracy, który pozwala dodawać głos i dźwięk do klipów wideo Midjourney.
Czym właściwie jest „Midjourney video” i dlaczego wymaga zewnętrznego dźwięku?
Co obecnie produkuje film Midjourney
Funkcja wideo Midjourney konwertuje wygenerowany lub przesłany obraz na krótki animowany klip (początkowo 5 sekund, z możliwością stopniowego wydłużania), który kładzie nacisk na ruch i ruch kamery/obiektu, a nie na zsynchronizowany dźwięk lub dialogi z ruchem ust. Narzędzie ma generować bogate wizualnie krótkie pętle, a nie gotowe narracje audiowizualne. Oznacza to, że każdy eksportowany film z Midjourney będzie niemy i musi zostać połączony z dźwiękiem w postprodukcji, aby stał się czymś więcej niż ruchomym obrazem.
Jakie są podstawowe zasady i ograniczenia dotyczące filmów Midjourney?
Funkcja wideo Midjourney konwertuje obraz początkowy na krótki animowany klip (domyślnie 5 s), z opcjami wydłużenia do 21 sekund, wyboru ruchu „niskiego” lub „wysokiego”, zapętlenia i zmiany rozmiaru partii. Filmy można pobrać jako .mp4 a Midjourney ujawnia --video parametr (i --motion low|high, --loop, --end, --bs #, --raw --end, --bs parametry— są w Oficjalne dokumenty Midjourney) dla komunikatów Discord lub API. Rozdzielczość to SD (480p) i HD (720p); rozmiary partii i ustawienia ruchu wpływają na czas i koszt GPU.
Praktyczne wnioski: Klipy w trakcie podróży są krótkie (5–21 s), więc zaplanuj narrację i ścieżkę dźwiękową tak, aby pasowały do tej przestrzeni — lub przygotuj się na połączenie kilku klipów. Pobierz Surowy plik wideo (.mp4) ze strony Utwórz Midjourney, aby uzyskać najlepszą jakość do pracy w postprodukcji.
Dlaczego warto dodać głos, muzykę i efekty specjalne
Dodawanie dźwięku:
- Zapewnia kontekst i narrację (głos lektora), dzięki czemu abstrakcyjne wizualizacje stają się komunikatywne.
- Nadaje ton emocjonalny (wybór muzyki) i poprawia retencję widza.
- Osadza wizualizacje AI w realistycznym środowisku (dźwięk, efekty Foley, efekty ambientowe).
- Przygotowuje treści do udostępnienia na platformach TikTok, YouTube lub w filmach, w których dźwięk odgrywa kluczową rolę.
Jaki jest najprostszy proces dodawania głosu i dźwięku do filmu MidJourney?
Szybki przepis w jednym akapicie
- Wygeneruj wideo lub animowane klatki w MidJourney (Galeria → Funkcje animacji / wideo).
- Eksportuj/pobierz wygenerowany film (MP4/GIF).
- Twórz narrację głosową za pomocą TTS firmy OpenAI (np.
gpt-4o-mini-ttslub innych modeli TTS) i eksportować jako WAV/MP3. - Twórz muzykę w tle i efekty specjalne, korzystając z narzędzi audio opartych na sztucznej inteligencji (mogą się w tym przydać takie narzędzia jak MM Audio, Udio lub Runway).
- Wyrównuj i miksuj w programie DAW (Reaper, Audacity, Logic lub po prostu użyj ffmpeg do bezpośredniego scalania).
- Opcjonalnie uruchom synchronizację ruchu ust z wykorzystaniem sztucznej inteligencji, jeśli w filmie znajdują się twarze i chcesz, aby usta odpowiadały mowie (Wav2Lip, Sync.so i usługi komercyjne).
Dlaczego ten podział (elementy wizualne i dźwiękowe) jest ważny
MidJourney koncentruje się na kreatywności wizualnej i projektowaniu ruchu; projektowanie dźwięku to osobny zestaw techniczny (generowanie mowy, projektowanie dźwięku, synchronizacja). Podzielenie obowiązków daje znacznie większą kontrolę – charakter głosu, tempo, projektowanie dźwięku i mastering – bez konieczności walki z generatorem obrazu.
Jak stworzyć temat Midjourney na potrzeby filmu?
Możesz tworzyć filmy z dowolnego obrazu w swojej galerii lub wklejając publicznie hostowany adres URL obrazu do paska Imagine i dodając --video parametr (na Discordzie lub API). Po wygenerowaniu możesz pobrać plik MP4 (wersja Raw lub Social) bezpośrednio ze strony Midjourney Create lub z Discorda.
Prosty przykład w stylu Discorda, w którym przesłany obraz jest klatką początkową:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
Uwagi:
- Umieść adres URL obrazu na początku, aby użyć go jako ramki początkowej.
- Dodaj
--videoi flagę ruchu (--motion lowor--motion high). - Zastosowanie
--bs 1jeśli potrzebujesz tylko jednego wyjścia (oszczędza czas GPU). - Zastosowanie
--rawjeśli chcesz mniej stylizacji i więcej deterministycznego ruchu.
Jeśli film jest krótszy niż oczekiwana narracja, możesz go wydłużyć w Midjourney (do +4 sekund na rozszerzenie, maksymalnie 21 sekund łącznie) lub przyciąć/zapętlić dźwięk. Zanotuj dokładny czas trwania (sekundy + milisekundy), aby móc dopasować narrację i efekty dźwiękowe. Midjourney oferuje opcję „Pobierz surowy film” na stronie tworzenia i w Discordzie; użyj jej jako pliku startowego.
Które modele OpenAI TTS powinienem wziąć pod uwagę i dlaczego?
Jakie opcje TTS są obecnie dostępne?
OpenAI oferuje wiele opcji TTS: historycznie tts-1 / tts-1-hd i nowszy sterowalny gpt-4o-mini-tts, gpt-4o-mini-tts model ten kładzie nacisk na sterowalność (można regulować ton, tempo, emocje) i jest zaprojektowany do elastycznego, ekspresyjnego generowania głosu; tts-1 oraz tts-1-hd pozostają silnym wyborem dla wysokiej jakości, bardziej tradycyjnych systemów TTS. Użyj gpt-4o-mini-tts kiedy chcesz kontrolować w jaki sposób tekst jest mówiony (styl, klimat) i tts-1-hd dla maksymalnej wierności, gdy kontrola stylu jest mniej krytyczna. penAI stale rozwija modele audio (zapowiedzi z 2025 r. rozszerzyły możliwości obsługi mowy i transkrypcji), dlatego wybierz model, który równoważy koszty, jakość i kontrolę dla Twojego projektu. Interfejsy API modelu tts są również zintegrowane z Interfejs API Comet.
Czy są jakieś zastrzeżenia co do produkcji lub obecne ograniczenia?
gpt-4o-mini-tts może czasami wykazywać niestabilność w przypadku dłuższych plików audio (pauzy, wahania głośności), szczególnie powyżej ~1.5–2 minut. W przypadku krótkich klipów Midjourney (poniżej ~20–30 sekund) rzadko stanowi to problem, ale w przypadku dłuższej narracji lub długich nagrań głosowych należy je przetestować i zweryfikować. Jeśli oczekujesz dłuższej narracji, preferuj tts-1-hd lub podziel tekst na krótsze fragmenty i starannie je zszyj.
Inne narzędzie opcjonalne
Muzyka w tle i efekty specjalne: Narzędzia takie jak MM Audio (narzędzia społecznościowe), Udio, MagicShot czy Runway pozwalają szybko tworzyć pasującą muzykę w tle i efekty dźwiękowe kontekstowe; wątki społecznościowe i samouczki pokazują, jak twórcy łączą je w filmach MidJourney. Aby uzyskać kontrolę na poziomie produkcyjnym, wygeneruj ścieżki dźwiękowe (muzyka + ambient) i wyeksportuj je do miksu.
Synchronizacja ruchu ust i animacja twarzy: Jeśli film zawiera postacie lub zbliżenia twarzy i zależy Ci na realistycznym ruchu ust, rozważ Wav2Lip (open source) lub komercyjne API, takie jak Sync.so, Synthesia lub inne usługi synchronizacji ruchu ust. Narzędzia te analizują dźwięk, aby uzyskać kształt ust zgodny z fonemami i zastosować go do docelowej twarzy lub sekwencji klatek.
Jak wygenerować plik głosowy za pomocą TTS OpenAI (kod praktyczny)?
Poniżej znajdują się dwa praktyczne przykłady z formatu wywołań CometAPI, które generują plik MP3 (lub WAV) za pomocą punktu końcowego TTS OpenAI. Możesz dostosować nazwy głosów i flagi strumieniowania do swojego konta CometAPI i aktualizacji SDK.
⚠️ Wymień
YOUR_CometAPI_API_KEYz kluczem API. Najpierw przetestuj na krótkiej frazie. Zapoznaj się z
Modele audio DOC w CometAPI.
Przykład A — szybki curl (wiersz poleceń)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
Jeśli wolisz WAV:
- Zmień nazwę pliku wyjściowego na
narration.wavi (jeśli jest dostępny) określ parametr formatu audio w treści (niektóre zestawy SDK pozwalająformat: "wav").
Dlaczego to działa: Punkt końcowy TTS akceptuje tekst i zwraca binarny plik audio, który można zapisać i połączyć z wideo później. Użyj voice oraz instructions (jeśli dostępne) w celu sterowania prozodią i stylem.
Przykład B: Python używający żądań
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
Jak połączyć dźwięk TTS z plikiem wideo MidJourney?
Eksportuj wideo z MidJourney
Funkcje wideo/animacji aplikacji MidJourney umożliwiają tworzenie plików MP4/GIF lub eksportowanie wideo z galerii — aby uzyskać plik lokalny, użyj funkcji „Animacja” lub opcji eksportu galerii.
Proste scalanie z ffmpeg
Jeśli już masz video.mp4 (brak dźwięku lub dźwięk zastępczy) i voiceover.wav (lub mp3), użyj ffmpeg do scalenia:
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
Uwagi:
-shortestzatrzymuje się na krótszym strumieniu; pomiń, jeśli chcesz, aby wideo było odtwarzane dłużej niż dźwięk (lub odwrotnie).-c:v copyzachowuje niezmieniony strumień wideo.-c:a aackoduje dźwięk do formatu AAC (kompatybilny z MP4).- Zastosowanie
-af "volume=...filtry do dopasowywania głośności. - Aby uzyskać profesjonalną finalizację, otwórz ścieżki audio w programie DAW, aby dostosować synchronizację, korekcję i kompresję.
Przytnij lub zmniejsz dźwięk do dokładnej długości filmu
Jeśli dźwięk jest dłuższy niż obraz i chcesz go precyzyjnie przyciąć:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
Jeśli ścieżka dźwiękowa jest krótsza i chcesz, aby muzyka w tle wypełniła resztę lub zapętliła głos, użyj adelay, apadlub miksuj z podkładem muzycznym. Przykład: zapętl narrację, aby dopasować ją do klipu 20-sekundowego (zwykle niezalecane w przypadku głosu):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
Jak przesunąć dźwięk (jeśli narracja ma rozpocząć się później)
Jeśli Twoja narracja ma rozpocząć się po krótkiej ciszy lub masz wiele segmentów do umieszczenia w przesunięciach, użyj -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 opóźnia drugie wejście o 0.5 sekundy.
Do wielu ścieżek audio lub do bardzo precyzyjnego rozmieszczenia użyj -filter_complex w adelay po wygenerowaniu TTS w małych segmentach (jedno zdanie na plik).:
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
Tutaj adelay zajmuje milisekundy (2500 ms = 2.5 s), dzięki czemu można precyzyjnie dopasować tekst do wskazówek wizualnych.
Zadbaj o krótką narrację i uwzględnij poszczególne sceny: Ponieważ klipy w Midjourney są krótkie i często stylizowane, postaraj się o zwięzły haczyk (ok. 5–15 sekund), który będzie pasował do tempa filmu. Podziel tekst na krótkie zdania, które będą emanować energią z cięć wizualnych lub wskazówek ruchowych.
Jak miksować muzykę w tle + narrację + efekty specjalne
Zastosowanie filter_complex miksowanie wielu sygnałów audio i sterowanie głośnością. Przykład:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
To jest narracja mieszana (narration.mp3) i muzyka (music.mp3) ustawiając jednocześnie niski poziom muzyki, aby wyciszała się pod głosem. Możesz również uruchomić dynamiczne wyciszanie (wyciszanie muzyki podczas odtwarzania narracji) za pomocą filtrów sidechain lub edytować w programie DAW, aby uzyskać precyzyjne wyciszenia.
Zaawansowana edycja
Scenariusz i tempo
- Napisz zwięzły scenariusz i zaznacz wskazówki wizualne (kod czasowy lub numery klatek), aby wyjście TTS było zgodne ze zmianami scen.
- Używaj krótkich zdań, aby zachować naturalny rytm; jeśli potrzebujesz dłuższych zdań, wstawiaj celowe pauzy lub dziel je na kilka wypowiedzi TTS.
Dopasuj ruch, intensywność i fakturę
- Użyj przejściowych efektów specjalnych, aby podkreślić cięcia wizualne lub ruchy kamery.
- Dla powolnego, malarskiego ruchu Midjourney (
--motion low), preferują subtelną atmosferę i długie ogony pogłosu. - Do wysokiej akcji (
--motion high), wykorzystaj efektowne efekty specjalne, dopasowane do tempa muzyczne hity i krótki pogłos.
Styl głosu sterującego
Używaj wskazówek instruktażowych, aby kierować gpt-4o-mini-tts - np, "instructions": "Calm, conversational, slight warmth, medium speed" lub dołącz tę instrukcję jako część tekstu. Na przykład:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
Uwaga: dokładne nazwy parametrów różnią się w zależności od wersji zestawu SDK — przetestuj pola obsługiwane przez zestaw SDK.
Wskazówki dotyczące projektowania dźwięku
- Dodaj ścieżkę dźwiękową (muzykę) o niskiej głośności i użyj sidechainu lub wycisz ją podczas mówienia.
- Używaj krótkich, szurających dźwięków, wznoszących się dźwięków lub efektów uderzeniowych dopasowanych do przejść wizualnych. Zadbaj o to, by efekty były krótkie i wyraźne.
- Normalizuj głos (-1 dBFS) i lekko kompresuj (stosunek 2:1), aby uzyskać jednakową głośność na wszystkich platformach.
- W przypadku platform społecznościowych w celu zapewnienia zgodności zakoduj ostateczny film z dźwiękiem AAC-LC i obrazem H.264.
Czy mogę sprawić, by postacie w filmie MidJourney „mówiły” (synchronizowały ruchy warg) z wygenerowanym głosem?
Tak — użyj modelu synchronizacji ust, aby odwzorować fonemy z dźwięku TTS na klatki ruchu ust. Dwa popularne podejścia to:
Użyj otwartych narzędzi, takich jak Wav2Lip (lokalnych lub hostowanych)
Wav2Lip dostosowuje dźwięk mówiony do ruchu ust i może być uruchamiany lokalnie lub za pośrednictwem hostowanych interfejsów graficznych. Typowy przepływ pracy:
- Eksportuj wideo lub serię klatek (sekwencję obrazów) z MidJourney.
- Wygeneruj plik głosowy (OpenAI TTS).
- Uruchom Wav2Lip, aby wygenerować nowy film, w którym kształt ust będzie odpowiadał dźwiękowi.
Wav2Lip doskonale nadaje się do wyrównywania zębów 1:1 i jest dostępny jako oprogramowanie typu open source; może być konieczne wykonanie dodatkowej obróbki w celu dopracowania wyglądu.
Użyj komercyjnych interfejsów API do synchronizacji ruchu ust w jednym kroku
Usługi takie jak Sync.so, Synthesia i inne oferują interfejsy API/GUI, które obsługują zarówno mowę, jak i synchronizację ust/dubbing, a czasem także dubbing wielojęzyczny. Mogą być szybsze i mniej techniczne, ale są to usługi płatne i mogą ograniczać precyzyjną kontrolę.
Praktyczne uwagi na temat realizmu
- Aby uzyskać idealny realizm, często potrzebne są mikroekspresje, mruganie oczami i ruchy głowy — niektóre usługi synchronizacji ruchu ust dodają je automatycznie, inne zaś wymagają ręcznych poprawek.
- Jeśli postacie są stylizowane (niefotorealistyczne), drobne błędy w synchronizacji ruchu warg są mniej zauważalne; w przypadku zbliżeń zainwestuj czas w program DAW + narzędzie do retuszu twarzy.
Jak zacząć
CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.
Użyj wideo MidJourney w CometAPI
Interfejs API Comet zaoferuj cenę znacznie niższą od oficjalnej, aby ułatwić Ci integrację API w trakcie podróży oraz Interfejs API wideo MidjourneyZapraszamy do rejestracji i zapoznania się z CometAPI. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API Aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. CometAPI obsługuje rozdzielczość SD 480P i HD 720P.
Metoda wywołania: Użyj parametru videoType=vid_1.1_i2v_720.
Wideo Midjourney V1generacja: Programiści mogą integrować generowanie wideo za pośrednictwem interfejsu API RESTful. Typowa struktura żądania (ilustracyjna)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
Modele audio
Programiści mogą uzyskać dostęp do dźwięku GPT 4o i TTS-1 za pomocą CometAPI, najnowszej wersji modelu (punkt końcowy:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) jest zawsze aktualizowany na oficjalnej stronie internetowej. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z przewodnik po interfejsie API audio aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.
Podsumowanie
Dodawanie głosu i dźwięku do filmu Midjourney jest proste: wygeneruj krótki klip Midjourney, zsyntetyzuj krótką narrację za pomocą sterowalnego TTS OpenAI, a następnie połącz i dopracuj za pomocą ffmpeg. Nowy gpt-4o-mini-tts model zapewnia silną kontrolę stylistyczną, podczas gdy Midjourney --video workflow tworzy przejrzyste, krótkie animacje — idealne do prac społecznościowych, prototypów i koncepcji.


