Lompatan Midjourney ke dalam penjanaan video adalah menarik: ia menukar imej pegun menjadi klip animasi pendek yang boleh digelung yang membuka pintu kepada kandungan bercerita dan didorong oleh gerakan. Tetapi sehingga Midjourney menghantar trek audio terbina dalam yang digilap (jika ada), pencipta mesti mencantumkan audio pada output video senyap menggunakan gabungan alat audio AI dan editor klasik. Artikel ini menerangkan landskap semasa (alatan, aliran kerja, petua dan pagar pengadang undang-undang) dan memberi anda aliran kerja siap pengeluaran langkah demi langkah untuk menambahkan suara dan bunyi pada klip video Midjourney.
Apakah sebenarnya "video Midjourney" dan mengapa ia memerlukan audio luaran?
Apa yang dihasilkan oleh ciri video Midjourney pada masa ini
Keupayaan video Midjourney menukar imej yang dijana atau dimuat naik ke dalam klip animasi pendek (pada mulanya 5 saat, boleh dilanjutkan secara bertahap) yang menekankan gerakan dan pergerakan kamera/subjek daripada audio yang disegerakkan atau dialog yang disegerakkan bibir. Alat ini bertujuan untuk menghasilkan gelung pendek yang kaya secara visual, bukan naratif audiovisual yang telah selesai. Ini bermakna setiap video Midjourney yang anda eksport akan senyap dan mesti dipasangkan dengan audio dalam pasca pengeluaran untuk menjadi sesuatu yang lebih daripada imej bergerak.
Apakah peraturan dan had video Midjourney asas?
Ciri video Midjourney menukar imej permulaan kepada klip animasi pendek (5s lalai), dengan pilihan untuk memanjangkan panjang sehingga 21 saat, pilih gerakan, gelung dan tukar saiz kelompok "Rendah" atau "Tinggi". Video boleh dimuat turun sebagai .mp4 dan Midjourney mendedahkan a --video parameter (dan --motion low|high, --loop, --end, --bs #, --raw --end, dan --bs parameter— berada dalam Dokumen rasmi Midjourney) untuk Discord atau gesaan API. Resolusi ialah SD(480p), dengan HD (720p); saiz kelompok dan tetapan gerakan mempengaruhi masa dan kos GPU.
Amalan bawa pulang: Klip tengah perjalanan adalah pendek (5–21s), jadi rancang penceritaan dan audio agar sesuai dengan sampul surat itu — atau sediakan untuk mencantum berbilang klip. Muat turun Video Mentah (.mp4) dari halaman Buat Midjourney untuk kualiti terbaik untuk digunakan dalam pasca pengeluaran.
Mengapa anda perlu menambah suara, muzik dan SFX
Menambah audio:
- Menyediakan konteks dan naratif (suara), menjadikan visual abstrak komunikatif.
- Menetapkan nada emosi (pilihan muzik) dan meningkatkan pengekalan penonton.
- Membumikan visual AI dalam realisme (reka bentuk bunyi, Foley, katil ambien).
- Menyediakan platform kandungan untuk TikTok, YouTube atau gulungan yang memerlukan audio.
Apakah aliran kerja paling mudah untuk menambah suara dan bunyi pada video MidJourney?
Resipi satu perenggan cepat
- Hasilkan video visual atau bingkai animasi anda dalam MidJourney (Galeri → Ciri Animasi / Video).
- Eksport/muat turun video yang dihasilkan (MP4/GIF).
- Menghasilkan alih suara dengan TTS OpenAI (cth,
gpt-4o-mini-ttsatau model TTS lain) dan eksport sebagai WAV/MP3. - Cipta muzik latar belakang dan SFX menggunakan alat audio AI (alat seperti MM Audio, Udio atau Runway boleh membantu).
- Jajar dan campurkan dalam DAW (Reaper, Audacity, Logic, atau hanya gunakan ffmpeg untuk cantuman lurus).
- Jalankan penyegerakan bibir AI secara pilihan jika video mengandungi wajah dan anda mahu mulut sepadan dengan pertuturan (Wav2Lip, Sync.so dan perkhidmatan komersial).
Mengapa pemisahan ini (visual vs audio) penting
MidJourney memfokuskan pada kreativiti visual dan reka bentuk gerakan; reka bentuk audio ialah susunan teknikal yang berbeza (penjanaan pertuturan, reka bentuk audio, penyegerakan). Mengasingkan tanggungjawab memberi anda lebih banyak kawalan—watak suara, pacing, reka bentuk bunyi dan penguasaan—tanpa bertempur dengan penjana visual.
Bagaimanakah saya harus membuat gesaan Midjourney untuk video?
Anda boleh membuat video daripada mana-mana imej dalam galeri anda atau dengan menampal URL imej yang dihoskan secara umum ke dalam bar Bayangkan dan menambah --video parameter (pada Discord atau API). Selepas penjanaan anda boleh memuat turun MP4 (versi Mentah atau Sosial) terus dari halaman Midjourney Create atau dari Discord.
Contoh gaya Discord ringkas yang menggunakan imej yang dimuat naik sebagai bingkai permulaan:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
Nota:
- Letakkan URL imej pada permulaan untuk menggunakannya sebagai bingkai permulaan.
- Tambah
--videodan bendera gerakan (--motion lowor--motion high). - Penggunaan
--bs 1jika anda hanya memerlukan satu output (menjimatkan masa GPU). - Penggunaan
--rawjika anda mahu kurang gaya dan gerakan yang lebih deterministik.
Jika video lebih pendek daripada narasi yang anda inginkan, anda sama ada memanjangkan video dalam Midjourney (anda boleh melanjutkan sehingga +4s setiap sambungan, sehingga 21s jumlah) atau potong/gelung audio agar muat. Perhatikan tempoh yang tepat (saat + milisaat) supaya anda boleh menjajarkan narasi dan SFX. Midjourney menyediakan pilihan "Muat Turun Video Mentah" pada halaman Cipta dan dalam Discord; gunakan itu sebagai fail permulaan anda.
Model OpenAI TTS yang manakah harus saya pertimbangkan dan mengapa?
Apakah pilihan TTS yang tersedia sekarang?
OpenAI menawarkan pelbagai pilihan TTS: mengikut sejarah tts-1 / tts-1-hd dan yang lebih baru boleh dikendalikan gpt-4o-mini-tts. Yang gpt-4o-mini-tts model menekankan kebolehkendalian (anda boleh mengarahkan nada, pacing, emosi) dan direka untuk penjanaan suara yang fleksibel dan ekspresif; tts-1 and tts-1-hd kekal sebagai pilihan yang kukuh untuk TTS yang berkualiti tinggi dan lebih tradisional. guna gpt-4o-mini-tts bila nak kawal bagaimana teks dituturkan (gaya, getaran), dan tts-1-hd untuk kesetiaan maksimum apabila kawalan gaya kurang kritikal. penAI telah terus mengulangi model audio (pengumuman pada tahun 2025 memperluaskan keupayaan pertuturan dan transkripsi), jadi pilih model yang mengimbangi kos, kualiti dan kawalan untuk projek anda. API model tts juga disepadukan ke dalam CometAPI.
Sebarang kaveat pengeluaran atau had semasa?
gpt-4o-mini-tts kadangkala boleh mempamerkan ketidakstabilan pada fail audio yang lebih panjang (jeda, turun naik volum) terutamanya melebihi ~1.5–2 minit. Untuk klip Midjourney pendek (di bawah ~20-30s) ini jarang menjadi masalah, tetapi untuk penceritaan yang lebih panjang atau suara-over dalam bentuk panjang, uji dan sahkan. Jika anda mengharapkan penceritaan yang lebih panjang, lebih suka tts-1-hd atau bahagikan teks kepada ketulan yang lebih pendek dan jahit dengan teliti.
Alat pilihan lain
Muzik latar belakang & SFX: Alat seperti MM Audio (alat komuniti), Udio, MagicShot atau Runway boleh mencipta muzik latar belakang yang sepadan dan SFX sensitif konteks dengan cepat; urutan komuniti dan tutorial menunjukkan pencipta menggabungkannya ke dalam video MidJourney. Untuk kawalan gred pengeluaran, hasilkan batang (muzik + ambien) dan eksportnya untuk pengadunan.
Penyegerakan bibir dan animasi muka: Jika video termasuk watak atau gambar dekat muka dan anda mahukan pergerakan mulut yang realistik, pertimbangkan Wav2Lip (sumber terbuka) atau API komersial seperti Sync.so, Synthesia atau perkhidmatan penyegerakan bibir yang lain. Alat ini menganalisis audio untuk menghasilkan bentuk mulut sejajar fonem dan menerapkannya pada wajah sasaran atau urutan bingkai.
Bagaimanakah cara saya menjana fail suara dengan TTS (kod praktikal) OpenAI?
Di bawah ialah dua contoh praktikal daripada format panggilan CometAPI yang menjana MP3 (atau WAV) menggunakan titik akhir TTS OpenAI. Anda boleh menyesuaikan nama suara dan bendera penstriman mengikut akaun CometAPI dan kemas kini SDK anda.
⚠️ Gantikan
YOUR_CometAPI_API_KEYdengan kunci API anda. Uji pada frasa pendek dahulu. Rujuk kepada
Model Audio DOC dalam CometAPI.
Contoh A — cepat curl (baris arahan)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
Jika anda lebih suka WAV:
- Tukar nama fail output kepada
narration.wav, dan (jika ada) tentukan parameter format audio dalam badan (sesetengah SDK membenarkanformat: "wav").
Mengapa ini berfungsi: Titik akhir TTS menerima teks dan mengembalikan fail audio binari yang boleh anda simpan dan cantumkan dengan video anda kemudian. guna voice and instructions (jika ada) untuk mengemudi prosodi dan gaya.
Contoh B: Python menggunakan permintaan
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
Bagaimanakah cara saya menggabungkan audio TTS dengan fail video MidJourney?
Eksport video daripada MidJourney
Ciri Video/Animate MidJourney membolehkan anda mencipta MP4/GIF atau mengeksport video daripada Galeri anda—gunakan fungsi "Animate" atau pilihan eksport galeri untuk mendapatkan fail setempat.
Gabungan mudah dengan ffmpeg
Sekiranya anda sudah mempunyai video.mp4 (tiada atau audio pemegang tempat) dan voiceover.wav (atau mp3), gunakan ffmpeg untuk menggabungkan:
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
Nota:
-shortestberhenti di aliran yang lebih pendek; tinggalkan jika anda mahu video terus dimainkan lebih lama daripada audio (atau sebaliknya).-c:v copymemastikan strim video tidak berubah.-c:a aacmengekod audio kepada AAC (serasi dengan MP4).- Penggunaan
-af "volume=...penapis untuk padanan kelantangan. - Untuk penyempurnaan profesional, buka batang audio dalam DAW untuk melaraskan pemasaan, EQ dan mampatan.
Potong atau pad audio kepada panjang video yang tepat
Jika audio lebih panjang daripada video dan anda mahukan potongan yang tepat:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
Jika audio lebih pendek dan anda mahu muzik latar mengisi baki atau gelung suara, gunakan adelay, apad, atau campurkan dengan trek latar belakang. Contoh: narasi gelung untuk dipadankan dengan klip 20-an (biasanya tidak disyorkan untuk suara):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
Cara mengimbangi audio (jika penceritaan perlu dimulakan kemudian)
Jika penceritaan anda harus bermula selepas senyap singkat atau anda mempunyai berbilang segmen untuk diletakkan pada offset, gunakan -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 menangguhkan input kedua sebanyak 0.5 saat.
Untuk berbilang trek audio atau penggunaan peletakan yang sangat tepat -filter_complex bersama adelay selepas Hasilkan TTS dalam segmen kecil (satu ayat setiap fail).:
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
Di sini adelay mengambil milisaat (2500 ms = 2.5s), jadi anda boleh menjajarkan teks kepada isyarat visual dengan tepat.
Pastikan narasi pendek dan peka dengan pemandangan: Oleh kerana klip Midjourney adalah pendek dan sering digayakan, halakan cangkuk ringkas (~5–15 saat) yang sepadan dengan tempo video. Pecahkan teks kepada ayat-ayat pendek yang bernafas dengan potongan visual atau isyarat gerakan.
Cara mencampurkan muzik latar + narasi + SFX
Penggunaan filter_complex untuk mencampurkan berbilang input audio dan mengawal volum. Contoh:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
Ini mencampuradukkan riwayat (narration.mp3) dan muzik (music.mp3) sambil menetapkan tahap muzik rendah supaya ia berada di bawah suara. Anda juga boleh menjalankan ducking dinamik (membuat muzik pudar apabila penceritaan dimainkan) melalui penapis rantai sisi atau mengedit dalam DAW untuk pudar yang tepat.
Penyuntingan Lanjutan
Skrip dan pacing
- Tulis skrip yang ketat dan tandai isyarat visual (kod masa atau nombor bingkai) supaya output TTS sejajar dengan perubahan pemandangan.
- Gunakan ayat pendek untuk irama semula jadi yang lebih baik; jika anda memerlukan bacaan yang panjang, masukkan jeda yang disengajakan atau pisahkan kepada berbilang panggilan TTS.
Padankan gerakan, keamatan dan tekstur
- Gunakan SFX sementara untuk menyerlahkan potongan visual atau gerakan kamera.
- Untuk gerakan Midjourney yang perlahan dan penuh lukisan (
--motion low), mengutamakan suasana halus dan ekor reverb yang panjang. - Untuk tindakan tinggi (
--motion high), gunakan SFX punchy, hits muzik padanan tempo dan reverb pendek.
Gaya suara pemanduan
Gunakan gesaan instruktif untuk mengemudi gpt-4o-mini-tts - cth, "instructions": "Calm, conversational, slight warmth, medium speed" atau masukkan arahan itu sebagai sebahagian daripada muatan teks. Contohnya:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
Berhati-hati: nama parameter tepat berbeza merentas versi SDK — uji medan yang disokong oleh SDK anda.
Petua reka bentuk bunyi
- Tambahkan trek katil (muzik) volum rendah dan rantai sisi atau itikkannya semasa suara.
- Gunakan dengusan pendek, bangun atau impak SFX sejajar dengan peralihan visual. Pastikan SFX pendek dan segar.
- Normalkan suara (-1 dBFS) dan mampatkan sedikit (nisbah 2:1) untuk kenyaringan yang konsisten merentas platform.
- Untuk platform sosial, kodkan video akhir dengan audio AAC-LC dan video H.264 untuk keserasian.
Bolehkah saya membuat watak dalam video MidJourney "bercakap" (segerak bibir) kepada suara yang dijana?
Ya—gunakan model segerak bibir untuk memetakan fonem daripada audio TTS ke bingkai pergerakan mulut. Dua pendekatan biasa ialah:
Gunakan alatan terbuka seperti Wav2Lip (tempatan atau dihoskan)
Wav2Lip menjajarkan pergerakan audio yang dituturkan ke mulut dan boleh dijalankan secara setempat atau melalui GUI yang dihoskan. Aliran kerja biasa:
- Eksport video atau satu siri bingkai (jujukan imej) daripada MidJourney.
- Hasilkan fail suara (OpenAI TTS).
- Jalankan Wav2Lip untuk mengeluarkan video baharu yang mana bentuk mulut sepadan dengan audio.
Wav2Lip sangat baik untuk penjajaran mulut 1:1 dan merupakan sumber terbuka; anda mungkin memerlukan beberapa pasca pemprosesan untuk pengilat visual.
Gunakan API komersial untuk segerak bibir satu langkah
Perkhidmatan seperti Sync.so, Synthesia dan lain-lain menawarkan saluran paip API/GUI yang mengendalikan kedua-dua pertuturan dan lipsync/alih suara, kadangkala termasuk alih suara berbilang bahasa. Mereka boleh menjadi lebih pantas dan kurang teknikal tetapi merupakan perkhidmatan berbayar dan mungkin mengehadkan kawalan halus.
Nota praktikal tentang realisme
- Realisme sempurna selalunya memerlukan ekspresi mikro, kerdipan mata dan pergerakan kepala—sesetengah perkhidmatan penyegerakan bibir menambahkannya secara automatik; yang lain memerlukan tweak manual.
- Jika aksara digayakan (bukan fotoreal), ralat penyegerakan bibir kecil kurang ketara; untuk closeup, laburkan masa dalam saluran paip DAW + retouching muka.
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Gunakan Video MidJourney dalam CometAPI
CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan API Pertengahan Perjalanan and API Video Pertengahan Perjalanan, Selamat datang untuk mendaftar dan mengalami CometAPI. .Untuk bermula, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menyokong resolusi SD 480P dan HD 720P.
Kaedah Panggilan: Gunakan parameter videoType=vid_1.1_i2v_720.
Video Midjourney V1generasi: Pembangun boleh menyepadukan penjanaan video melalui API RESTful. Struktur permintaan biasa (ilustratif)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
Model Audio
Pembangun boleh mengakses audio GPT 4o dan tts-1 melalui CometAPI, versi model terkini (titik akhir:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) sentiasa dikemas kini dengan laman web rasmi. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan panduan API audio untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
Kesimpulan
Menambah suara dan bunyi pada video Midjourney adalah mudah: hasilkan klip Midjourney yang pendek, sintesiskan penceritaan pendek dengan TTS yang boleh dikendalikan OpenAI, kemudian gabungkan dan gilap menggunakan ffmpeg. Baru gpt-4o-mini-tts model memberi anda kawalan gaya yang kuat, manakala Midjourney's --video aliran kerja menghasilkan animasi pendek yang bersih — sesuai untuk kerja sosial, prototaip atau konsep.


