Cara Menambahkan Suara dan Suara ke Video Midjourney

CometAPI
AnnaDec 2, 2025
Cara Menambahkan Suara dan Suara ke Video Midjourney

Lompatan Midjourney ke dunia video memang menarik: ia mengubah gambar diam menjadi klip animasi pendek yang dapat diputar berulang-ulang, membuka pintu bagi penceritaan dan konten berbasis gerakan. Namun, hingga Midjourney merilis trek audio bawaan yang sempurna (jika memang akan dirilis), kreator harus menggabungkan audio ke dalam keluaran video senyap menggunakan kombinasi perangkat audio AI dan editor klasik. Artikel ini menjelaskan lanskap terkini (perangkat, alur kerja, kiat, dan batasan hukum), dan memberikan Anda alur kerja langkah demi langkah yang siap produksi untuk menambahkan suara dan bunyi ke klip video Midjourney.

Apa sebenarnya “video Midjourney” dan mengapa memerlukan audio eksternal?

Apa yang saat ini dihasilkan oleh fitur video Midjourney

Kemampuan video Midjourney mengonversi gambar yang dihasilkan atau diunggah menjadi klip animasi pendek (awalnya 5 detik, dapat diperpanjang secara bertahap) yang menekankan gerakan dan pergerakan kamera/subjek, alih-alih audio yang tersinkronisasi atau dialog yang disinkronkan dengan bibir. Alat ini dirancang untuk menghasilkan loop pendek yang kaya visual, bukan narasi audiovisual yang sudah jadi. Ini berarti setiap video Midjourney yang Anda ekspor akan senyap dan harus dipadukan dengan audio dalam tahap pascaproduksi agar menjadi lebih dari sekadar gambar bergerak.

Apa saja aturan dasar dan batasan video Midjourney?

Fitur video Midjourney mengonversi gambar awal menjadi klip animasi pendek (default 5 detik), dengan opsi untuk memperpanjang durasi hingga total 21 detik, memilih gerakan "Rendah" atau "Tinggi", mengulang, dan mengubah ukuran batch. Video dapat diunduh sebagai .mp4 dan Midjourney mengungkap --video parameter (dan --motion low|high, --loop, --end, --bs #, --raw --end, dan --bs parameter— ada di Dokumen resmi Midjourney) untuk perintah Discord atau API. Resolusinya SD (480p), dengan HD (720p); ukuran batch dan pengaturan gerakan memengaruhi waktu dan biaya GPU.

Hal praktis yang bisa diambil: Klip Midjourney pendek (5–21 detik), jadi rencanakan narasi dan audio agar sesuai dengan durasinya — atau bersiaplah untuk menggabungkan beberapa klip. Unduh Video Mentah (.mp4) dari halaman Buat Midjourney untuk kualitas terbaik untuk digunakan dalam pascaproduksi.

Mengapa Anda harus menambahkan suara, musik, dan SFX

Menambahkan audio:

  • Memberikan konteks dan narasi (suara latar), membuat visual abstrak menjadi komunikatif.
  • Mengatur nada emosional (pilihan musik) dan meningkatkan retensi pemirsa.
  • Membumikan visual AI dalam realisme (desain suara, Foley, tempat tidur ambien).
  • Menjadikan konten siap untuk platform TikTok, YouTube, atau Reels yang audionya sangat penting.

Apa alur kerja paling sederhana untuk menambahkan suara dan bunyi ke video MidJourney?

Resep cepat satu paragraf

  1. Hasilkan video visual atau bingkai animasi di MidJourney (Galeri → Fitur Animasi / Video).
  2. Ekspor/unduh video yang diproduksi (MP4/GIF).
  3. Hasilkan sulih suara dengan TTS OpenAI (misalnya, gpt-4o-mini-tts atau model TTS lainnya) dan mengekspor sebagai WAV/MP3.
  4. Buat musik latar dan SFX menggunakan alat audio AI (alat seperti MM Audio, Udio, atau Runway dapat membantu).
  5. Sejajarkan dan campur dalam DAW (Reaper, Audacity, Logic, atau cukup gunakan ffmpeg untuk penggabungan langsung).
  6. Secara opsional, jalankan sinkronisasi bibir AI jika video berisi wajah dan Anda ingin mulut sesuai dengan ucapan (Wav2Lip, Sync.so, dan layanan komersial).

Mengapa pemisahan ini (visual vs audio) penting

MidJourney berfokus pada kreativitas visual dan desain gerak; desain audio adalah tumpukan teknis yang berbeda (pembuatan ucapan, desain audio, sinkronisasi). Memisahkan tanggung jawab memberi Anda lebih banyak kendali—karakter suara, tempo, desain suara, dan penguasaan—tanpa harus berkutat dengan generator visual.

Bagaimana cara menyusun perintah Midjourney untuk video?

Anda dapat membuat video dari gambar apa pun di galeri Anda atau dengan menempelkan URL gambar yang dihosting publik ke bilah Bayangkan dan menambahkan --video parameter (di Discord atau API). Setelah dibuat, Anda dapat mengunduh MP4 (versi Raw atau Sosial) langsung dari halaman Buat Midjourney atau dari Discord.

Contoh sederhana bergaya Discord yang menggunakan gambar yang diunggah sebagai bingkai awal:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Catatan:

  • Letakkan URL gambar di awal untuk menggunakannya sebagai bingkai awal.
  • Add --video dan bendera gerakan (--motion low or --motion high).
  • penggunaan --bs 1 jika Anda hanya memerlukan satu keluaran (menghemat waktu GPU).
  • penggunaan --raw jika Anda menginginkan lebih sedikit gaya dan gerakan yang lebih deterministik.

Jika video lebih pendek dari narasi yang diinginkan, Anda dapat memperpanjang video di Midjourney (Anda dapat memperpanjang hingga +4 detik per ekstensi, total hingga 21 detik) atau memotong/memutar audio agar sesuai. Catat durasi pastinya (detik + milidetik) agar Anda dapat menyelaraskan narasi dan efek suara. Midjourney menyediakan opsi "Unduh Video Mentah" di halaman Buat dan di Discord; gunakan opsi tersebut sebagai berkas awal Anda.

Model OpenAI TTS mana yang harus saya pertimbangkan dan mengapa?

Apa saja pilihan TTS yang tersedia saat ini?

OpenAI menawarkan beberapa opsi TTS: secara historis tts-1 / tts-1-hd dan yang lebih baru yang dapat dikendalikan gpt-4o-mini-tts. itu gpt-4o-mini-tts model menekankan kemampuan mengarahkan (Anda dapat mengatur nada, kecepatan, emosi) dan dirancang untuk menghasilkan suara yang fleksibel dan ekspresif; tts-1 dan tts-1-hd tetap menjadi pilihan yang kuat untuk TTS berkualitas tinggi yang lebih tradisional. Gunakan gpt-4o-mini-tts ketika Anda ingin mengontrol bagaimana teksnya diucapkan (gaya, suasana hati), dan tts-1-hd untuk kesetiaan maksimum ketika kontrol gaya kurang penting. penAI terus mengulangi model audio (pengumuman pada tahun 2025 memperluas kemampuan ucapan dan transkripsi), jadi pilih model yang menyeimbangkan biaya, kualitas, dan kontrol untuk proyek Anda. API model tts juga terintegrasi ke dalam API Komet.

Adakah peringatan produksi atau batasan saat ini?

gpt-4o-mini-tts Terkadang dapat menunjukkan ketidakstabilan pada file audio yang lebih panjang (jeda, fluktuasi volume), terutama di atas ~1.5–2 menit. Untuk klip Midjourney yang pendek (di bawah ~20–30 detik), hal ini jarang menjadi masalah, tetapi untuk narasi yang lebih panjang atau sulih suara yang panjang, uji dan validasi. Jika Anda mengharapkan narasi yang lebih panjang, pilihlah tts-1-hd atau membagi teks menjadi potongan-potongan yang lebih pendek dan menjahitnya dengan hati-hati.

Alat pilihan lainnya

Musik latar & SFX: Alat seperti MM Audio (alat komunitas), Udio, MagicShot, atau Runway dapat dengan cepat menciptakan musik latar dan efek suara (SFX) yang sesuai dengan konteks; utas dan tutorial komunitas menunjukkan para kreator memadukannya ke dalam video MidJourney. Untuk kontrol tingkat produksi, buat stem (musik + ambient) dan ekspor untuk mixing.

Sinkronisasi bibir dan animasi wajah: Jika video tersebut menampilkan karakter atau close-up wajah dan Anda menginginkan gerakan mulut yang realistis, pertimbangkan Wav2Lip (sumber terbuka) atau API komersial seperti Sync.so, Synthesia, atau layanan sinkronisasi bibir lainnya. Alat-alat ini menganalisis audio untuk menghasilkan bentuk mulut yang selaras dengan fonem dan menerapkannya pada wajah target atau urutan frame.

Bagaimana cara membuat berkas suara dengan TTS OpenAI (kode praktis)?

Berikut adalah dua contoh praktis format panggilan CometAPI yang menghasilkan MP3 (atau WAV) menggunakan titik akhir TTS OpenAI. Anda dapat menyesuaikan nama suara dan bendera streaming sesuai akun CometAPI dan pembaruan SDK Anda.

⚠️ Ganti YOUR_CometAPI_API_KEY dengan kunci API Anda. Uji pada frasa pendek terlebih dahulu. Lihat
Model Audio DOC di CometAPI.

Contoh A — cepat curl (baris perintah)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Jika Anda lebih suka WAV:

  • Ubah nama file keluaran menjadi narration.wav, dan (jika tersedia) tentukan parameter format audio di badan (beberapa SDK mengizinkan format: "wav").

Mengapa ini berhasil: Titik akhir TTS menerima teks dan mengembalikan berkas audio biner yang dapat Anda simpan dan gabungkan dengan video Anda nanti. Gunakan voice dan instructions (jika tersedia) untuk mengarahkan prosodi dan gaya.

Contoh B: Python menggunakan permintaan

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Bagaimana cara menggabungkan audio TTS dengan berkas video MidJourney?

Ekspor video dari MidJourney

Fitur Video/Animate MidJourney memungkinkan Anda membuat MP4/GIF atau mengekspor video dari Galeri Anda—gunakan fungsi “Animate” atau opsi ekspor galeri untuk mendapatkan file lokal.

Penggabungan sederhana dengan ffmpeg

Jika sudah ada video.mp4 (tidak ada atau audio pengganti) dan voiceover.wav (atau mp3), gunakan ffmpeg untuk menggabungkan:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Catatan:

  • -shortest berhenti pada aliran yang lebih pendek; abaikan jika Anda ingin video terus diputar lebih lama daripada audio (atau sebaliknya).
  • -c:v copy menjaga aliran video tidak berubah.
  • -c:a aac mengkodekan audio ke AAC (kompatibel dengan MP4).
  • penggunaan -af "volume=... filter untuk pencocokan kenyaringan.
  • Untuk finalisasi profesional, buka stem audio di DAW untuk menyesuaikan waktu, EQ, dan kompresi.

Pangkas atau padukan audio ke durasi video yang tepat

Jika audio lebih panjang daripada video dan Anda menginginkan potongan yang tepat:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Jika audionya lebih pendek dan Anda ingin musik latar mengisi sisa atau mengulang suara, gunakan adelay, apad, atau padukan dengan trek latar belakang. Contoh: narasi berulang agar sesuai dengan klip tahun 20-an (biasanya tidak disarankan untuk suara):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Cara mengimbangi audio (jika narasi perlu dimulai nanti)

Jika narasi Anda harus dimulai setelah keheningan singkat atau Anda memiliki beberapa segmen untuk ditempatkan di offset, gunakan -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 menunda input kedua selama 0.5 detik.

Untuk beberapa trek audio atau penempatan yang sangat tepat gunakan -filter_complex dengan adelay setelah Hasilkan TTS dalam segmen-segmen kecil (satu kalimat per file).:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Sini adelay membutuhkan waktu milidetik (2500 ms = 2.5 detik), sehingga Anda dapat menyelaraskan teks dengan isyarat visual secara tepat.

Pastikan narasi tetap singkat dan sesuai dengan adegan: Karena klip Midjourney pendek dan seringkali bergaya, usahakan untuk membuat hook yang ringkas (sekitar 5–15 detik) yang sesuai dengan tempo video. Bagi teks menjadi kalimat-kalimat pendek yang selaras dengan potongan visual atau isyarat gerak.

Cara mencampur musik latar + narasi + SFX

penggunaan filter_complex untuk menggabungkan beberapa input audio dan mengontrol volume. Contoh:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Ini mencampur narasi (narration.mp3) dan musik (music.mp3) sambil mengatur level musik rendah agar berada di bawah vokal. Anda juga dapat menjalankan dynamic ducking (membuat musik memudar saat narasi diputar) melalui filter sidechain atau mengedit di DAW untuk fade yang presisi.

Pengeditan Lanjutan

Naskah dan kecepatan

  • Tulis naskah yang padat dan tandai isyarat visual (kode waktu atau nomor bingkai) sehingga keluaran TTS selaras dengan perubahan adegan.
  • Gunakan kalimat pendek untuk irama alami yang lebih baik; jika Anda membutuhkan bacaan yang panjang, masukkan jeda yang disengaja atau bagi menjadi beberapa panggilan TTS.

Mencocokkan gerakan, intensitas, dan tekstur

  • Gunakan SFX sementara untuk menonjolkan potongan visual atau pergerakan kamera.
  • Untuk gerakan Midjourney yang lambat dan seperti lukisan (--motion low), menyukai suasana halus dan ekor reverb yang panjang.
  • Untuk aksi tinggi (--motion high), gunakan SFX yang bertenaga, alunan musik yang sesuai dengan tempo, dan reverb yang pendek.

Gaya suara kemudi

Gunakan petunjuk instruktif untuk mengarahkan gpt-4o-mini-tts — misalnya, "instructions": "Calm, conversational, slight warmth, medium speed" atau sertakan instruksi tersebut sebagai bagian dari muatan teks. Misalnya:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Hati-hati: nama parameter yang tepat berbeda di setiap versi SDK — uji bidang yang didukung SDK Anda.

Tips desain suara

  • Tambahkan trek tempat tidur (musik) bervolume rendah dan sidechain atau redamkan selama suara.
  • Gunakan efek suara desisan, riser, atau impact yang pendek dan selaras dengan transisi visual. Pastikan efek suara tetap singkat dan tajam.
  • Normalisasikan suara (-1 dBFS) dan kompres ringan (rasio 2:1) untuk kenyaringan yang konsisten di seluruh platform.
  • Untuk platform sosial, enkode video akhir dengan audio AAC-LC dan video H.264 untuk kompatibilitas.

Bisakah saya membuat karakter dalam video MidJourney “berbicara” (sinkronisasi bibir) dengan suara yang dihasilkan?

Ya—gunakan model sinkronisasi bibir untuk memetakan fonem dari audio TTS ke frame gerakan mulut. Dua pendekatan umum yang digunakan adalah:

Gunakan alat terbuka seperti Wav2Lip (lokal atau dihosting)

Wav2Lip menyelaraskan audio lisan dengan gerakan mulut dan dapat dijalankan secara lokal atau melalui GUI yang dihosting. Alur kerja umum:

  1. Ekspor video atau serangkaian bingkai (urutan gambar) dari MidJourney.
  2. Menghasilkan berkas suara (OpenAI TTS).
  3. Jalankan Wav2Lip untuk menghasilkan video baru yang bentuk mulutnya sesuai dengan audionya.

Wav2Lip sangat bagus untuk penyelarasan mulut 1:1 dan bersifat sumber terbuka; Anda mungkin memerlukan beberapa pascaproses untuk pemolesan visual.

Gunakan API komersial untuk sinkronisasi bibir satu langkah

Layanan seperti Sync.so, Synthesia, dan lainnya menawarkan pipeline API/GUI yang menangani ucapan dan lipsync/dubbing, terkadang termasuk dubbing multibahasa. Layanan ini bisa lebih cepat dan kurang teknis, tetapi merupakan layanan berbayar dan mungkin membatasi kontrol yang lebih teliti.

Catatan praktis tentang realisme

  • Realisme yang sempurna sering kali memerlukan ekspresi mikro, kedipan mata, dan gerakan kepala—beberapa layanan sinkronisasi bibir menambahkannya secara otomatis; yang lainnya memerlukan penyesuaian manual.
  • Jika karakternya bergaya (non-fotorealistis), kesalahan sinkronisasi bibir kecil tidak akan terlalu kentara; untuk foto jarak dekat, luangkan waktu pada DAW + jalur retouching wajah.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Gunakan Video Pertengahan Perjalanan di CometAPI

API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda mengintegrasikan API Midjourney dan API Video MidjourneySelamat datang untuk mendaftar dan merasakan CometAPI. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API Untuk instruksi detail, silakan lihat. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan mendapatkan kunci API. CometAPI mendukung resolusi SD 480P dan HD 720P.

Metode Pemanggilan: Gunakan parameter videoType=vid_1.1_i2v_720.

Video Midjourney V1generasi: Pengembang dapat mengintegrasikan pembuatan video melalui RESTful API. Struktur permintaan yang umum (ilustrasi)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Model Audio

Pengembang dapat mengakses audio GPT 4o dan tts-1 melalui CometAPI, versi model terbaru (titik akhir:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan panduan API audio untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Kesimpulan

Menambahkan suara dan bunyi ke video Midjourney sangat mudah: buat klip Midjourney pendek, sintesiskan narasi pendek dengan TTS yang dapat diarahkan OpenAI, lalu gabungkan dan poles menggunakan ffmpeg. Baru gpt-4o-mini-tts model memberi Anda kontrol gaya yang kuat, sementara Midjourney --video alur kerja menghasilkan animasi pendek yang bersih — sempurna untuk pekerjaan sosial, prototipe, atau konsep.

SHARE THIS BLOG

500+ Model dalam Satu API

Diskon hingga 20%