Midjourney Videosuna Ses ve Ses Nasıl Eklenir

CometAPI
AnnaDec 2, 2025
Midjourney Videosuna Ses ve Ses Nasıl Eklenir

Midjourney'nin video üretimine geçişi heyecan verici: Hareketsiz görüntüleri, hikaye anlatımına ve hareket odaklı içeriğe kapı açan kısa, döngüye alınabilir animasyonlu kliplere dönüştürüyor. Ancak Midjourney yerleşik, cilalı ses parçalarını piyasaya sunana kadar (eğer piyasaya sürerse), içerik oluşturucuların yapay zeka ses araçları ve klasik düzenleyicilerin bir karışımını kullanarak sesi sessiz video çıktısına eklemeleri gerekiyor. Bu makale, mevcut durumu (araçlar, iş akışları, ipuçları ve yasal sınırlar) açıklıyor ve Midjourney video kliplerine ses ve görüntü eklemek için adım adım, prodüksiyona hazır bir iş akışı sunuyor.

"Midjourney videosu" tam olarak nedir ve neden harici sese ihtiyaç duyar?

Midjourney'nin video özelliği şu anda ne üretiyor?

Midjourney'nin video özelliği, oluşturulan veya yüklenen bir görüntüyü, senkronize ses veya dudak senkronizasyonlu diyalog yerine hareketi ve kamera/konu hareketini vurgulayan kısa bir animasyonlu klibe (başlangıçta 5 saniye, kademeli olarak uzatılabilir) dönüştürür. Araç, tamamlanmış görsel-işitsel anlatılar değil, görsel olarak zengin kısa döngüler oluşturmak için tasarlanmıştır. Bu, dışa aktardığınız her Midjourney videosunun sessiz olacağı ve hareketli bir görüntüden daha fazlası olabilmesi için post prodüksiyonda sesle eşleştirilmesi gerektiği anlamına gelir.

Midjourney videosunun temel kuralları ve sınırlamaları nelerdir?

Midjourney'nin video özelliği, başlangıç ​​görüntüsünü kısa bir animasyonlu klibe (varsayılan olarak 5 saniye) dönüştürür ve uzunluğu toplamda 21 saniyeye kadar uzatma, "Düşük" veya "Yüksek" hareket seçme, döngü oluşturma ve toplu boyutu değiştirme seçenekleri sunar. Videolar şu şekilde indirilebilir: .mp4 ve Midjourney bir --video parametre (ve --motion low|high, --loop, --end, --bs #, --raw --end, ve --bs parametreler—içindedir Midjourney'nin resmi belgeleri) Discord veya API istemleri için. Çözünürlük SD(480p) ve HD(720p)'dir; toplu boyutlar ve hareket ayarları GPU süresini ve maliyetini etkiler.

Pratik çıkarım: Midjourney klipleri kısadır (5-21 saniye), bu nedenle anlatımı ve sesi bu zarfa uyacak şekilde planlayın veya birden fazla klibi birleştirmeye hazırlanın. Ham Video (.mp4) Post prodüksiyonda en iyi kaliteyle çalışmak için Midjourney'nin Oluşturma sayfasından yararlanın.

Neden ses, müzik ve ses efektleri eklemelisiniz?

Ses ekleme:

  • Bağlam ve anlatı (seslendirme) sağlayarak soyut görselleri iletişime açık hale getirir.
  • Duygusal tonu (müzik seçimi) belirler ve izleyicinin akılda kalmasını kolaylaştırır.
  • Yapay zeka görsellerini gerçekçiliğe (ses tasarımı, Foley, ortam efektleri) dayandırır.
  • TikTok, YouTube veya sesin önemli olduğu Reels platformları için içerikleri hazır hale getirir.

MidJourney videosuna ses ve görüntü eklemek için en basit iş akışı nedir?

Hızlı bir paragraflık tarif

  1. MidJourney'de görsel videonuzu veya animasyonlu karelerinizi oluşturun (Galeri → Animasyon / Video özellikleri).
  2. Üretilen videoyu (MP4/GIF) dışarı aktarın/indirin.
  3. OpenAI'nin TTS'si ile seslendirme üretin (örneğin, gpt-4o-mini-tts veya diğer TTS modelleri) ve WAV/MP3 olarak dışa aktarın.
  4. Yapay zeka ses araçlarını kullanarak arka plan müziği ve ses efektleri oluşturun (MM Audio, Udio veya Runway gibi araçlar yardımcı olabilir).
  5. Bir DAW'da hizalayın ve karıştırın (Reaper, Audacity, Logic veya doğrudan birleştirmeler için ffmpeg kullanın).
  6. Videoda yüzler varsa ve ağzın konuşmayla eşleşmesini istiyorsanız, isteğe bağlı olarak AI dudak senkronizasyonunu çalıştırın (Wav2Lip, Sync.so ve ticari hizmetler).

Bu ayrımın (görseller ve ses) önemi nedir?

MidJourney görsel yaratıcılığa ve hareket tasarımına odaklanır; ses tasarımı ise farklı bir teknik yığındır (konuşma üretimi, ses tasarımı, senkronizasyon). Sorumlulukları ayırmak, görsel oluşturucuyla uğraşmadan ses karakteri, tempo, ses tasarımı ve mastering konusunda çok daha fazla kontrol sağlar.

Video için Midjourney komutunu nasıl hazırlamalıyım?

Galerinizdeki herhangi bir görüntüden veya herkese açık olarak barındırılan bir görüntü URL'sini Imagine çubuğuna yapıştırıp ekleyerek videolar oluşturabilirsiniz. --video Parametre (Discord veya API üzerinden). Oluşturduktan sonra MP4'ü (Ham veya Sosyal versiyonları) doğrudan Midjourney Create sayfasından veya Discord'dan indirebilirsiniz.

Başlangıç ​​karesi olarak yüklenen bir görseli kullanan basit bir Discord tarzı örnek:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Notlar:

  • Başlangıç ​​karesi olarak kullanmak için resim URL'sini başa koyun.
  • Ekle --video ve bir hareket bayrağı (--motion low or --motion high).
  • Kullanım --bs 1 eğer sadece tek bir çıkışa ihtiyacınız varsa (GPU zamanından tasarruf sağlar).
  • Kullanım --raw daha az stilizasyon ve daha kesin hareket istiyorsanız.

Video, istediğiniz anlatımdan daha kısaysa, Midjourney'de videoyu uzatabilirsiniz (uzantı başına +4 saniyeye, toplamda 21 saniyeye kadar uzatabilirsiniz) veya sığması için sesi kesip tekrarlayabilirsiniz. Anlatım ve ses efektlerini uyumlu hale getirebilmek için tam süreyi (saniye + milisaniye) not edin. Midjourney, Oluşturma sayfasında ve Discord'da "Ham Videoyu İndir" seçeneği sunar; başlangıç ​​dosyanız olarak bunu kullanın.

Hangi OpenAI TTS modellerini göz önünde bulundurmalıyım ve neden?

Şu anda hangi TTS seçenekleri mevcut?

OpenAI, birden fazla TTS seçeneği sunar: tarihsel olarak tts-1 / tts-1-hd ve daha yeni yönlendirilebilir gpt-4o-mini-tts. gpt-4o-mini-tts model yönlendirilebilirliği vurgular (tonu, hızı, duyguyu yönlendirebilirsiniz) ve esnek, etkileyici ses üretimi için tasarlanmıştır; tts-1 ve tts-1-hd yüksek kaliteli, daha geleneksel TTS için güçlü seçenekler olmaya devam ediyor. gpt-4o-mini-tts kontrol etmek istediğinde Nasıl metin konuşulur (stil, atmosfer) ve tts-1-hd Stil kontrolünün daha az kritik olduğu durumlarda maksimum sadakat için. penAI, ses modelleri üzerinde yineleme yapmaya devam etti (2025'teki duyurular konuşma ve transkripsiyon yeteneklerini genişletti), bu nedenle projeniz için maliyet, kalite ve kontrolleri dengeleyen modeli seçin. tts model API'leri de entegre edilmiştir Kuyrukluyıldız API'si.

Üretimle ilgili herhangi bir uyarı veya mevcut sınırlama var mı?

gpt-4o-mini-tts Bazen uzun ses dosyalarında (duraklamalar, ses seviyesi dalgalanmaları) özellikle 1.5-2 dakikadan sonra istikrarsızlık görülebilir. Kısa Midjourney klipleri için (yaklaşık 20-30 saniyenin altında) bu nadiren sorun yaratır, ancak daha uzun anlatımlar veya uzun seslendirmeler için test edin ve doğrulayın. Daha uzun bir anlatım bekliyorsanız, tts-1-hd veya metni daha kısa parçalara bölüp dikkatlice birleştirebilirsiniz.

Diğer seçenek aracı

Arka plan müziği ve ses efektleri: MM Audio (topluluk araçları), Udio, MagicShot veya Runway gibi araçlar, uyumlu arka plan müziği ve bağlama duyarlı ses efektlerini hızla oluşturabilir; topluluk konuları ve eğitimler, içerik üreticilerinin bunları MidJourney videolarına nasıl entegre ettiğini gösterir. Prodüksiyon düzeyinde kontrol için, kökler (müzik + ortam) oluşturun ve miksaj için dışa aktarın.

Dudak senkronizasyonu ve yüz animasyonu: Videoda karakterler veya yüzlerin yakın çekimleri varsa ve gerçekçi ağız hareketleri istiyorsanız, Wav2Lip'i (açık kaynaklı) veya Sync.so, Synthesia veya diğer dudak senkronizasyonu hizmetleri gibi ticari API'leri değerlendirin. Bu araçlar, fonemle uyumlu ağız şekilleri üretmek için sesi analiz eder ve bunları hedef bir yüze veya kare dizisine uygular.

OpenAI'nin TTS (pratik kod) ile ses dosyası nasıl oluşturulur?

Aşağıda, OpenAI'nin TTS uç noktasını kullanarak MP3 (veya WAV) üreten CometAPI çağrı formatından iki pratik örnek bulunmaktadır. Ses adlarını ve akış işaretlerini CometAPI hesabınıza ve SDK güncellemelerinize göre uyarlayabilirsiniz.

⚠️ Değiştir YOUR_CometAPI_API_KEY API anahtarınızla test edin. Önce kısa bir ifade üzerinde test edin.
CometAPI'de Ses Modelleri DOC.

Örnek A — hızlı curl (komut satırı)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Eğer WAV'ı tercih ediyorsanız:

  • Çıkış dosyası adını şu şekilde değiştirin: narration.wavve (mümkünse) gövdede bir ses biçimi parametresi belirtin (bazı SDK'lar izin verir) format: "wav").

Bu neden işe yarıyor: TTS uç noktası metni kabul eder ve daha sonra videonuzla kaydedip birleştirebileceğiniz ikili bir ses dosyası döndürür. voice ve instructions (mümkün olduğunda) prozodi ve stili yönlendirmek için.

Örnek B: İstekleri kullanan Python

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

TTS sesini MidJourney video dosyasıyla nasıl birleştirebilirim?

Videoyu MidJourney'den dışa aktarın

MidJourney'nin Video/Animasyon özellikleri, bir MP4/GIF oluşturmanıza veya Galeri'nizden bir videoyu dışa aktarmanıza olanak tanır; yerel bir dosya elde etmek için "Animasyon" işlevini veya galeri dışa aktarma seçeneklerini kullanın.

ffmpeg ile basit birleştirme

Zaten varsa video.mp4 (ses yok veya yer tutucu ses) ve voiceover.wav (veya mp3), birleştirmek için ffmpeg kullanın:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Notlar:

  • -shortest daha kısa akışta durur; videonun sesten daha uzun süre oynatılmasını istiyorsanız (veya tam tersi) bunu atlayın.
  • -c:v copy video akışını değişmeden tutar.
  • -c:a aac sesi AAC'ye kodlar (MP4 ile uyumludur).
  • Kullanım -af "volume=... ses yüksekliği eşleştirme filtreleri.
  • Profesyonel bir sonlandırma için, zamanlamayı, EQ'yu ve sıkıştırmayı ayarlamak üzere ses dosyalarını bir DAW'da açın.

Sesi tam video uzunluğuna göre kırpın veya doldurun

Eğer ses videodan daha uzunsa ve daha net bir kesim istiyorsanız:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Ses daha kısaysa ve geri kalan kısmın arka plan müziğiyle doldurulmasını veya sesin tekrarlanmasını istiyorsanız, şunu kullanın: adelay, apadveya arka plan parçasıyla karıştırın. Örnek: 20 saniyelik bir klibe uyacak şekilde döngüsel anlatım (genellikle ses için önerilmez):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Ses nasıl dengelenir (anlatımın daha sonra başlaması gerekiyorsa)

Anlatımınız kısa bir sessizlikten sonra başlayacaksa veya birden fazla bölümü ofsetlere yerleştirmeniz gerekiyorsa, şunu kullanın: -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 ikinci girişi 0.5 saniye geciktirir.

Birden fazla ses parçası veya çok hassas yerleştirme için şunu kullanın: -filter_complex ile adelay TTS'yi küçük parçalar halinde oluşturun (dosya başına bir cümle):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

İşte adelay milisaniyeler sürer (2500 ms = 2.5 sn), böylece metni görsel ipuçlarına tam olarak hizalayabilirsiniz.

Anlatımı kısa ve sahne odaklı tutun: Midjourney'nin klipleri kısa ve genellikle stilize olduğundan, videonun temposuna uygun özlü bir giriş (~5-15 saniye) hedefleyin. Metni, görsel kesitler veya hareket ipuçlarıyla dolu kısa cümlelere bölün.

Arka plan müziği + anlatım + ses efektleri nasıl karıştırılır?

Kullanım filter_complex birden fazla ses girişini karıştırmak ve ses seviyelerini kontrol etmek için. Örnek:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Bu anlatımı karıştırır (narration.mp3) ve müzik (music.mp3) müzik seviyesini sesin altında kalacak şekilde düşük ayarlarken. Ayrıca, yan zincir filtreleri aracılığıyla dinamik azaltma (anlatım çalarken müziğin kaybolmasını sağlayan) çalıştırabilir veya hassas kaybolmalar için bir DAW'da düzenleme yapabilirsiniz.

Gelişmiş Düzenleme

Senaryo ve tempo

  • Sıkı bir senaryo yazın ve görsel ipuçlarını (zaman kodu veya kare numaraları) işaretleyin, böylece TTS çıktısı sahne değişikliklerine uyum sağlar.
  • Daha doğal bir ritim için kısa cümleler kullanın; uzun okumalara ihtiyacınız varsa, kasıtlı duraklamalar ekleyin veya birden fazla TTS çağrısına bölün.

Hareketi, yoğunluğu ve dokuyu eşleştirin

  • Görsel kesmeleri veya kamera hareketlerini vurgulamak için geçici SFX kullanın.
  • Yavaş, resimsel Midjourney hareketi için (--motion low), ince ambiyans ve uzun yankı kuyruklarını tercih eder.
  • Yüksek aksiyon için (--motion high), vurucu SFX'ler, tempoya uygun müzikal vuruşlar ve kısa yankılanmalar kullanın.

Direksiyon ses stili

Yönlendirmek için öğretici istemleri kullanın gpt-4o-mini-tts — örneğin, "instructions": "Calm, conversational, slight warmth, medium speed" veya bu talimatı metin yükünün bir parçası olarak ekleyin. Örneğin:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Dikkatli olun: SDK sürümleri arasında tam parametre adları farklılık gösterir; SDK'nızın desteklediği alanları test edin.

Ses tasarımı ipuçları

  • Düşük sesli bir bed track (müzik) ekleyin ve ses sırasında onu sidechain yapın veya kısın.
  • Görsel geçişlere uygun kısa uğultular, yükselen sesler veya etkili ses efektleri kullanın. Ses efektlerini kısa ve net tutun.
  • Platformlar arasında tutarlı ses yüksekliği için sesi normalleştirin (-1 dBFS) ve hafifçe sıkıştırın (oran 2:1).
  • Sosyal platformlar için uyumluluk açısından son videoyu AAC-LC ses ve H.264 video ile kodlayın.

MidJourney videosundaki karakterlerin oluşturulan sesle "konuşmasını" (dudak senkronizasyonu) sağlayabilir miyim?

Evet, TTS sesinden ağız hareketi karelerine fonemleri eşlemek için dudak senkronizasyonu modelini kullanın. Yaygın iki yaklaşım şunlardır:

Wav2Lip (yerel veya barındırılan) gibi açık araçları kullanın

Wav2Lip, konuşulan sesi ağız hareketleriyle uyumlu hale getirir ve yerel olarak veya barındırılan grafiksel kullanıcı arayüzleri (GUI) aracılığıyla çalıştırılabilir. Tipik iş akışı:

  1. MidJourney'den video veya bir dizi kareyi (görüntü dizisi) dışa aktarın.
  2. Ses dosyasını üretin (OpenAI TTS).
  3. Ağız şekillerinin sesle eşleştiği yeni bir video çıkışı almak için Wav2Lip'i çalıştırın.

Wav2Lip 1:1 ağız hizalaması için mükemmeldir ve açık kaynaklıdır; görsel cilalama için biraz post-işleme ihtiyacınız olabilir.

Tek adımda dudak senkronizasyonu için ticari API'leri kullanın

Sync.so, Synthesia ve diğerleri gibi hizmetler, hem konuşma hem de dudak senkronizasyonu/dublaj işlemlerini (bazen çok dilli dublaj da dahil) gerçekleştiren API/GUI kanalları sunar. Daha hızlı ve daha az teknik olabilirler, ancak ücretli hizmetlerdir ve hassas kontrolleri sınırlayabilirler.

Gerçekçilik üzerine pratik notlar

  • Mükemmel gerçekçilik genellikle mikro ifadeler, göz kırpmalar ve baş hareketleri gerektirir; bazı dudak senkronizasyonu servisleri bunları otomatik olarak ekler; diğerleri ise manuel ayarlamalar gerektirir.
  • Karakterler stilize edilmişse (fotoğrafsal değilse), küçük dudak senkronizasyonu hataları daha az fark edilir; yakın çekimler için DAW + yüz rötuşlama hattına zaman ayırın.

Başlamak

CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.

CometAPI'de MidJourney Videosunu kullanın

Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz Yolculuk Ortası API'si ve Midjourney Video API, CometAPI'ye kaydolup deneyimlemeye hoş geldiniz. .Başlamak için, modelin yeteneklerini keşfedin Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI, SD 480P ve HD 720P çözünürlüklerini destekler.

Çağrı Yöntemi: videoType=vid_1.1_i2v_720 parametresini kullanın.

Midjourney V1 Videonesil: Geliştiriciler RESTful API aracılığıyla video üretimini entegre edebilirler. Tipik bir istek yapısı (örnekleyici)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Ses Modelleri

Geliştiriciler, en son model sürümü olan CometAPI aracılığıyla GPT 4o ses ve tts-1'e erişebilirler (son nokta:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) resmi web sitesi üzerinden sürekli güncellenmektedir. Başlamak için, modelin yeteneklerini keşfedin Oyun Alanı ve danışın ses API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.

Sonuç

Midjourney videosuna ses ve görüntü eklemek oldukça basittir: Kısa bir Midjourney klibi oluşturun, OpenAI'nin yönlendirilebilir TTS'si ile kısa bir anlatımı sentezleyin, ardından birleştirin ve parlatın ffmpeg. Yeni gpt-4o-mini-tts model size güçlü bir stil kontrolü sağlarken, Midjourney'nin --video iş akışı, sosyal, prototip veya konsept çalışmaları için mükemmel olan temiz kısa animasyonlar üretir.

SHARE THIS BLOG

500+ Model Tek Bir API'de

%20'ye Varan İndirim