Midjourney 在影片生成領域的突破令人興奮:它將靜態圖像轉換為可循環播放的短動畫片段,為敘事和動態內容的創作打開了大門。但在 Midjourney 推出內建的、經過精心打磨的音軌(如果它真的會推出的話)之前,創作者必須使用 AI 音訊工具和傳統編輯器將音訊拼接到無聲視訊輸出上。本文將介紹當前的現狀(工具、工作流程、技巧和法律保障),並為您提供一個逐步的、可用於生產的工作流程,用於為 Midjourney 視訊片段添加語音和音效。
「Midjourney 影片」到底是什麼?為什麼需要外部音訊?
Midjourney 的影片功能目前可以製作什麼
Midjourney 的影片功能可將產生或上傳的影像轉換為短動畫片段(初始長度 5 秒,可逐步延長),強調動作和攝影機/拍攝對象的運動,而非同步音訊或唇語同步的對話。該工具旨在生成視覺豐富的短循環,而非完整的視聽敘事。這意味著您匯出的每個 Midjourney 影片都將保持靜音,必須在後製中配上音訊才能成為真正的動態影像。
Midjourney 影片的基本規則和限制是什麼?
Midjourney 的影片功能可將起始影像轉換為簡短的動畫片段(預設為 5 秒),並可選擇將長度延長至 21 秒,並可選擇「低」或「高」運動、循環播放以及更改批量大小。影片可下載為 .mp4 和 Midjourney 揭露了一個 --video 參數(和 --motion low|high, --loop, --end, --bs #, --raw --end和 --bs 參數— Midjourney 的官方文檔) 用於 Discord 或 API 提示。解析度為標清 (480p),高清 (720p);批量大小和運動設定會影響 GPU 時間和成本。
實用要點: 旅途中的片段通常很短(5-21秒),因此請根據片段長度安排旁白和音頻,或準備拼接多個片段。下載 原始視頻(.mp4) 從 Midjourney 的創建頁面獲取最佳品質以供後製使用。
為什麼應該要加入語音、音樂和音效
新增音訊:
- 提供背景和敘述(畫外音),使抽象的視覺效果具有交流性。
- 設定情緒基調(音樂選擇)並提高觀眾的保留率。
- 將 AI 視覺效果置於寫實主義的基礎上(聲音設計、擬音、環境床)。
- 讓內容平台為 TikTok、YouTube 或 reels 做好準備,因為音訊對這些平台至關重要。
為 MidJourney 視訊添加語音和聲音的最簡單工作流程是什麼?
快速的一段食譜
- 在 MidJourney 中產生您的視覺影片或動畫影格(圖庫 → 動畫/影片功能)。
- 匯出/下載製作的影片(MP4/GIF)。
- 使用 OpenAI 的 TTS 製作畫外音(例如,
gpt-4o-mini-tts或其他 TTS 模型)並匯出為 WAV/MP3。 - 使用 AI 音訊工具建立背景音樂和 SFX(MM Audio、Udio 或 Runway 等工具可以提供協助)。
- 在 DAW(Reaper、Audacity、Logic,或簡單地使用 ffmpeg 進行直接合併)中對齊和混合。
- 如果影片包含臉部並且您希望嘴部與語音相匹配,則可以選擇運行 AI 唇形同步(Wav2Lip、Sync.so 和商業服務)。
為什麼這種分離(視覺與音訊)很重要
MidJourney 專注於視覺創意和動態設計;音訊設計則是完全不同的技術堆疊(語音生成、音訊設計、同步)。將各項職責分離,可以讓你更掌控語音特性、節奏、音效設計和母帶處理,而無需與視覺生成器爭吵。
我應該如何製作影片的 Midjourney 提示?
您可以使用圖庫中的任何圖像建立視頻,也可以將公開託管的圖像 URL 貼到 Imagine 欄中並添加 --video 參數(在 Discord 或 API 上)。產生後,您可以直接從 Midjourney Create 頁面或 Discord 下載 MP4(原始版本或社交版本)。
一個簡單的 Discord 風格範例,使用上傳的圖像作為起始幀:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
注意:
- 將圖像 URL 放在開頭以將其用作起始幀。
- 新增
--video和一個運動標誌(--motion lowor--motion high). - 使用
--bs 1如果您只需要一個輸出(節省 GPU 時間)。 - 使用
--raw如果您想要更少的風格化和更確定的運動。
如果影片長度短於您想要的旁白,您可以在 Midjourney 中延長影片(每次延長最多可延長 4 秒,總共最多 21 秒),或者剪切/循環音訊以適應影片長度。請注意確切的長度(秒 + 毫秒),以便您能夠調整旁白和音效。 Midjourney 在「建立」頁面和 Discord 中提供了「下載原始影片」選項;您可以使用該選項作為起始檔案。
我應該考慮哪些 OpenAI TTS 模型以及為什麼?
目前有哪些可用的 TTS 選項?
OpenAI 提供了多種 TTS 選項: tts-1 / tts-1-hd 以及較新的可操縱 gpt-4o-mini-tts。 “ gpt-4o-mini-tts 模型強調可操縱性(您可以指示語調、節奏、情感)並且旨在實現靈活、富有表現力的語音生成; tts-1 tts-1-hd 仍然是高品質、更傳統的 TTS 的有力選擇。使用 gpt-4o-mini-tts 當你想控制 如何 文本是口語化的(風格、氛圍),並且 tts-1-hd 當風格控制不太重要時,可達到最大保真度。 PenAI 持續迭代音訊模型(2025 年的公告擴展了語音和轉錄功能),因此請選擇能夠平衡成本、品質和專案控制的模型。 TTS 模型 API 也整合到 彗星API.
有任何生產警告或當前限制嗎?
gpt-4o-mini-tts 有時在較長的音訊檔案上會出現不穩定的情況(例如停頓、音量波動),尤其是在超過 1.5 到 2 分鐘的時候。對於短的 Midjourney 片段(少於 20 到 30 秒)來說,這很少會成為問題,但對於較長的旁白或長篇畫外音,請進行測試並驗證。如果您希望旁白較長,最好 tts-1-hd 或將文字分成較短的塊並仔細地拼接它們。
其他選項工具
背景音樂和音效: MM Audio(社群工具)、Udio、MagicShot 或 Runway 等工具可以快速創建匹配的背景音樂和情境敏感的音效;社群貼文和教學展示了創作者如何將這些內容融入 MidJourney 影片中。為了達到製作級的控制效果,可以產生 Stem(音樂 + 氛圍音)並匯出進行混音。
唇形同步和臉部動畫: 如果影片中包含人物或臉部特寫,並且您希望嘴部動作逼真,可以考慮使用 Wav2Lip(開源)或 Sync.so、Synthesia 等商業 API 或其他唇形同步服務。這些工具會分析音頻,產生音素對齊的嘴形,並將其應用於目標面部或幀序列。
如何用OpenAI的TTS產生語音檔(實用程式碼)?
以下是 CometAPI 呼叫格式的兩個實際範例,它們使用 OpenAI 的 TTS 端點產生 MP3(或 WAV)。您可以根據您的 CometAPI 帳戶和 SDK 更新調整語音名稱和串流標誌。
⚠️ 替換
YOUR_CometAPI_API_KEY使用您的 API 金鑰。先用一個短語進行測試。請參閱
CometAPI 中的音訊模型 DOC.
範例 A — 快速 curl (命令列)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
如果您更喜歡 WAV:
- 將輸出檔名更改為
narration.wav,並且(如果可用)在正文中指定音訊格式參數(某些 SDK 允許format: "wav").
為什麼這有效: TTS 端點接受文字並返回二進位音訊文件,您可以儲存並稍後將其與視訊合併。使用 voice instructions (如果可用)來引導韻律和風格。
範例 B:使用請求的 Python
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
如何將 TTS 音訊與 MidJourney 視訊檔案結合?
從 MidJourney 匯出視頻
MidJourney 的影片/動畫功能可讓您建立 MP4/GIF 或從圖庫匯出影片 - 使用「動畫」功能或圖庫匯出選項來取得本機檔案。
與 ffmpeg 簡單合併
如果你已經有了 video.mp4 (無音訊或占位音訊)和 voiceover.wav (或mp3),使用ffmpeg合併:
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
注意:
-shortest在較短的串流處停止;如果您希望視訊播放的時間比音訊播放的時間長(反之亦然),請省略。-c:v copy保持視訊串流不變。-c:a aac將音訊編碼為 AAC(相容 MP4)。- 使用
-af "volume=...用於響度匹配的濾鏡。 - 為了獲得專業的最終效果,請在 DAW 中開啟音訊主幹來調整時間、EQ 和壓縮。
修剪或填充音訊以達到精確的視訊長度
如果音訊比視訊長,並且您想要精確剪輯:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
如果音訊較短,並且您希望背景音樂填充剩餘部分或循環播放語音,請使用 adelay, apad或與背景音樂混合。例如:循環播放旁白以符合 20 秒的片段(通常不建議用於語音):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
如何偏移音訊(如果需要稍後開始旁白)
如果您的旁白應該在短暫的沉默後開始,或者您有多個片段需要偏移,請使用 -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 將第二次輸入延遲 0.5 秒。
對於多個音軌或非常精確的放置使用 -filter_complex - adelay 以小段形式產生 TTS(每個檔案一個句子):
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
這裡 adelay 只需幾毫秒(2500 毫秒 = 2.5 秒),因此您可以將文字與視覺提示精確對齊。
保持旁白簡短且與場景相符:由於 Midjourney 的片段通常較短且風格化,因此建議使用簡潔的引子(約 5-15 秒),並與視訊節奏保持一致。將文字拆分成短句,並配合視覺剪輯或動作提示。
如何混合背景音樂+旁白+音效
使用 filter_complex 混合多個音訊輸入並控制音量。例如:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
這混合了敘述(narration.mp3) 和音樂 (music.mp3),同時將音樂音量調低,使其低於人聲。您也可以透過側鏈濾波器運行動態閃避(使音樂在旁白播放時淡入淡出),或在 DAW 中進行編輯以實現精確的淡入淡出效果。
高級編輯
劇本和節奏
- 編寫緊湊的腳本並標記視覺提示(時間碼或幀號),以便 TTS 輸出與場景變化保持一致。
- 使用短句以獲得更好的自然節奏;如果您需要長篇閱讀,請插入有意的停頓或分成多個 TTS 調用。
匹配運動、強度和紋理
- 使用瞬態音效來強調視覺剪輯或攝影機移動。
- 對於緩慢的、繪畫般的旅程中運動(
--motion low),偏好微妙的氛圍和較長的混響尾音。 - 對於高動作(
--motion high),使用強勁的音效、節奏相符的音樂和短混響。
轉向語音風格
使用指導性提示來引導 gpt-4o-mini-tts — 例如, "instructions": "Calm, conversational, slight warmth, medium speed" 或將該指令作為文字有效負載的一部分。例如:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
請注意:不同 SDK 版本的確切參數名稱有所不同 - 請測試您的 SDK 支援的欄位。
聲音設計技巧
- 添加低音量的床軌(音樂)並在語音期間進行側鍊或閃避。
- 使用短暫的呼嘯聲、上升聲或衝擊音效,並與視覺過渡保持一致。音效應簡短明快。
- 標準化語音(-1 dBFS)並輕微壓縮(比例 2:1)以確保跨平台的響度一致。
- 對於社交平台,使用 AAC-LC 音訊和 H.264 視訊對最終視訊進行編碼以實現相容性。
我可以讓 MidJourney 影片中的角色對生成的聲音「說話」(口型同步)嗎?
是的——使用唇形同步模型將 TTS 音訊中的音素映射到口型運動幀。兩種常見的方法有:
使用 Wav2Lip 等開放工具(本地或主機)
Wav2Lip 可將語音與口部動作對齊,可在本機或透過託管的 GUI 運作。典型工作流程:
- 從 MidJourney 匯出影片或一系列影格(影像序列)。
- 產生語音檔案(OpenAI TTS)。
- 運行 Wav2Lip 輸出口形與音訊相符的新影片。
Wav2Lip 非常適合 1:1 口部對齊,並且是開源的;您可能需要進行一些後期處理以進行視覺潤色。
使用商業 API 實現一步式唇形同步
Sync.so、Synthesia 等服務提供 API/GUI 管道,可同時處理語音和唇形同步/配音,有時甚至支援多語言配音。這些服務速度更快,技術含量更低,但屬於付費服務,並且可能限制精細控制。
關於寫實的實用筆記
- 完美的真實感通常需要微表情、眨眼和頭部運動——一些唇形同步服務會自動添加這些功能;而其他一些則需要手動調整。
- 如果角色是風格化的(非照片級),那麼小的口型同步錯誤就不太明顯;對於特寫鏡頭,則需要花時間在 DAW + 面部修飾流程上。
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
在 CometAPI 中使用 MidJourney 視頻
彗星API 提供遠低於官方價格的價格,幫助您整合 Midjourney API 旅程中影片 API歡迎註冊並體驗 CometAPI。首先,探索模型的功能 游乐场 並諮詢 API指南 詳細說明。造訪前,請確保您已登入 CometAPI 並取得 API 金鑰。 CometAPI 支援解析度 SD 480P 和 HD 720P。
呼叫方式:使用參數videoType=vid_1.1_i2v_720。
Midjourney V1 影片生成: 開發者可以透過 RESTful API 整合視訊生成功能。典型的請求結構(範例)
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
音訊模型
開發者可以透過 CometAPI 存取 GPT 4o 音訊和 tts-1,最新模型版本(端點:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) 始終與官方網站同步更新。首先,探索模型的功能 游乐场 並諮詢 音訊 API 指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
結論
為 Midjourney 影片添加語音和聲音非常簡單:產生一個簡短的 Midjourney 片段,使用 OpenAI 的可控 TTS 合成簡短的旁白,然後使用 ffmpeg。 新 gpt-4o-mini-tts 模型為您提供強大的風格控制,而 Midjourney 的 --video 工作流程產生乾淨的短動畫 - 非常適合社交、原型或概念工作。


