如何為旅途中的視訊添加語音和聲音

CometAPI
AnnaDec 2, 2025
如何為旅途中的視訊添加語音和聲音

Midjourney 在影片生成領域的突破令人興奮:它將靜態圖像轉換為可循環播放的短動畫片段,為敘事和動態內容的創作打開了大門。但在 Midjourney 推出內建的、經過精心打磨的音軌(如果它真的會推出的話)之前,創作者必須使用 AI 音訊工具和傳統編輯器將音訊拼接到無聲視訊輸出上。本文將介紹當前的現狀(工具、工作流程、技巧和法律保障),並為您提供一個逐步的、可用於生產的工作流程,用於為 Midjourney 視訊片段添加語音和音效。

「Midjourney 影片」到底是什麼?為什麼需要外部音訊?

Midjourney 的影片功能目前可以製作什麼

Midjourney 的影片功能可將產生或上傳的影像轉換為短動畫片段(初始長度 5 秒,可逐步延長),強調動作和攝影機/拍攝對象的運動,而非同步音訊或唇語同步的對話。該工具旨在生成視覺豐富的短循環,而非完整的視聽敘事。這意味著您匯出的每個 Midjourney 影片都將保持靜音,必須在後製中配上音訊才能成為真正的動態影像。

Midjourney 影片的基本規則和限制是什麼?

Midjourney 的影片功能可將起始影像轉換為簡短的動畫片段(預設為 5 秒),並可選擇將長度延長至 21 秒,並可選擇「低」或「高」運動、循環播放以及更改批量大小。影片可下載為 .mp4 和 Midjourney 揭露了一個 --video 參數(和 --motion low|high, --loop, --end, --bs #, --raw --end--bs 參數— Midjourney 的官方文檔) 用於 Discord 或 API 提示。解析度為標清 (480p),高清 (720p);批量大小和運動設定會影響 GPU 時間和成本。

實用要點: 旅途中的片段通常很短(5-21秒),因此請根據片段長度安排旁白和音頻,或準備拼接多個片段。下載 原始視頻(.mp4) 從 Midjourney 的創建頁面獲取最佳品質以供後製使用。

為什麼應該要加入語音、音樂和音效

新增音訊:

  • 提供背景和敘述(畫外音),使抽象的視覺效果具有交流性。
  • 設定情緒基調(音樂選擇)並提高觀眾的保留率。
  • 將 AI 視覺效果置於寫實主義的基礎上(聲音設計、擬音、環境床)。
  • 讓內容平台為 TikTok、YouTube 或 reels 做好準備,因為音訊對這些平台至關重要。

為 MidJourney 視訊添加語音和聲音的最簡單工作流程是什麼?

快速的一段食譜

  1. 在 MidJourney 中產生您的視覺影片或動畫影格(圖庫 → 動畫/影片功能)。
  2. 匯出/下載製作的影片(MP4/GIF)。
  3. 使用 OpenAI 的 TTS 製作畫外音(例如, gpt-4o-mini-tts 或其他 TTS 模型)並匯出為 WAV/MP3。
  4. 使用 AI 音訊工具建立背景音樂和 SFX(MM Audio、Udio 或 Runway 等工具可以提供協助)。
  5. 在 DAW(Reaper、Audacity、Logic,或簡單地使用 ffmpeg 進行直接合併)中對齊和混合。
  6. 如果影片包含臉部並且您希望嘴部與語音相匹配,則可以選擇運行 AI 唇形同步(Wav2Lip、Sync.so 和商業服務)。

為什麼這種分離(視覺與音訊)很重要

MidJourney 專注於視覺創意和動態設計;音訊設計則是完全不同的技術堆疊(語音生成、音訊設計、同步)。將各項職責分離,可以讓你更掌控語音特性、節奏、音效設計和母帶處理,而無需與視覺生成器爭吵。

我應該如何製作影片的 Midjourney 提示?

您可以使用圖庫中的任何圖像建立視頻,也可以將公開託管的圖像 URL 貼到 Imagine 欄中並添加 --video 參數(在 Discord 或 API 上)。產生後,您可以直接從 Midjourney Create 頁面或 Discord 下載 MP4(原始版本或社交版本)。

一個簡單的 Discord 風格範例,使用上傳的圖像作為起始幀:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

注意:

  • 將圖像 URL 放在開頭以將其用作起始幀。
  • 新增 --video 和一個運動標誌(--motion low or --motion high).
  • 使用 --bs 1 如果您只需要一個輸出(節省 GPU 時間)。
  • 使用 --raw 如果您想要更少的風格化和更確定的運動。

如果影片長度短於您想要的旁白,您可以在 Midjourney 中延長影片(每次延長最多可延長 4 秒,總共最多 21 秒),或者剪切/循環音訊以適應影片長度。請注意確切的長度(秒 + 毫秒),以便您能夠調整旁白和音效。 Midjourney 在「建立」頁面和 Discord 中提供了「下載原始影片」選項;您可以使用該選項作為起始檔案。

我應該考慮哪些 OpenAI TTS 模型以及為什麼?

目前有哪些可用的 TTS 選項?

OpenAI 提供了多種 TTS 選項: tts-1 / tts-1-hd 以及較新的可操縱 gpt-4o-mini-tts。 “ gpt-4o-mini-tts 模型強調可操縱性(您可以指示語調、節奏、情感)並且旨在實現靈活、富有表現力的語音生成; tts-1 tts-1-hd 仍然是高品質、更傳統的 TTS 的有力選擇。使用 gpt-4o-mini-tts 當你想控制 如何 文本是口語化的(風格、氛圍),並且 tts-1-hd 當風格控制不太重要時,可達到最大保真度。 PenAI 持續迭代音訊模型(2025 年的公告擴展了語音和轉錄功能),因此請選擇能夠平衡成本、品質和專案控制的模型。 TTS 模型 API 也整合到 彗星API.

有任何生產警告或當前限制嗎?

gpt-4o-mini-tts 有時在較長的音訊檔案上會出現不穩定的情況(例如停頓、音量波動),尤其是在超過 1.5 到 2 分鐘的時候。對於短的 Midjourney 片段(少於 20 到 30 秒)來說,這很少會成為問題,但對於較長的旁白或長篇畫外音,請進行測試並驗證。如果您希望旁白較長,最好 tts-1-hd 或將文字分成較短的塊並仔細地拼接它們。

其他選項工具

背景音樂和音效: MM Audio(社群工具)、Udio、MagicShot 或 Runway 等工具可以快速創建匹配的背景音樂和情境敏感的音效;社群貼文和教學展示了創作​​者如何將這些內容融入 MidJourney 影片中。為了達到製作級的控制效果,可以產生 Stem(音樂 + 氛圍音)並匯出進行混音。

唇形同步和臉部動畫: 如果影片中包含人物或臉部特寫,並且您希望嘴部動作逼真,可以考慮使用 Wav2Lip(開源)或 Sync.so、Synthesia 等商業 API 或其他唇形同步服務。這些工具會分析音頻,產生音素對齊的嘴形,並將其應用於目標面部或幀序列。

如何用OpenAI的TTS產生語音檔(實用程式碼)?

以下是 CometAPI 呼叫格式的兩個實際範例,它們使用 OpenAI 的 TTS 端點產生 MP3(或 WAV)。您可以根據您的 CometAPI 帳戶和 SDK 更新調整語音名稱和串流標誌。

⚠️ 替換 YOUR_CometAPI_API_KEY 使用您的 API 金鑰。先用一個短語進行測試。請參閱
CometAPI 中的音訊模型 DOC.

範例 A — 快速 curl (命令列)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

如果您更喜歡 WAV:

  • 將輸出檔名更改為 narration.wav,並且(如果可用)在正文中指定音訊格式參數(某些 SDK 允許 format: "wav").

為什麼這有效: TTS 端點接受文字並返回二進位音訊文件,您可以儲存並稍後將其與視訊合併。使用 voice instructions (如果可用)來引導韻律和風格。

範例 B:使用請求的 Python

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

如何將 TTS 音訊與 MidJourney 視訊檔案結合?

從 MidJourney 匯出視頻

MidJourney 的影片/動畫功能可讓您建立 MP4/GIF 或從圖庫匯出影片 - 使用「動畫」功能或圖庫匯出選項來取得本機檔案。

與 ffmpeg 簡單合併

如果你已經有了 video.mp4 (無音訊或占位音訊)和 voiceover.wav (或mp3),使用ffmpeg合併:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

注意:

  • -shortest 在較短的串流處停止;如果您希望視訊播放的時間比音訊播放的時間長(反之亦然),請省略。
  • -c:v copy 保持視訊串流不變。
  • -c:a aac 將音訊編碼為 AAC(相容 MP4)。
  • 使用 -af "volume=... 用於響度匹配的濾鏡。
  • 為了獲得專業的最終效果,請在 DAW 中開啟音訊主幹來調整時間、EQ 和壓縮。

修剪或填充音訊以達到精確的視訊長度

如果音訊比視訊長,並且您想要精確剪輯:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

如果音訊較短,並且您希望背景音樂填充剩餘部分或循環播放語音,請使用 adelay, apad或與背景音樂混合。例如:循環播放旁白以符合 20 秒的片段(通常不建議用於語音):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

如何偏移音訊(如果需要稍後開始旁白)

如果您的旁白應該在短暫的沉默後開始,或者您有多個片段需要偏移,請使用 -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 將第二次輸入延遲 0.5 秒。

對於多個音軌或非常精確的放置使用 -filter_complex - adelay 以小段形式產生 TTS(每個檔案一個句子):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

這裡 adelay 只需幾毫秒(2500 毫秒 = 2.5 秒),因此您可以將文字與視覺提示精確對齊。

保持旁白簡短且與場景相符:由於 Midjourney 的片段通常較短且風格化,因此建議使用簡潔的引子(約 5-15 秒),並與視訊節奏保持一致。將文字拆分成短句,並配合視覺剪輯或動作提示。

如何混合背景音樂+旁白+音效

使用 filter_complex 混合多個音訊輸入並控制音量。例如:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

這混合了敘述(narration.mp3) 和音樂 (music.mp3),同時將音樂音量調低,使其低於人聲。您也可以透過側鏈濾波器運行動態閃避(使音樂在旁白播放時淡入淡出),或在 DAW 中進行編輯以實現精確的淡入淡出效果。

高級編輯

劇本和節奏

  • 編寫緊湊的腳本並標記視覺提示(時間碼或幀號),以便 TTS 輸出與場景變化保持一致。
  • 使用短句以獲得更好的自然節奏;如果您需要長篇閱讀,請插入有意的停頓或分成多個 TTS 調用。

匹配運動、強度和紋理

  • 使用瞬態音效來強調視覺剪輯或攝影機移動。
  • 對於緩慢的、繪畫般的旅程中運動(--motion low),偏好微妙的氛圍和較長的混響尾音。
  • 對於高動作(--motion high),使用強勁的音效、節奏相符的音樂和短混響。

轉向語音風格

使用指導性提示來引導 gpt-4o-mini-tts — 例如, "instructions": "Calm, conversational, slight warmth, medium speed" 或將該指令作為文字有效負載的一部分。例如:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

請注意:不同 SDK 版本的確切參數名稱有所不同 - 請測試您的 SDK 支援的欄位。

聲音設計技巧

  • 添加低音量的床軌(音樂)並在語音期間進行側鍊或閃避。
  • 使用短暫的呼嘯聲、上升聲或衝擊音效,並與視覺過渡保持一致。音效應簡短明快。
  • 標準化語音(-1 dBFS)並輕微壓縮(比例 2:1)以確保跨平台的響度一致。
  • 對於社交平台,使用 AAC-LC 音訊和 H.264 視訊對最終視訊進行編碼以實現相容性。

我可以讓 MidJourney 影片中的角色對生成的聲音「說話」(口型同步)嗎?

是的——使用唇形同步模型將 TTS 音訊中的音素映射到口型運動幀。兩種常見的方法有:

使用 Wav2Lip 等開放工具(本地或主機)

Wav2Lip 可將語音與口部動作對齊,可在本機或透過託管的 GUI 運作。典型工作流程:

  1. 從 MidJourney 匯出影片或一系列影格(影像序列)。
  2. 產生語音檔案(OpenAI TTS)。
  3. 運行 Wav2Lip 輸出口形與音訊相符的新影片。

Wav2Lip 非常適合 1:1 口部對齊,並且是開源的;您可能需要進行一些後期處理以進行視覺潤色。

使用商業 API 實現一步式唇形同步

Sync.so、Synthesia 等服務提供 API/GUI 管道,可同時處理語音和唇形同步/配音,有時甚至支援多語言配音。這些服務速度更快,技術含量更低,但屬於付費服務,並且可能限制精細控制。

關於寫實的實用筆記

  • 完美的真實感通常需要微表情、眨眼和頭部運動——一些唇形同步服務會自動添加這些功能;而其他一些則需要手動調整。
  • 如果角色是風格化的(非照片級),那麼小的口型同步錯誤就不太明顯;對於特寫鏡頭,則需要花時間在 DAW + 面部修飾流程上。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

在 CometAPI 中使用 MidJourney 視頻

彗星API 提供遠低於官方價格的價格,幫助您整合 Midjourney API   旅程中影片 API歡迎註冊並體驗 CometAPI。首先,探索模型的功能 游乐场 並諮詢 API指南 詳細說明。造訪前,請確保您已登入 CometAPI 並取得 API 金鑰。 CometAPI 支援解析度 SD 480P 和 HD 720P。

呼叫方式:使用參數videoType=vid_1.1_i2v_720。

Midjourney V1 影片生成: 開發者可以透過 RESTful API 整合視訊生成功能。典型的請求結構(範例)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

音訊模型

開發者可以透過 CometAPI 存取 GPT 4o 音訊和 tts-1,最新模型版本(端點:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) 始終與官方網站同步更新。首先,探索模型的功能 游乐场 並諮詢 音訊 API 指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

結論

為 Midjourney 影片添加語音和聲音非常簡單:產生一個簡短的 Midjourney 片段,使用 OpenAI 的可控 TTS 合成簡短的旁白,然後使用 ffmpeg。 新 gpt-4o-mini-tts 模型為您提供強大的風格控制,而 Midjourney 的 --video 工作流程產生乾淨的短動畫 - 非常適合社交、原型或概念工作。

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣