如何為旅途中的視訊添加語音和聲音

Midjourney 在影片生成領域的突破令人興奮：它將靜態圖像轉換為可循環播放的短動畫片段，為敘事和動態內容的創作打開了大門。但在 Midjourney 推出內建的、經過精心打磨的音軌（如果它真的會推出的話）之前，創作者必須使用 AI 音訊工具和傳統編輯器將音訊拼接到無聲視訊輸出上。本文將介紹當前的現狀（工具、工作流程、技巧和法律保障），並為您提供一個逐步的、可用於生產的工作流程，用於為 Midjourney 視訊片段添加語音和音效。

「Midjourney 影片」到底是什麼？為什麼需要外部音訊？

Midjourney 的影片功能目前可以製作什麼

Midjourney 的影片功能可將產生或上傳的影像轉換為短動畫片段（初始長度 5 秒，可逐步延長），強調動作和攝影機/拍攝對象的運動，而非同步音訊或唇語同步的對話。該工具旨在生成視覺豐富的短循環，而非完整的視聽敘事。這意味著您匯出的每個 Midjourney 影片都將保持靜音，必須在後製中配上音訊才能成為真正的動態影像。

Midjourney 影片的基本規則和限制是什麼？

Midjourney 的影片功能可將起始影像轉換為簡短的動畫片段（預設為 5 秒），並可選擇將長度延長至 21 秒，並可選擇「低」或「高」運動、循環播放以及更改批量大小。影片可下載為 .mp4 和 Midjourney 揭露了一個 --video 參數（和 --motion low|high, --loop, --end, --bs #, --raw --end和 --bs 參數— Midjourney 的官方文檔) 用於 Discord 或 API 提示。解析度為標清 (480p)，高清 (720p)；批量大小和運動設定會影響 GPU 時間和成本。

實用要點： 旅途中的片段通常很短（5-21秒），因此請根據片段長度安排旁白和音頻，或準備拼接多個片段。下載 原始視頻（.mp4） 從 Midjourney 的創建頁面獲取最佳品質以供後製使用。

為什麼應該要加入語音、音樂和音效

新增音訊：

提供背景和敘述（畫外音），使抽象的視覺效果具有交流性。
設定情緒基調（音樂選擇）並提高觀眾的保留率。
將 AI 視覺效果置於寫實主義的基礎上（聲音設計、擬音、環境床）。
讓內容平台為 TikTok、YouTube 或 reels 做好準備，因為音訊對這些平台至關重要。

為 MidJourney 視訊添加語音和聲音的最簡單工作流程是什麼？

快速的一段食譜

在 MidJourney 中產生您的視覺影片或動畫影格（圖庫 → 動畫/影片功能）。
匯出/下載製作的影片（MP4/GIF）。
使用 OpenAI 的 TTS 製作畫外音（例如， gpt-4o-mini-tts 或其他 TTS 模型）並匯出為 WAV/MP3。
使用 AI 音訊工具建立背景音樂和 SFX（MM Audio、Udio 或 Runway 等工具可以提供協助）。
在 DAW（Reaper、Audacity、Logic，或簡單地使用 ffmpeg 進行直接合併）中對齊和混合。
如果影片包含臉部並且您希望嘴部與語音相匹配，則可以選擇運行 AI 唇形同步（Wav2Lip、Sync.so 和商業服務）。

為什麼這種分離（視覺與音訊）很重要

MidJourney 專注於視覺創意和動態設計；音訊設計則是完全不同的技術堆疊（語音生成、音訊設計、同步）。將各項職責分離，可以讓你更掌控語音特性、節奏、音效設計和母帶處理，而無需與視覺生成器爭吵。

我應該如何製作影片的 Midjourney 提示？

您可以使用圖庫中的任何圖像建立視頻，也可以將公開託管的圖像 URL 貼到 Imagine 欄中並添加 --video 參數（在 Discord 或 API 上）。產生後，您可以直接從 Midjourney Create 頁面或 Discord 下載 MP4（原始版本或社交版本）。

一個簡單的 Discord 風格範例，使用上傳的圖像作為起始幀：

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

注意：

將圖像 URL 放在開頭以將其用作起始幀。
新增 --video 和一個運動標誌（--motion low or --motion high).
使用 --bs 1 如果您只需要一個輸出（節省 GPU 時間）。
使用 --raw 如果您想要更少的風格化和更確定的運動。

如果影片長度短於您想要的旁白，您可以在 Midjourney 中延長影片（每次延長最多可延長 4 秒，總共最多 21 秒），或者剪切/循環音訊以適應影片長度。請注意確切的長度（秒 + 毫秒），以便您能夠調整旁白和音效。 Midjourney 在「建立」頁面和 Discord 中提供了「下載原始影片」選項；您可以使用該選項作為起始檔案。

我應該考慮哪些 OpenAI TTS 模型以及為什麼？

目前有哪些可用的 TTS 選項？

OpenAI 提供了多種 TTS 選項： tts-1 / tts-1-hd 以及較新的可操縱 gpt-4o-mini-tts。 “ gpt-4o-mini-tts 模型強調可操縱性（您可以指示語調、節奏、情感）並且旨在實現靈活、富有表現力的語音生成； tts-1 tts-1-hd 仍然是高品質、更傳統的 TTS 的有力選擇。使用 gpt-4o-mini-tts 當你想控制如何文本是口語化的（風格、氛圍），並且 tts-1-hd 當風格控制不太重要時，可達到最大保真度。 PenAI 持續迭代音訊模型（2025 年的公告擴展了語音和轉錄功能），因此請選擇能夠平衡成本、品質和專案控制的模型。 TTS 模型 API 也整合到 彗星API.

有任何生產警告或當前限制嗎？

gpt-4o-mini-tts 有時在較長的音訊檔案上會出現不穩定的情況（例如停頓、音量波動），尤其是在超過 1.5 到 2 分鐘的時候。對於短的 Midjourney 片段（少於 20 到 30 秒）來說，這很少會成為問題，但對於較長的旁白或長篇畫外音，請進行測試並驗證。如果您希望旁白較長，最好 tts-1-hd 或將文字分成較短的塊並仔細地拼接它們。

其他選項工具

背景音樂和音效： MM Audio（社群工具）、Udio、MagicShot 或 Runway 等工具可以快速創建匹配的背景音樂和情境敏感的音效；社群貼文和教學展示了創作者如何將這些內容融入 MidJourney 影片中。為了達到製作級的控制效果，可以產生 Stem（音樂 + 氛圍音）並匯出進行混音。

唇形同步和臉部動畫： 如果影片中包含人物或臉部特寫，並且您希望嘴部動作逼真，可以考慮使用 Wav2Lip（開源）或 Sync.so、Synthesia 等商業 API 或其他唇形同步服務。這些工具會分析音頻，產生音素對齊的嘴形，並將其應用於目標面部或幀序列。

如何用OpenAI的TTS產生語音檔（實用程式碼）？

以下是 CometAPI 呼叫格式的兩個實際範例，它們使用 OpenAI 的 TTS 端點產生 MP3（或 WAV）。您可以根據您的 CometAPI 帳戶和 SDK 更新調整語音名稱和串流標誌。

⚠️ 替換 YOUR_CometAPI_API_KEY 使用您的 API 金鑰。先用一個短語進行測試。請參閱
CometAPI 中的音訊模型 DOC.

範例 A — 快速 `curl` （命令列）

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

如果您更喜歡 WAV：

將輸出檔名更改為 narration.wav，並且（如果可用）在正文中指定音訊格式參數（某些 SDK 允許 format: "wav").

為什麼這有效： TTS 端點接受文字並返回二進位音訊文件，您可以儲存並稍後將其與視訊合併。使用 voice instructions （如果可用）來引導韻律和風格。

範例 B：使用請求的 Python

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

如何將 TTS 音訊與 MidJourney 視訊檔案結合？

從 MidJourney 匯出視頻

MidJourney 的影片/動畫功能可讓您建立 MP4/GIF 或從圖庫匯出影片 - 使用「動畫」功能或圖庫匯出選項來取得本機檔案。

與 ffmpeg 簡單合併

如果你已經有了 video.mp4 （無音訊或占位音訊）和 voiceover.wav （或mp3），使用ffmpeg合併：

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

注意：

-shortest 在較短的串流處停止；如果您希望視訊播放的時間比音訊播放的時間長（反之亦然），請省略。
-c:v copy 保持視訊串流不變。
-c:a aac 將音訊編碼為 AAC（相容 MP4）。
使用 -af "volume=... 用於響度匹配的濾鏡。
為了獲得專業的最終效果，請在 DAW 中開啟音訊主幹來調整時間、EQ 和壓縮。

修剪或填充音訊以達到精確的視訊長度

如果音訊比視訊長，並且您想要精確剪輯：

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

如果音訊較短，並且您希望背景音樂填充剩餘部分或循環播放語音，請使用 adelay, apad或與背景音樂混合。例如：循環播放旁白以符合 20 秒的片段（通常不建議用於語音）：

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

如何偏移音訊（如果需要稍後開始旁白）

如果您的旁白應該在短暫的沉默後開始，或者您有多個片段需要偏移，請使用 -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 將第二次輸入延遲 0.5 秒。

對於多個音軌或非常精確的放置使用 -filter_complex - adelay 以小段形式產生 TTS（每個檔案一個句子）：

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

這裡 adelay 只需幾毫秒（2500 毫秒 = 2.5 秒），因此您可以將文字與視覺提示精確對齊。

保持旁白簡短且與場景相符：由於 Midjourney 的片段通常較短且風格化，因此建議使用簡潔的引子（約 5-15 秒），並與視訊節奏保持一致。將文字拆分成短句，並配合視覺剪輯或動作提示。

如何混合背景音樂+旁白+音效

使用 filter_complex 混合多個音訊輸入並控制音量。例如：

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

這混合了敘述（narration.mp3) 和音樂 (music.mp3)，同時將音樂音量調低，使其低於人聲。您也可以透過側鏈濾波器運行動態閃避（使音樂在旁白播放時淡入淡出），或在 DAW 中進行編輯以實現精確的淡入淡出效果。

高級編輯

劇本和節奏

編寫緊湊的腳本並標記視覺提示（時間碼或幀號），以便 TTS 輸出與場景變化保持一致。
使用短句以獲得更好的自然節奏；如果您需要長篇閱讀，請插入有意的停頓或分成多個 TTS 調用。

匹配運動、強度和紋理

使用瞬態音效來強調視覺剪輯或攝影機移動。
對於緩慢的、繪畫般的旅程中運動（--motion low)，偏好微妙的氛圍和較長的混響尾音。
對於高動作（--motion high)，使用強勁的音效、節奏相符的音樂和短混響。

轉向語音風格

使用指導性提示來引導 gpt-4o-mini-tts — 例如， "instructions": "Calm, conversational, slight warmth, medium speed" 或將該指令作為文字有效負載的一部分。例如：

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

請注意：不同 SDK 版本的確切參數名稱有所不同 - 請測試您的 SDK 支援的欄位。

聲音設計技巧

添加低音量的床軌（音樂）並在語音期間進行側鍊或閃避。
使用短暫的呼嘯聲、上升聲或衝擊音效，並與視覺過渡保持一致。音效應簡短明快。
標準化語音（-1 dBFS）並輕微壓縮（比例 2:1）以確保跨平台的響度一致。
對於社交平台，使用 AAC-LC 音訊和 H.264 視訊對最終視訊進行編碼以實現相容性。

我可以讓 MidJourney 影片中的角色對生成的聲音「說話」（口型同步）嗎？

是的——使用唇形同步模型將 TTS 音訊中的音素映射到口型運動幀。兩種常見的方法有：

使用 Wav2Lip 等開放工具（本地或主機）

Wav2Lip 可將語音與口部動作對齊，可在本機或透過託管的 GUI 運作。典型工作流程：

從 MidJourney 匯出影片或一系列影格（影像序列）。
產生語音檔案（OpenAI TTS）。
運行 Wav2Lip 輸出口形與音訊相符的新影片。

Wav2Lip 非常適合 1:1 口部對齊，並且是開源的；您可能需要進行一些後期處理以進行視覺潤色。

使用商業 API 實現一步式唇形同步

Sync.so、Synthesia 等服務提供 API/GUI 管道，可同時處理語音和唇形同步/配音，有時甚至支援多語言配音。這些服務速度更快，技術含量更低，但屬於付費服務，並且可能限制精細控制。

關於寫實的實用筆記

完美的真實感通常需要微表情、眨眼和頭部運動——一些唇形同步服務會自動添加這些功能；而其他一些則需要手動調整。
如果角色是風格化的（非照片級），那麼小的口型同步錯誤就不太明顯；對於特寫鏡頭，則需要花時間在 DAW + 面部修飾流程上。

入門

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

在 CometAPI 中使用 MidJourney 視頻

彗星API 提供遠低於官方價格的價格，幫助您整合 Midjourney API 旅程中影片 API歡迎註冊並體驗 CometAPI。首先，探索模型的功能游乐场並諮詢 API指南詳細說明。造訪前，請確保您已登入 CometAPI 並取得 API 金鑰。 CometAPI 支援解析度 SD 480P 和 HD 720P。

呼叫方式：使用參數videoType=vid_1.1_i2v_720。

Midjourney V1 影片生成： 開發者可以透過 RESTful API 整合視訊生成功能。典型的請求結構（範例）

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

音訊模型

開發者可以透過 CometAPI 存取 GPT 4o 音訊和 tts-1，最新模型版本（端點：gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) 始終與官方網站同步更新。首先，探索模型的功能游乐场並諮詢音訊 API 指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

結論

為 Midjourney 影片添加語音和聲音非常簡單：產生一個簡短的 Midjourney 片段，使用 OpenAI 的可控 TTS 合成簡短的旁白，然後使用 ffmpeg。新 gpt-4o-mini-tts 模型為您提供強大的風格控制，而 Midjourney 的 --video 工作流程產生乾淨的短動畫 - 非常適合社交、原型或概念工作。

「Midjourney 影片」到底是什麼？為什麼需要外部音訊？

Midjourney 的影片功能目前可以製作什麼

Midjourney 影片的基本規則和限制是什麼？

為什麼應該要加入語音、音樂和音效

為 MidJourney 視訊添加語音和聲音的最簡單工作流程是什麼？

快速的一段食譜

為什麼這種分離（視覺與音訊）很重要

我應該如何製作影片的 Midjourney 提示？

我應該考慮哪些 OpenAI TTS 模型以及為什麼？

目前有哪些可用的 TTS 選項？

有任何生產警告或當前限制嗎？

其他選項工具

如何用OpenAI的TTS產生語音檔（實用程式碼）？

範例 A — 快速 `curl` （命令列）

範例 B：使用請求的 Python

如何將 TTS 音訊與 MidJourney 視訊檔案結合？

從 MidJourney 匯出視頻

與 ffmpeg 簡單合併

修剪或填充音訊以達到精確的視訊長度

如何偏移音訊（如果需要稍後開始旁白）

如何混合背景音樂+旁白+音效

高級編輯

劇本和節奏

匹配運動、強度和紋理

轉向語音風格

聲音設計技巧

我可以讓 MidJourney 影片中的角色對生成的聲音「說話」（口型同步）嗎？

使用 Wav2Lip 等開放工具（本地或主機）

使用商業 API 實現一步式唇形同步

關於寫實的實用筆記

入門

在 CometAPI 中使用 MidJourney 視頻

音訊模型

結論

閱讀更多

一個 API 中超過 500 個模型

如何為旅途中的視訊添加語音和聲音

「Midjourney 影片」到底是什麼？為什麼需要外部音訊？

Midjourney 的影片功能目前可以製作什麼

Midjourney 影片的基本規則和限制是什麼？

為什麼應該要加入語音、音樂和音效

為 MidJourney 視訊添加語音和聲音的最簡單工作流程是什麼？

快速的一段食譜

為什麼這種分離（視覺與音訊）很重要

我應該如何製作影片的 Midjourney 提示？

我應該考慮哪些 OpenAI TTS 模型以及為什麼？

目前有哪些可用的 TTS 選項？

有任何生產警告或當前限制嗎？

其他選項工具

如何用OpenAI的TTS產生語音檔（實用程式碼）？

範例 A — 快速 curl （命令列）

範例 B：使用請求的 Python

如何將 TTS 音訊與 MidJourney 視訊檔案結合？

從 MidJourney 匯出視頻

與 ffmpeg 簡單合併

修剪或填充音訊以達到精確的視訊長度

如何偏移音訊（如果需要稍後開始旁白）

如何混合背景音樂+旁白+音效

高級編輯

劇本和節奏

匹配運動、強度和紋理

轉向語音風格

聲音設計技巧

我可以讓 MidJourney 影片中的角色對生成的聲音「說話」（口型同步）嗎？

使用 Wav2Lip 等開放工具（本地或主機）

使用商業 API 實現一步式唇形同步

關於寫實的實用筆記

入門

在 CometAPI 中使用 MidJourney 視頻

音訊模型

結論

閱讀更多

一個 API 中超過 500 個模型

範例 A — 快速 `curl` （命令列）