Midjourney 进军视频生成令人兴奋:它将静态图像变成可循环播放的短动画片段,为叙事和以运动为驱动的内容打开大门。不过,在 Midjourney 提供内置且完善的音轨之前(如果它会提供的话),创作者必须使用 AI 音频工具与传统编辑器的组合,将音频拼接到静音的视频输出上。本文将介绍当前的生态(工具、流程、技巧以及法律边界),并提供一个逐步的、可用于生产的工作流程,用于为 Midjourney 视频片段添加人声与声音。
什么是“Midjourney 视频”,为什么需要外置音频?
Midjourney 视频功能当前能产出什么
Midjourney 的视频功能会将生成或上传的图像转化为短动画片段(初始 5 秒,可按步进扩展),强调的是运动和镜头/主体移动,而非同步音频或对口型对话。该工具旨在生成视觉丰富的短循环,而不是完备的视听叙事。这意味着你导出的每个 Midjourney 视频都是静音的,必须在后期制作中配上音频,才能成为超越“动态图像”的作品。
Midjourney 视频的基本规则与限制是什么?
Midjourney 的视频功能会将一张起始图像转换为短动画片段(默认 5 秒),可选择将总时长延长至 21 秒,支持选择“Low”或“High”运动、循环以及调整批量大小。视频可下载为 .mp4,Midjourney 为 Discord 或 API 提示词提供了 --video 参数(以及 --motion low|high、--loop、--end、--bs #、--raw --end 和 --bs 参数——详见Midjourney 官方文档)。分辨率为 SD(480p),并提供 HD(720p);批量大小与运动设置会影响 GPU 时间与成本。
**实用要点:**Midjourney 片段较短(5–21 秒),因此请将解说与音频规划在该区间内——或准备拼接多个片段。从 Midjourney 的 Create 页面下载 Raw Video (.mp4),以获得便于后期处理的最佳质量源文件。
为什么要添加人声、音乐与音效(SFX)
添加音频:
- 提供上下文与叙事(旁白/解说),让抽象的画面更具沟通性。
- 设定情绪基调(音乐选择),提升观众留存。
- 让 AI 画面更贴近现实(声音设计、拟音 Foley、环境音床)。
- 让内容适配 TikTok、YouTube 或 Reels 等对音频至关重要的平台。
为 MidJourney 视频添加人声与声音的最简流程是什么?
一段话速览
- 在 MidJourney 中生成你的视频或动画帧(Gallery → Animate / Video 功能)。
- 导出/下载生成的视频(MP4/GIF)。
- 使用 OpenAI 的 TTS(例如
gpt-4o-mini-tts或其他 TTS 模型)生成旁白,并导出为 WAV/MP3。 - 使用 AI 音频工具创建背景音乐和音效(如 MM Audio、Udio 或 Runway 等)。
- 在 DAW 中对齐并混音(Reaper、Audacity、Logic,或直接用 ffmpeg 做简单合并)。
- 如果视频包含人脸且需要口型与语音匹配,可选用 AI 口型同步(Wav2Lip、Sync.so 及商用服务)。
为什么要将视觉与音频分离处理
MidJourney 专注于视觉创意与运动设计;音频设计属于另一套技术栈(语音生成、音频设计、同步)。分离处理能让你在不与视觉生成器“较劲”的前提下,获得对声音角色、节奏、声音设计与母带处理的更大掌控力。
如何为视频编写 Midjourney 提示词?
你可以从图库中的任意图像创建视频,或在 Imagine 栏粘贴一个公开可访问的图像 URL,并添加 --video 参数(在 Discord 或 API 中)。生成后你可以直接从 Midjourney 的 Create 页面或在 Discord 中下载 MP4(Raw 或 Social 版本)。
一个使用已上传图像作为起始帧的简单 Discord 风格示例:
<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw
注意:
- 将图像 URL 放在开头,以使用它作为起始帧。
- 添加
--video以及运动标志(--motion low或--motion high)。 - 如果只需要单个输出,使用
--bs 1(节省 GPU 时间)。 - 如果想要更少风格化、更确定性的运动,使用
--raw。
如果视频短于你的解说长度,你可以在 Midjourney 中延长视频(可每次+4 秒,最多至 21 秒),或剪裁/循环音频以适配。请记录精确时长(秒与毫秒),以便对齐解说与音效。Midjourney 在 Create 页面与 Discord 中提供“Download Raw Video”选项;请以此作为后期的起始文件。
我应该考虑哪些 OpenAI TTS 模型?为什么?
当前可用的 TTS 选项有哪些?
OpenAI 提供多种 TTS 选项:历史上有 tts-1 / tts-1-hd,以及更具可控性的新版 gpt-4o-mini-tts。gpt-4o-mini-tts 强调可控性(你可以指示语气、节奏、情感),适合灵活、富表现力的语音生成;tts-1 和 tts-1-hd 则是高质量、较传统的 TTS 选择。当你需要控制“如何说”(风格、氛围)时使用 gpt-4o-mini-tts;当风格可控性不那么关键但希望获得最高保真度时选择 tts-1-hd。OpenAI 持续迭代音频模型(2025 年的公告扩展了语音与转写能力),因此请根据项目的成本、质量与可控性平衡来选型。tts 模型 API 也已集成到 CometAPI 中。
有哪些生产注意事项或当前限制?
gpt-4o-mini-tts 在较长音频(约 1.5–2 分钟以上)时偶尔可能出现停顿、音量波动等不稳定性。对于短的 Midjourney 片段(小于约 20–30 秒)通常问题不大,但若用于更长的解说或长篇旁白,请测试验证。如果预计旁白较长,建议优先选用 tts-1-hd,或将文本拆分为更短的片段并谨慎拼接。
其他可选工具
**背景音乐与音效(SFX):**如 MM Audio(社区工具)、Udio、MagicShot 或 Runway 等工具能快速生成匹配的背景音乐与情境音效;社区帖与教程展示了创作者如何将它们与 MidJourney 视频融合。若需要生产级控制,请生成多轨(音乐 + 环境)并导出用于混音。
**口型同步与面部动画:**如果视频包含角色或面部特写并希望口型逼真,可考虑使用开源 Wav2Lip 或 Sync.so、Synthesia 等商用 API。它们会分析音频生成与音素对齐的口型形状,并应用到目标人脸或帧序列。
如何用 OpenAI 的 TTS 生成语音文件(上手代码)?
以下是两个来自 CometAPI 调用格式的实用示例,可通过 OpenAI 的 TTS 端点生成 MP3(或 WAV)。你可以根据 CometAPI 账号与 SDK 更新调整语音名称与流式标志。
⚠️ 将
YOUR_CometAPI_API_KEY替换为你的 API Key。先用短语句测试。参考
CometAPI 中的音频模型文档。
示例 A — 快速 curl(命令行)
curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
-H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"voice": "alloy",
"input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
}' \
--output narration.mp3
如果更偏好 WAV:
- 将输出文件名改为
narration.wav,并(如可用)在请求体中指定音频格式参数(部分 SDK 支持format: "wav")。
**原理:**TTS 端点接受文本并返回二进制音频文件,稍后你可以将其保存并与视频合成。使用 voice 与 instructions(如可用)来引导语调与风格。
示例 B:使用 requests 的 Python
import os, requests
API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."
resp = requests.post(
"https://api.cometapi.com/v1/chat/completions",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-4o-mini-tts",
"voice": "alloy",
"input": text,
"format": "mp3"
},
stream=True,
)
resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
for chunk in resp.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print("Saved voiceover.mp3")
如何将 TTS 音频与 MidJourney 视频文件合成?
从 MidJourney 导出视频
MidJourney 的 Video/Animate 功能允许你创建 MP4/GIF,或从图库导出视频——使用 “Animate” 功能或图库导出选项获取本地文件。
使用 ffmpeg 简单合并
如果你已有 video.mp4(无音频或占位音轨)与 voiceover.wav(或 mp3),使用 ffmpeg 合并:
# Replace or add audio, re-encode audio to AAC; keep video stream as-is
ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4
注意:
-shortest会在较短的流结束时停止;如果希望视频长于音频(或反之),请去掉该参数。-c:v copy保持视频流不变。-c:a aac将音频编码为 AAC(与 MP4 兼容)。- 使用
-af "volume=...滤镜进行响度匹配。 - 若需专业级定稿,请在 DAW 中打开各音频轨,以调整时序、EQ 与压缩。
将音频裁剪或填充到与视频长度完全一致
若音频长于视频且需要精确截断:
ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4
若音频较短,希望背景音乐填充剩余时长或循环语音,可使用 adelay、apad,或与背景轨混合。示例:将旁白循环至 20 秒(不太建议对人声这样做):
ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4
如何设置音频偏移(当旁白需要稍后开始时)
如果旁白应在短暂静默后开始,或需要将多个片段按偏移放置,使用 -itsoffset:
ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4
-itsoffset 0.5 表示第二个输入延迟 0.5 秒。
对于多音轨或需要更精确的放置,在生成 TTS 时将文本拆分为小段(每句一个文件)后,使用 -filter_complex 搭配 adelay:
ffmpeg -i mid.mp4 \
-i line1.mp3 -i line2.mp3 -i sfx.wav \
-filter_complex \
"adelay=0|0; \
adelay=2500|2500; \
adelay=1200|1200; \
amix=inputs=3" \
-map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4
保持旁白简短且贴合场景:由于 Midjourney 片段短且常带风格化,建议使用简洁的引子(约 5–15 秒),匹配视频的节奏。将文本拆成短句,配合画面转场或运动节拍“呼吸”。
如何混合背景音乐 + 旁白 + 音效
使用 filter_complex 混合多条音频输入并控制音量。示例:
ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
-filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
-map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4
该命令将旁白(narration.mp3)与音乐(music.mp3)混合,并将音乐电平调低以“垫”在旁白之下。你也可以通过侧链滤镜实现动态压低(在旁白出现时降低音乐音量),或在 DAW 中做更精细的淡入淡出。
高级编辑
脚本与节奏
- 写精炼脚本,并标注视觉提示(时间码或帧号),让 TTS 输出与场景变化对齐。
- 使用短句以获得更自然的语势;若必须长句,请加入有意的停顿或拆分为多次 TTS 调用。
匹配运动、强度与质感
- 使用瞬态音效(SFX)强化视觉切换或镜头运动。
- 对于偏慢、绘画质感的 Midjourney 运动(
--motion low),优先选择细腻的环境氛围与较长的混响尾音。 - 对于高动感(
--motion high),使用有冲击力的音效、与节奏匹配的音乐击打,以及较短的混响。
控制声音风格
使用指令化提示引导 gpt-4o-mini-tts——例如 "instructions": "Calm, conversational, slight warmth, medium speed",或将该说明包含在文本载荷中。例如:
{
"model":"gpt-4o-mini-tts",
"voice":"alloy",
"instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
"input":"In the neon city, dawn felt electric..."
}
注意:不同 SDK 版本的参数名可能不同——请测试你的 SDK 支持的字段。
声音设计技巧
- 添加低音量的底层音乐(bed track),在旁白出现时通过侧链/ducking 压低音乐。
- 在视觉转场处对齐短促的“呼啸”“上升”或“冲击”音效。保持音效短而利落。
- 将人声标准化至 -1 dBFS,并进行轻度压缩(比率 2:1),确保各平台响度一致。
- 用于社交平台时,最终视频建议使用 H.264 视频与 AAC-LC 音频以获得良好兼容性。
我能让 MidJourney 视频中的角色“开口说话”(与生成语音口型同步)吗?
可以——使用口型同步模型将 TTS 音频的音素映射到口部运动帧。常见方法有两类:
使用 Wav2Lip 等开源工具(本地或托管)
Wav2Lip 会将语音对齐到口部运动,可本地运行或使用托管 GUI。典型流程:
- 从 MidJourney 导出视频或帧序列(图像序列)。
- 生成语音文件(OpenAI TTS)。
- 运行 Wav2Lip,输出口型与音频匹配的新视频。
Wav2Lip 在逐字口型对齐方面表现出色且开源;你可能需要一些后期处理来优化视觉质感。
使用商用 API 实现一站式口型同步
像 Sync.so、Synthesia 等服务提供 API/GUI 流水线,同时处理语音与口型同步/配音,有时还包含多语言能力。它们通常更快、技术门槛更低,但为付费服务,且精细控制可能受限。
关于真实感的实用说明
- 逼真效果往往需要微表情、眨眼与头部运动——部分口型服务会自动添加,其他情况则需要手动微调。
- 如果角色是风格化(非写实),小的口型误差不太显眼;若是面部特写,则需要在 DAW 与面部润饰流水线上投入更多时间。
入门
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ AI 模型(如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)聚合到单一、对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 显著简化了在应用中集成 AI 能力的过程。无论你要构建聊天机器人、图像生成器、音乐创作或数据驱动分析,CometAPI 都能帮助你更快迭代、控制成本、保持供应商无关性,同时利用 AI 生态的最新突破。
在 CometAPI 中使用 MidJourney Video
CometAPI 提供远低于官方价格的方案,帮助你集成 Midjourney API 与 Midjourney Video API,欢迎注册体验 CometAPI。开始之前,请先在Playground体验模型能力,并查阅API 指南获取详细说明。访问前请确保你已登录 CometAPI 并获得 API Key。CometAPI 支持分辨率 SD 480P 与 HD 720P。
调用方式:使用参数 videoType=vid_1.1_i2v_720。
Midjourney V1 Video**生成:**开发者可以通过 RESTful API 集成视频生成。一个典型请求结构(示例):
curl --
location
--request POST 'https://api.cometapi.com/mj/submit/video' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'
音频模型
开发者可通过 CometAPI 访问 GPT 4o audio 与 tts-1,端点始终与官网保持最新版本(endpoint:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1)。开始之前,请先在Playground体验模型能力,并查阅音频 API 指南获取详细说明。访问前请确保你已登录 CometAPI 并获得 API Key。CometAPI 提供远低于官方价格的方案,便于你集成使用。
结论
为 Midjourney 视频添加人声与声音并不复杂:生成一个短的 Midjourney 片段,使用 OpenAI 可控性强的 TTS 合成简短旁白,然后用 ffmpeg 合成与润色。全新的 gpt-4o-mini-tts 在风格控制方面表现出色,而 Midjourney 的 --video 工作流能产出干净的短动画——非常适合社交媒体、原型或概念作品。
