Midjourney 進軍影片領域,是 2025 年最受矚目的創意科技故事之一。最初以圖像為核心、廣受喜愛的工具,現已加入「影像轉影片(Image-to-Video)」工作流程,將靜態圖片轉為短篇動畫——而且系統正快速演進。
Midjourney 的影片功能是一個 image-to-video 工作流程,透過「Animate」流程將單張圖片轉為短片,預設輸出 5 秒,並允許延長至 ~21 秒。此功能於 2025 年中以 Midjourney 的 V1 video 模型推出,並可透過 CometAPI 的 Midjourney Video V1 API 使用。
What is Midjourney V1
What Midjourney V1 does and how it’s surfaced to users
Midjourney 的 V1 video 模型可將單張靜態影像(無論是於 Midjourney 內產生,或外部託管的圖片)轉為短片——預設約 5 秒——可使用自動或手動動畫模式與動態強度旗標(--motion low / --motion high)。使用者可每次以 4 秒為單位延長片段(最長至 ~21 秒),並可控制批次大小、循環與結尾影格;影片輸出為 MP4。Midjourney 的 V1 Video 模型是針對短篇、風格化、可循環片段優化的影像轉影片模型。V1 模型的典型特徵包括:
- 基礎片長約 5 秒,具可控的延長機制(每次 4 秒,至文件載明上限)。
- 著重保留來源影像的藝術風格(筆觸、色彩、氛圍)。
- 為快速迭代而在解析度與品質上取捨;V1 偏向社群與網頁內容,而非完整電影級輸出。
這些限制形塑了素材與提示詞的設計方式:V1 最適合精簡的動態、動態海報、產品主視覺循環或短角色動作,而非長鏡頭情節。
How CometAPI surfaces the Midjourney Video model
CometAPI 是一個多模型閘道,將數百個 AI 模型(文字、影像、音訊,以及現在的 image-to-video)整合在單一 REST 介面之下。其 Midjourney Video 服務包裝了 Midjourney 的 V1 Video 能力,讓工程師能以程式方式呼叫影像轉影片,而不必只依賴 Discord/網頁互動。這對於自動化創意管線、建立概念驗證,以及把短篇動畫素材整合進應用或內容生產流程相當實用。
CometAPI 的 Midjourney Video 可讓開發者驗證、呼叫 /mj/submit/video 端點,並傳遞參數,例如 prompt(可包含起始影像 URL)、videoType(例如 vid_1.1_i2v_480)、mode(fast/relax)、以及 animateMode(automatic/manual)。相較直接整合 Midjourney 偏向 Discord 的工作流程,CometAPI 具備較低的單次呼叫成本與便利性(單一 API key + REST 介面)。
How do I prepare before I call the API?
What credentials and accounts do I need?
- 註冊 CometAPI,並在帳號儀表板產生 API key(CometAPI 使用類似
sk-xxxxx的 bearer token)。 - 若計劃使用外部圖片作為起始影格,請確保影像資產已上線(可公開存取的 URL)。對於外部影像→影片流程,Midjourney 需要可觸達的 URL。
What decisions to make up front
- 起始影像——選擇主體與構圖清晰的圖片;長寬比會影響最終影片的解析度/長寬比(Midjourney 會將起始長寬比映射到 SD/HD 的像素尺寸)。
- 動態風格——決定 Low 或 High 動態(
--motion lowvs--motion high),以及是否使用自動推斷或手動控制鏡頭/主體運動。 - 長度與批次大小——預設為 5 秒;可延長至 ~21 秒。批次大小預設為 4(Midjourney 會回傳 4 個變體),也可請求 1 或 2 以節省算力。
- 解析度——V1 主要是預設 SD(480p);HD(720p)需要參數描述,例如 vid_1.1_i2v_480。
How do I call CometAPI’s Midjourney video endpoint (step-by-step with examples)?
What’s the minimal request payload?
至少需傳送:
prompt:起始影像 URL 與可選的文字動態提示(例如," add a dog running from left to right")。videoType:例如vid_1.1_i2v_480。mode:"fast"(或方案允許時的"relax")。animateMode:"automatic"或"manual"。
以下為一個示範 curl,說明 POST 至[ CometAPI 範例整理而成、可直接複製的 curl 範例:
curl --location --request POST ' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": " A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Python example (requests)
如果偏好使用 Python,以下是一個以 requests 提交影片任務並輪詢完成狀態的穩健範例(請替換占位符)。這是實務常見模式:提交 → 輪詢 → 下載。範例刻意簡化,生產環境請依應用的非同步/任務系統調整。
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": " A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
How do I add audio (voice, music, sound effects) to a Midjourney/CometAPI video?
Does Midjourney produce audio natively?
不會——在 V1 階段,Midjourney 的影片輸出是無聲的(未嵌入音訊的 MP4)。使用者需在外部添加聲音。(也有其他可同時產生影音的 AI 系統,但 Midjourney 的 V1 聚焦於視覺動態。)
Recommended pipelines to add voice and sound
- 旁白/人聲的文本轉語音(TTS)——使用 ElevenLabs、Replica 或類似的語音克隆/TTS 服務,從腳本生成語音軌。這類服務可產生自然語音風格,且每分鐘成本有時較低。(LinkedIn / 社群貼文推薦 ElevenLabs 作為輕量語音選擇。)
- 音樂/音效的 AI 聲音設計工具——如 MM Audio、Magicshot 或專門的 SFX 生成器,可產生符合片段的背景氛圍與音效。社群指南與教學顯示 MM Audio 與其他音訊 AI 可取得良好品質。
- 手動 DAW/剪輯軟體流程(精細控制)——將生成的 MP4 匯入 DaVinci Resolve / Premiere / Audacity,加入 TTS、人聲與音效並混音。這是取得精準口型同步與節奏控制的最佳路徑。社群教學與 YouTube 影片提供以 Midjourney 影片對位音訊的逐步做法。
Quick example: combine audio + video with ffmpeg
假設已有無聲的 video.mp4 與 speech.mp3(TTS):
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
若要更進階的混音(背景音樂 + 對白 + 音效),可先在 DAW 匯出單一混音音軌,然後如上將其與影片封裝。
How should I write motion prompts to control animation?
Motion prompt patterns
Midjourney V1 的動態提示以自然語言為主。實用範式:
- 方向/動作:「鏡頭向左推移,主體向前行走」
- 物件動作:「樹葉自樹上落下,向鏡頭飄移」
- 鏡頭指令:「慢速拉近,輕微視差,2x 速度」
- 時序質感:「動態細膩、可循環、電影節奏」
從簡潔的動態句開始,再附加風格與節奏形容詞:例如,"start_frame_url animate: '緩慢螺旋式鏡頭,主體輕輕上下浮動,可循環', style: '膠片顆粒、電影感、2 fps 節奏'"。嘗試與小步迭代至關重要。
Manual vs automatic animation
- Automatic:讓模型自行推斷合理動態。適合快速試驗。
- Manual:提供明確的鏡頭路徑與主體向量以獲得一致、可重現的結果——在需要可預測的編舞或對位實拍素材時很實用。
How do I extend videos, change batch size, or create loops?
Extending video length
在生成後,Midjourney(以及像 CometAPI 這樣的包裝)會提供 "Extend" 控制。Midjourney 的介面允許將 5 秒片段每次延長 4 秒(最長至 ~21 秒)。以程式方式,您可以對相同端點加入 extend 旗標,或提交一個新的 extend 任務並引用原片段(CometAPI 的文件顯示了具參數的端點與按鈕概覽)。預期延長的成本與初次生成相近。
Creating looped videos or specifying end frames
- 若要循環,重用起始影格作為結尾影格,或加入
--loop參數。 - 若要指定不同結尾影格,提供另一個影像 URL(作為
end),並確保長寬比相容。Midjourney 支援--end參數。考慮使用manual延長以在延伸過程中微調提示,確保連貫性。
Batch size and cost control
Midjourney 預設會生成多個變體(批次大小 4)。在生產或成本敏感的流程中,設定 bs:1 可降低算力消耗。Midjourney 的文件包含 SD 與 HD、不同批次大小的 GPU 時間估算(有助於成本預測)。CometAPI 提供具競爭力的定價。
Conclusion
Midjourney 的 V1 Video 模型是其邁向程式化影片的第一步——設計上相對保守,但前景看好。我們預期後續版本將在長片段、畫質與鏡頭可控性上持續改進。CometAPI 作為聚合平台,降低了開發者整合門檻,讓他們無須處理多家供應商各自的驗證與並發細節,也能將 Midjourney 影片加入應用。
開發者可以透過 CometAPI 存取 Midjourney Video API。開始之前,請在 CometAPI 的 Playground 探索模型能力,並參考 API 指南取得詳細指示。訪問前請先登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方的價格,協助您快速整合。
Ready to Go?→ 免費試用 Midjourney!
