如何使用 Midjourney API 生成影片?

CometAPI
AnnaDec 29, 2025
如何使用 Midjourney API 生成影片?

Midjourney 進軍影片領域,是 2025 年最受矚目的創意科技故事之一。最初以圖像為核心、廣受喜愛的工具,現已加入「影像轉影片(Image-to-Video)」工作流程,將靜態圖片轉為短篇動畫——而且系統正快速演進。

Midjourney 的影片功能是一個 image-to-video 工作流程,透過「Animate」流程將單張圖片轉為短片,預設輸出 5 秒,並允許延長至 ~21 秒。此功能於 2025 年中以 Midjourney 的 V1 video 模型推出,並可透過 CometAPI 的 Midjourney Video V1 API 使用。

What is Midjourney V1

What Midjourney V1 does and how it’s surfaced to users

Midjourney 的 V1 video 模型可將單張靜態影像(無論是於 Midjourney 內產生,或外部託管的圖片)轉為短片——預設約 5 秒——可使用自動或手動動畫模式與動態強度旗標(--motion low / --motion high)。使用者可每次以 4 秒為單位延長片段(最長至 ~21 秒),並可控制批次大小、循環與結尾影格;影片輸出為 MP4。Midjourney 的 V1 Video 模型是針對短篇、風格化、可循環片段優化的影像轉影片模型。V1 模型的典型特徵包括:

  • 基礎片長約 5 秒,具可控的延長機制(每次 4 秒,至文件載明上限)。
  • 著重保留來源影像的藝術風格(筆觸、色彩、氛圍)。
  • 為快速迭代而在解析度與品質上取捨;V1 偏向社群與網頁內容,而非完整電影級輸出。

這些限制形塑了素材與提示詞的設計方式:V1 最適合精簡的動態、動態海報、產品主視覺循環或短角色動作,而非長鏡頭情節。

How CometAPI surfaces the Midjourney Video model

CometAPI 是一個多模型閘道,將數百個 AI 模型(文字、影像、音訊,以及現在的 image-to-video)整合在單一 REST 介面之下。其 Midjourney Video 服務包裝了 Midjourney 的 V1 Video 能力,讓工程師能以程式方式呼叫影像轉影片,而不必只依賴 Discord/網頁互動。這對於自動化創意管線、建立概念驗證,以及把短篇動畫素材整合進應用或內容生產流程相當實用。

CometAPI 的 Midjourney Video 可讓開發者驗證、呼叫 /mj/submit/video 端點,並傳遞參數,例如 prompt(可包含起始影像 URL)、videoType(例如 vid_1.1_i2v_480)、mode(fast/relax)、以及 animateMode(automatic/manual)。相較直接整合 Midjourney 偏向 Discord 的工作流程,CometAPI 具備較低的單次呼叫成本與便利性(單一 API key + REST 介面)。

How do I prepare before I call the API?

What credentials and accounts do I need?

  1. 註冊 CometAPI,並在帳號儀表板產生 API key(CometAPI 使用類似 sk-xxxxx 的 bearer token)。
  2. 若計劃使用外部圖片作為起始影格,請確保影像資產已上線(可公開存取的 URL)。對於外部影像→影片流程,Midjourney 需要可觸達的 URL。

What decisions to make up front

  • 起始影像——選擇主體與構圖清晰的圖片;長寬比會影響最終影片的解析度/長寬比(Midjourney 會將起始長寬比映射到 SD/HD 的像素尺寸)。
  • 動態風格——決定 Low 或 High 動態(--motion low vs --motion high),以及是否使用自動推斷或手動控制鏡頭/主體運動。
  • 長度與批次大小——預設為 5 秒;可延長至 ~21 秒。批次大小預設為 4(Midjourney 會回傳 4 個變體),也可請求 1 或 2 以節省算力。
  • 解析度——V1 主要是預設 SD(480p);HD(720p)需要參數描述,例如 vid_1.1_i2v_480。

How do I call CometAPI’s Midjourney video endpoint (step-by-step with examples)?

What’s the minimal request payload?

至少需傳送:

  • prompt:起始影像 URL 與可選的文字動態提示(例如,"![image](https://.../frame.png) add a dog running from left to right")。
  • videoType:例如 vid_1.1_i2v_480
  • mode"fast"(或方案允許時的 "relax")。
  • animateMode"automatic""manual"

以下為一個示範 curl,說明 POST 至[![image](https://api.cometapi.com/mj/submit/video。這是從) CometAPI 範例整理而成、可直接複製的 curl 範例:

curl --location --request POST '![image](https://api.cometapi.com/mj/submit/video') \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Python example (requests)

如果偏好使用 Python,以下是一個以 requests 提交影片任務並輪詢完成狀態的穩健範例(請替換占位符)。這是實務常見模式:提交 → 輪詢 → 下載。範例刻意簡化,生產環境請依應用的非同步/任務系統調整。

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "![image](https://cdn.midjourney.com/example/0_0.png) A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

How do I add audio (voice, music, sound effects) to a Midjourney/CometAPI video?

Does Midjourney produce audio natively?

不會——在 V1 階段,Midjourney 的影片輸出是無聲的(未嵌入音訊的 MP4)。使用者需在外部添加聲音。(也有其他可同時產生影音的 AI 系統,但 Midjourney 的 V1 聚焦於視覺動態。)

  1. 旁白/人聲的文本轉語音(TTS)——使用 ElevenLabs、Replica 或類似的語音克隆/TTS 服務,從腳本生成語音軌。這類服務可產生自然語音風格,且每分鐘成本有時較低。(LinkedIn / 社群貼文推薦 ElevenLabs 作為輕量語音選擇。)
  2. 音樂/音效的 AI 聲音設計工具——如 MM Audio、Magicshot 或專門的 SFX 生成器,可產生符合片段的背景氛圍與音效。社群指南與教學顯示 MM Audio 與其他音訊 AI 可取得良好品質。
  3. 手動 DAW/剪輯軟體流程(精細控制)——將生成的 MP4 匯入 DaVinci Resolve / Premiere / Audacity,加入 TTS、人聲與音效並混音。這是取得精準口型同步與節奏控制的最佳路徑。社群教學與 YouTube 影片提供以 Midjourney 影片對位音訊的逐步做法。

Quick example: combine audio + video with ffmpeg

假設已有無聲的 video.mp4speech.mp3(TTS):

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

若要更進階的混音(背景音樂 + 對白 + 音效),可先在 DAW 匯出單一混音音軌,然後如上將其與影片封裝。

How should I write motion prompts to control animation?

Motion prompt patterns

Midjourney V1 的動態提示以自然語言為主。實用範式:

  • 方向/動作:「鏡頭向左推移,主體向前行走」
  • 物件動作:「樹葉自樹上落下,向鏡頭飄移」
  • 鏡頭指令:「慢速拉近,輕微視差,2x 速度」
  • 時序質感:「動態細膩、可循環、電影節奏」

從簡潔的動態句開始,再附加風格與節奏形容詞:例如,"start_frame_url animate: '緩慢螺旋式鏡頭,主體輕輕上下浮動,可循環', style: '膠片顆粒、電影感、2 fps 節奏'"。嘗試與小步迭代至關重要。

Manual vs automatic animation

  • Automatic:讓模型自行推斷合理動態。適合快速試驗。
  • Manual:提供明確的鏡頭路徑與主體向量以獲得一致、可重現的結果——在需要可預測的編舞或對位實拍素材時很實用。

How do I extend videos, change batch size, or create loops?

Extending video length

在生成後,Midjourney(以及像 CometAPI 這樣的包裝)會提供 "Extend" 控制。Midjourney 的介面允許將 5 秒片段每次延長 4 秒(最長至 ~21 秒)。以程式方式,您可以對相同端點加入 extend 旗標,或提交一個新的 extend 任務並引用原片段(CometAPI 的文件顯示了具參數的端點與按鈕概覽)。預期延長的成本與初次生成相近。

Creating looped videos or specifying end frames

  • 若要循環,重用起始影格作為結尾影格,或加入 --loop 參數。
  • 若要指定不同結尾影格,提供另一個影像 URL(作為 end),並確保長寬比相容。Midjourney 支援 --end 參數。考慮使用 manual 延長以在延伸過程中微調提示,確保連貫性。

Batch size and cost control

Midjourney 預設會生成多個變體(批次大小 4)。在生產或成本敏感的流程中,設定 bs:1 可降低算力消耗。Midjourney 的文件包含 SD 與 HD、不同批次大小的 GPU 時間估算(有助於成本預測)。CometAPI 提供具競爭力的定價。

Conclusion

Midjourney 的 V1 Video 模型是其邁向程式化影片的第一步——設計上相對保守,但前景看好。我們預期後續版本將在長片段、畫質與鏡頭可控性上持續改進。CometAPI 作為聚合平台,降低了開發者整合門檻,讓他們無須處理多家供應商各自的驗證與並發細節,也能將 Midjourney 影片加入應用。

開發者可以透過 CometAPI 存取 Midjourney Video API。開始之前,請在 CometAPIPlayground 探索模型能力,並參考 API 指南取得詳細指示。訪問前請先登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方的價格,協助您快速整合。

Ready to Go?→ 免費試用 Midjourney!

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多