如何在 Midjourney API 中建立影片?

CometAPI
AnnaDec 29, 2025
如何在 Midjourney API 中建立影片?

Midjourney 進軍影片領域,是 2025 年最重大的創意科技故事之一。這款深受喜愛、以影像為核心的工具,現已加入「Image-to-Video」工作流程,可將靜態圖片轉換成短篇動畫片段——而且系統正在迅速演進。

Midjourney 的影片能力是一種 image-to-video 工作流程,透過「Animate」流程將單張影像動畫化為短片,預設產出 5 秒片段,並允許延長至約 21 秒。此功能於 2025 年中以 Midjourney 的 V1 影片模型推出,並透過 CometAPI 的 Midjourney Video V1 API 提供。

什麼是 Midjourney V1

Midjourney V1 的功能與如何呈現給使用者

Midjourney 的 V1 影片模型將單張靜態圖片(可為 Midjourney 內生成或外部託管的圖片)轉換為短篇動畫片段——預設約 5 秒——可使用自動或手動動畫模式與動作強度旗標(--motion low / --motion high)。使用者可每次以 4 秒為增量延長片段(最多約 21 秒),並可控制批次大小、循環與結尾影格;影片輸出為 MP4。Midjourney 的 V1 影片模型是一個針對短篇、風格化、可循環片段優化的影像轉影片模型。V1 模型的典型特性包括:

  • 基礎片段長度約 5 秒,具受控延長機制(每次 4 秒增量,至既定上限)。
  • 著重保留來源影像的藝術風格(筆觸、色彩、氛圍)。
  • 為快速迭代所做的解析度與品質取捨;V1 偏向社群與網頁內容,而非完整電影級輸出。

這些限制會影響你設計素材與提示詞的方式:V1 更適合用於精簡的動態、動態化的靜態圖、產品主視覺循環,或短角色片段,而非長篇場景。

CometAPI 如何呈現 Midjourney Video 模型

CometAPI 是一個多模型閘道,將數百個 AI 模型(文字、影像、音訊,以及現在的 image-to-video)整合於單一 REST 介面之下。其 Midjourney Video 服務封裝了 Midjourney 的 V1 影片能力,讓工程師可透過程式呼叫進行 image-to-video 生成,而不必只依賴 Discord/網頁互動。這對於自動化創意流程、打造概念驗證,以及將短篇動畫素材整合至應用或內容製作工作流程非常實用。

CometAPI 的 Midjourney Video 可讓開發者驗證、呼叫 /mj/submit/video 端點並傳入參數,例如 prompt(可包含起始影像 URL)、videoType(例如 vid_1.1_i2v_480)、mode("fast" 或視方案允許使用 "relax")、以及 animateMode("automatic"/"manual")。與直接整合 Midjourney 的 Discord 為主工作流程相比,CometAPI 具更低的單次呼叫價格與便利性(單一 API 金鑰 + REST 介面)。

在呼叫 API 之前我該如何準備?

我需要哪些憑證與帳戶?

  1. 在 CometAPI 註冊,並於帳戶儀表板建立 API 金鑰(CometAPI 使用類似 sk-xxxxx 的 bearer token)。
  2. 若計畫使用外部影像作為起始影格,請確保你的影像素材已上線(可公開存取的 URL)。Midjourney 在外部影像→影片流程中需要可存取的 URL。

前期需要做出的決策

  • 起始影像 — 選擇主體明確、構圖清晰的影像;長寬比會影響最終影片的解析度/比例(Midjourney 會將起始長寬比映射至 SD/HD 像素尺寸)。
  • 動作風格 — 決定低動作 vs 高動作(--motion low vs --motion high),以及你要自動推理還是手動控制鏡頭/主體動作。
  • 長度與批次大小 — 預設為 5 秒;可延長至約 21 秒。批次大小預設為 4(Midjourney 會返回 4 個變體),但你可請求 1 或 2 以節省算力。
  • 解析度 — V1 預設主要為 SD(480p);HD(720p)需要參數描述,例如 vid_1.1_i2v_480。

如何呼叫 CometAPI 的 Midjourney 影片端點(逐步範例)?

最小請求內容是什麼?

至少需要傳送:

  • prompt: 起始影像 URL 與可選的文字動態提示(例如,"https://.../frame.png add a dog running from left to right")。
  • videoType: 例如 vid_1.1_i2v_480
  • mode: "fast"(或如果你的方案允許則為 "relax")。
  • animateMode: "automatic" 或 "manual"。

以下是一個示範 curl,展示如何 POST 到 https://api.cometapi.com/mj/submit/video. 這是一個經過整理、可直接複製使用的 curl 範例,改寫自 CometAPI 的示例:

curl --location --request POST 'https://api.cometapi.com/mj/submit/video' \
  --header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "prompt": "https://cdn.midjourney.com/example/0_0.png A peaceful seaside scene — camera slowly zooms out and a gull flies by",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
  }'

Python 範例(requests)

若你偏好 Python,下方是一個使用 requests 的穩健範例,用於提交影片工作並輪詢完成(請替換占位符)。這是一個實務模式:提交 → 輪詢 → 下載。下方範例刻意簡化,實際上線應依你的應用的非同步/工作系統進行調整。

import time
import requests

API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

payload = {
    "prompt": "https://cdn.midjourney.com/example/0_0.png A calm city street — camera pans left, rain falling",
    "videoType": "vid_1.1_i2v_480",
    "mode": "fast",
    "animateMode": "manual",
    "motion": "low",
    "bs": 1
}

# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")

# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60):  # poll up to ~60 times
    s = requests.get(status_url, headers=HEADERS)
    s.raise_for_status()
    st = s.json()
    if st.get("status") == "completed":
        download_url = st.get("result", {}).get("video_url")
        print("Video ready:", download_url)
        break
    elif st.get("status") in ("failed", "error"):
        raise RuntimeError("Video generation failed: " + str(st))
    time.sleep(2)

我如何為 Midjourney/CometAPI 影片加入音訊(語音、音樂、音效)?

Midjourney 是否原生產生音訊?

不會——截至 V1,Midjourney 的影片輸出是靜音(不含嵌入音訊的 MP4)。使用者需在外部補上聲音。(也有其他 AI 系統可同時生成音訊/影片,但 Midjourney 的 V1 著重於視覺動態。)

建議的語音與音效添加流程

  1. 文字轉語音(TTS)做旁白/人聲 — 使用 ElevenLabs、Replica 或類似的語音克隆/TTS 服務,從腳本產生語音軌。這些服務能提供自然的語音風格,且有時每分鐘成本較低。(LinkedIn/社群貼文推薦 ElevenLabs 作為輕量的人聲選擇。)
  2. AI 音訊設計工具製作音樂/SFX — 像 MM Audio、Magicshot 或專門的音效生成器可產出符合片段的背景氛圍與效果。社群指南與教學顯示 MM Audio 等音訊 AI 的品質不錯。
  3. 手動 DAW/剪輯(精細控制) — 將生成的 MP4 匯入 DaVinci Resolve/Premiere/Audacity,加入 TTS 音訊、音效並混音。這是精準口型同步與時間控制的最佳途徑。社群教學與 YouTube 影片提供將音訊匹配到 Midjourney 影片的逐步示範。

快速範例:使用 ffmpeg 合成音訊與影片

假設已有 video.mp4(靜音)與 speech.mp3(TTS):

# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4

若要進行更進階的混音(背景音樂 + 對話 + 音效),請先在你的 DAW 輸出單一混音音軌,再依上述方式將其與影片封裝。

如何撰寫動態提示以控制動畫?

動態提示範式

Midjourney V1 的動態提示採自然語言驅動。實用範式:

  • 方向/動作: 「鏡頭向左移動,主體向前行走」
  • 物件動作: 「葉子從樹上落下並向鏡頭飄來」
  • 鏡頭指令: 「慢速推近,輕微視差,2x 速度」
  • 時間質感: 「動作細微、可循環、電影節奏」

先以簡潔的動態句為起點,然後附加風格與節奏形容詞:例如,"start_frame_url animate: 'slow spiral camera, subject bobs gently, loopable', style: 'film grain, cinematic, 2 fps tempo'"。持續試驗與小幅迭代至關重要。

手動 vs 自動動畫

  • 自動:讓模型推斷合理動作。適合快速實驗。
  • 手動:提供明確的鏡頭路徑與主體向量,以獲得一致、可重現的結果——在需要可預測的走位或要匹配真人拍攝素材時特別有用。

如何延長影片、調整批次大小或建立循環?

延長影片長度

生成後,Midjourney(與 CometAPI 等封裝)會提供「Extend」控制項。Midjourney 的介面允許將 5 秒片段每次延長 4 秒(最多約 21 秒)。在程式層面,你可以對同一端點加入 extend 旗標,或提交新的 extend 工作並引用原始片段(CometAPI 的文件在概覽中示範了參數化端點與按鈕)。延長的成本大致與初次生成相當。

建立循環影片或指定結尾影格

  • 要建立循環,可重用起始影格作為結尾影格,或加入 --loop 參數。
  • 若需要不同的結尾影格,請提供另一個影像 URL(作為 end),並確保其長寬比相容。Midjourney 支援 --end 參數。考慮使用 manual 的延長,在延長過程中微調提示以維持連貫性。

批次大小與成本控制

Midjourney 預設會生成多個變體(批次大小 4)。在生產或成本敏感的流程中,可設定 bs:1 以降低算力消耗。Midjourney 的文件包含 SD vs HD 與不同批次大小的 GPU 時間估算(有助於成本預測)。CometAPI 提供具競爭力的定價。

結論

Midjourney 的 V1 影片模型是邁向程式化影片的第一步——設計上較保守,但具潛力。我們預期後續模型更新將改善更長序列、更高保真度,以及更可控的鏡頭機制。作為聚合器的 CometAPI,降低了開發者將 Midjourney 影片整合到應用中時的障礙,無需面對多供應商特定的驗證與並發細節。

開發者可透過 CometAPI 存取 MIdjourney Video API。開始之前,請在 CometAPIPlayground 探索模型能力,並參考 API 指南取得詳細指示。使用前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,協助你完成整合。

準備好了嗎?→ Midjourney 免費試用!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣