Midjourneyの動画領域への進出は、2025年のクリエイティブテクノロジーにおける最大級のトピックの一つとなっている。画像特化の人気ツールとして始まったMidjourneyは、静止画を短いアニメーションクリップに変換する「Image-to-Video」ワークフローを追加し、システムは急速に進化している。
Midjourneyの動画機能は、単一の画像を「Animate」フローで短いクリップにアニメーション化するイメージ・トゥ・ビデオのワークフローで、デフォルトでは5秒のクリップを生成し、最大で ~21 秒まで拡張できる。この機能は2025年半ばにMidjourneyのV1ビデオモデルとしてリリースされ、CometAPIのMidjourney Video V1 APIを通じて利用可能だ。
Midjourney V1 とは
Midjourney V1でできることとユーザーへの提供形態
MidjourneyのV1ビデオモデルは、単一の静止画像(Midjourney内で生成したもの、または外部ホストの画像)を短いアニメーションクリップ(デフォルト約5秒)に変換する。自動または手動のアニメーションモードと、モーション強度フラグ(--motion low / --motion high)を使用できる。ユーザーは4秒単位でクリップを拡張(最大 ~21 秒まで)でき、バッチサイズ、ループ、エンドフレームを制御できる。出力形式はMP4。MidjourneyのV1 Videoモデルは、短尺でスタイライズされたループ可能なクリップに最適化された「image-to-video」モデルである。V1モデルの典型的な特性は以下のとおり:
- ベースのクリップ長は約5秒で、制御可能な拡張メカニズム(4秒刻み、ドキュメント記載の上限まで)を備える。
- 元画像のアーティスティックなスタイル(筆致、色調、ムード)を重視して保持。
- 高速反復のための解像度と品質のトレードオフ。V1はフルシネマ品質ではなく、主にソーシャルやウェブ向けコンテンツに志向。
これらの制約は、アセットやプロンプトの設計に影響する。V1は、長いシーンではなく、簡潔なモーション、アニメ化した静止画、プロダクトのヒーローループ、短いキャラクターアニメに最適。
CometAPIによるMidjourney Videoモデルの提供方法
CometAPIは、単一のRESTインターフェースの背後で数百のAIモデル(テキスト、画像、音声、そして現在はimage-to-video)へのアクセスを集約したマルチモデルゲートウェイである。CometAPIのMidjourney Videoは、MidjourneyのV1 Video機能をラップし、エンジニアがDiscord/ウェブ操作に頼らずにプログラムでイメージ・トゥ・ビデオ生成を呼び出せるようにする。これにより、クリエイティブパイプラインの自動化、PoCの構築、アプリやコンテンツ制作ワークフローへの短尺アニメーションアセットの統合に有用となる。
CometAPIのMidjourney Videoでは、開発者が認証し、/mj/submit/video エンドポイントを呼び出して、prompt(開始画像URLを含められる)、videoType(例: vid_1.1_i2v_480)、mode(fast/relax)、animateMode(automatic/manual)などのパラメータを渡せる。CometAPIは、MidjourneyのDiscord中心のワークフローを直接統合する場合に比べ、1回あたりの料金が低く、(単一APIキー + RESTインターフェースという)利便性がある。
API を呼び出す前の準備
必要な認証情報とアカウント
- CometAPIにサインアップし、アカウントダッシュボードからAPIキーを発行する(CometAPIは
sk-xxxxxのようなベアラートークンを使用)。 - 外部画像を開始フレームとして使う場合は、画像アセットをオンライン(公開アクセス可能なURL)で用意しておく。Midjourneyは外部のimage→videoワークフローで到達可能なURLを必要とする。
事前に決めておく事項
- 開始画像 — 被写体と構図が明確な画像を選ぶ。アスペクト比は最終的な動画の解像度/比率に影響する(Midjourneyは開始アスペクト比をSD/HDのピクセルサイズにマッピングする)。
- モーションスタイル — Low か High のモーション(
--motion lowvs--motion high)、およびカメラ/被写体の動きを自動推定に任せるか手動で制御するかを決める。 - 長さとバッチサイズ — デフォルトは5秒。最大 ~21 秒まで拡張可能。バッチサイズはデフォルト4(Midjourneyは4つのバリアントを返す)が、計算資源節約のために1または2を指定できる。
- 解像度 — V1は主に標準画質(480p)がデフォルト。HD(720p)はパラメータ指定が必要(例: vid_1.1_i2v_480)。
CometAPI の Midjourney ビデオエンドポイントの呼び出し方法(手順と例)
最小のリクエストペイロードは?
最低限、以下を送る:
prompt: 開始画像URLと任意のテキストによるモーション指示(例:" add a dog running from left to right")。videoType: 例:vid_1.1_i2v_480。mode:"fast"(プランにより"relax")。animateMode:"automatic"または"manual"。
これは[ へのPOSTを示すサンプルの curl だ。以下はCometAPIの例を基にした、整形済みでそのままコピーできる curl の例:
curl --location --request POST ' \
--header 'Authorization: Bearer sk-YOUR_COMETAPI_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
"prompt": " A peaceful seaside scene — camera slowly zooms out and a gull flies by",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}'
Python 例(requests)
Pythonを使う場合は、以下のように requests で動画ジョブを送信し、完了までポーリングする堅牢な例がある(プレースホルダを置き換えること)。実務では「送信 → ポーリング → ダウンロード」という実用的なパターンで、あなたのアプリの非同期/ジョブシステムに合わせて調整するとよい。
import time
import requests
API_KEY = "sk-YOUR_COMETAPI_KEY"
BASE = "https://api.cometapi.com"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
payload = {
"prompt": " A calm city street — camera pans left, rain falling",
"videoType": "vid_1.1_i2v_480",
"mode": "fast",
"animateMode": "manual",
"motion": "low",
"bs": 1
}
# Submit job
r = requests.post(f"{BASE}/mj/submit/video", json=payload, headers=HEADERS)
r.raise_for_status()
job = r.json()
job_id = job.get("id") or job.get("job_id")
# Poll for completion (example polling)
status_url = f"{BASE}/mj/status/{job_id}"
for _ in range(60): # poll up to ~60 times
s = requests.get(status_url, headers=HEADERS)
s.raise_for_status()
st = s.json()
if st.get("status") == "completed":
download_url = st.get("result", {}).get("video_url")
print("Video ready:", download_url)
break
elif st.get("status") in ("failed", "error"):
raise RuntimeError("Video generation failed: " + str(st))
time.sleep(2)
Midjourney/CometAPI の動画に音声(ボイス、音楽、効果音)を追加するには?
Midjourneyは音声をネイティブに出力しますか?
いいえ — V1の時点では、Midjourneyの動画出力は無音(音声非埋め込みのMP4)である。ユーザーは外部で音を追加する。(音声と動画を同時に生成する他のAIシステムも存在するが、MidjourneyのV1は映像の動きにフォーカスしている。)
ボイスとサウンドを追加する推奨パイプライン
- テキスト読み上げ(TTS)によるナレーション/ボイス — ElevenLabs、Replica などの音声クローン/TTSサービスでスクリプトから音声トラックを生成。自然な話し方が得られ、分単価も低い場合がある。(コミュニティ投稿では軽量な選択肢としてElevenLabsがよく推奨される。)
- 音楽/SFXのAIオーディオデザインツール — MM Audio、Magicshot などのツールや、特化した効果音ジェネレーターでクリップに合うバックグラウンドや効果音を生成。コミュニティのガイドやチュートリアルでは、MM Audio ほかのAIから良好な品質が示されている。
- DAW/編集ソフトによる手作業(精密制御) — 生成したMP4をDaVinci Resolve / Premiere / Audacityに取り込み、TTS音声や効果音を追加してミックス。リップシンクとタイミングを厳密に合わせるには最良。コミュニティのチュートリアルやYouTubeには、Midjourney動画に音声を合わせる手順が詳しく示されている。
ffmpeg で音声と動画を結合する簡易例
video.mp4(無音)と speech.mp3(TTS)があると仮定:
# Normalize audio length (optional), then combine:
ffmpeg -i video.mp4 -i speech.mp3 -c:v copy -c:a aac -shortest output_with_audio.mp4
より高度なミックス(BGM + セリフ + 効果音)の場合は、DAWから単一のミックス済み音声トラックをレンダリングし、上記と同様に動画へ多重化する。
アニメーションを制御するモーションプロンプトの書き方
モーションプロンプトのパターン
モーションプロンプトは自然言語で指示する。役立つパターン:
- 方向/アクション: 「カメラが左へドリー移動し、被写体は前進する」
- オブジェクトの動き: 「葉が木から落ち、カメラに向かって漂う」
- カメラ指示: 「ゆっくりズームイン、わずかな視差、2倍速」
- 時間的ニュアンス: 「動きは控えめ、ループ可能、シネマティックなリズム」
まず簡潔なモーション文から始め、スタイルやタイミングの形容を付け足す。例: "start_frame_url animate: 'slow spiral camera, subject bobs gently, loopable', style: 'film grain, cinematic, 2 fps tempo'"。試行と小さな反復が重要。
手動アニメーションと自動アニメーション
- 自動: モデルに妥当な動きを推定させる。素早い実験に最適。
- 手動: 一貫性と再現性のため、カメラパスや被写体ベクトルを明示的に指定。予測可能な振り付けが必要な場合や実写映像に合わせたい場合に有用。
動画の拡張、バッチサイズの変更、ループの作成方法
動画の長さを拡張する
生成後、Midjourney(およびCometAPIのようなラッパー)は「Extend」コントロールを提供する。MidjourneyのUIでは、5秒のクリップを1回の拡張につき4秒ずつ(最大 ~21 秒まで)延長できる。プログラム上は、同じエンドポイントに extend フラグを付けて呼び出すか、元のクリップを参照した新しい extend ジョブを送信する(CometAPIのドキュメントにはパラメータ化されたエンドポイントやボタンが記載されている)。拡張のコストは初回生成と同程度と考えてよい。
ループ動画の作成やエンドフレームの指定
- ループさせるには、開始フレームを終了フレームとして再利用するか、
--loopパラメータを追加する。 - 異なるエンドフレームを使う場合は、別の画像URL(
endとして)を指定し、アスペクト比の互換性を確保する。Midjourneyは--endパラメータをサポート。連続性のため、拡張時にmanualを使ってプロンプトを微調整することを検討するとよい。
バッチサイズとコスト管理
Midjourneyはデフォルトで複数のバリアントを生成する(バッチサイズ4)。本番やコスト重視のフローでは、bs:1 を設定して計算資源を抑える。Midjourneyのドキュメントには、SDとHD、各バッチサイズにおけるGPU時間の目安があり、コスト見積もりに役立つ。CometAPIは競争力のある価格を提供している。
結論
MidjourneyのV1 Videoモデルは、プログラム的な動画生成への最初の公開ステップであり、設計は保守的ながら有望だ。今後は、より長いシーケンス、高い忠実度、より制御可能なカメラリグへと段階的な改善が期待される。CometAPIはアグリゲーターとして、複数プロバイダ固有の認証や同時実行の癖に煩わされることなく、Midjourneyの動画をアプリに組み込みたい開発者の参入障壁を下げる役割を果たす。
開発者は、CometAPIを通じて MIdjourney Video API にアクセスできる。始めるには、CometAPI のPlaygroundでモデルの機能を試し、詳細な手順はAPIガイドを参照してほしい。アクセス前に、CometAPIへログインしてAPIキーを取得していることを確認すること。CometAPIは公式価格よりはるかに低い価格を提供し、統合を支援する。
準備はいいですか?→ Midjourney の無料トライアル!
