旅の途中のビデオに音声とサウンドを追加する方法

CometAPI
AnnaDec 2, 2025
旅の途中のビデオに音声とサウンドを追加する方法

Midjourneyが動画生成技術に参入したことは大きな刺激です。静止画を短いル​​ープ可能なアニメーションクリップに変換することで、ストーリーテリングやモーションドリブンなコンテンツ制作の可能性を広げます。しかし、Midjourneyが洗練されたオーディオトラックを内蔵するまでは(もしそうなるなら)、クリエイターはAIオーディオツールと従来のエディターを組み合わせ、無音の動画出力にオーディオを合成しなければなりません。この記事では、現状(ツール、ワークフロー、ヒント、法的ガイドライン)を説明し、Midjourneyの動画クリップに音声やサウンドを追加するための、制作現場ですぐに使えるワークフローをステップバイステップでご紹介します。

「Midjourney video」とは何ですか?また、なぜ外部オーディオが必要なのですか?

ミッドジャーニーのビデオ機能は現在何を生み出しているのか

Midjourneyの動画機能は、生成またはアップロードされた画像を短いアニメーションクリップ(最初は5秒、段階的に延長可能)に変換します。このクリップは、同期した音声やリップシンクされたセリフではなく、動きやカメラ/被写体の動きを強調します。このツールは、視覚的に豊かな短いループを生成することを目的としており、完成したオーディオビジュアルナラティブを生成するものではありません。つまり、Midjourneyからエクスポートする動画はすべて無音であり、動画以上のものにするには、ポストプロダクションで音声を追加する必要があります。

Midjourney ビデオの基本的なルールと制限は何ですか?

Midjourneyのビデオ機能は、開始画像を短いアニメーションクリップ(デフォルトは5秒)に変換します。長さを最大21秒まで延長したり、「低」または「高」モーションを選択したり、ループしたり、バッチサイズを変更したりといったオプションがあります。ビデオはダウンロード可能です。 .mp4 そしてMidjourneyは --video パラメータ(および --motion low|high, --loop, --end, --bs #, --raw --end, --bs パラメータは Midjourneyの公式ドキュメントDiscordまたはAPIプロンプトの場合は、()を使用してください。解像度はSD(480p)とHD(720p)です。バッチサイズとモーション設定はGPUの時間とコストに影響します。

実用的なポイント: 旅の途中のクリップは短い(5~21秒)ので、ナレーションと音声をその長さに合わせて計画するか、複数のクリップを繋ぎ合わせる準備をしてください。 生のビデオ (.mp4) ポストプロダクションで作業する際に最高の品質を得るには、Midjourney の Create ページから入手してください。

音声、音楽、SFXを追加する理由

オーディオの追加:

  • コンテキストとナレーション(ナレーション)を提供し、抽象的なビジュアルを伝達可能にします。
  • 感情的なトーン(音楽の選択)を設定し、視聴者の記憶を向上させます。
  • AI ビジュアルをリアリズムに基づいて構築します (サウンド デザイン、フォーリー、アンビエント ベッド)。
  • オーディオが不可欠な TikTok、YouTube、リールなどのコンテンツ プラットフォームに対応します。

MidJourney ビデオに音声とサウンドを追加する最も簡単なワークフローは何ですか?

簡単な1段落のレシピ

  1. MidJourney (ギャラリー → アニメーション / ビデオ機能) でビジュアル ビデオまたはアニメーション フレームを生成します。
  2. 作成したビデオ(MP4/GIF)をエクスポート/ダウンロードします。
  3. OpenAIのTTSでナレーションを作成する(例: gpt-4o-mini-tts または他の TTS モデル)を音声化し、WAV/MP3 としてエクスポートします。
  4. AI オーディオ ツール (MM Audio、Udio、Runway などのツールが役立ちます) を使用して、バックグラウンド ミュージックと SFX を作成します。
  5. DAW (Reaper、Audacity、Logic、または単純に ffmpeg を使用して直接マージ) で調整およびミックスします。
  6. ビデオに顔が含まれていて、口を話し声に一致させたい場合は、オプションで AI リップシンクを実行します (Wav2Lip、Sync.so、商用サービス)。

この分離(映像と音声)が重要な理由

MidJourneyはビジュアルクリエイティビティとモーションデザインに重点を置いています。一方、オーディオデザインは異なる技術スタック(音声生成、オーディオデザイン、同期)です。役割を分離することで、ビジュアルジェネレーターと格闘することなく、音声特性、ペース、サウンドデザイン、マスタリングなど、より高度なコントロールが可能になります。

ビデオの Midjourney プロンプトをどのように作成すればよいですか?

ギャラリー内の任意の画像からビデオを作成するか、公開されている画像URLをImagineバーに貼り付けて、 --video パラメータ(DiscordまたはAPI)を使用して生成できます。生成後、Midjourney CreateページまたはDiscordからMP4(Rawまたはソーシャルバージョン)を直接ダウンロードできます。

アップロードされた画像を開始フレームとして使用する簡単な Discord スタイルの例:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

注意:

  • 開始フレームとして使用するには、画像の URL を先頭に配置します。
  • 追加 --video モーションフラグ(--motion low or --motion high).
  • --bs 1 出力が 1 つだけ必要な場合 (GPU 時間を節約)。
  • --raw 様式化を減らして、より決定論的な動きを望む場合。

動画の長さが希望のナレーションより短い場合は、Midjourneyで動画を延長するか(延長ごとに最大4秒、合計21秒まで延長できます)、音声をカット/ループしてナレーションの長さに合わせます。ナレーションと効果音を揃えるため、正確な長さ(秒+ミリ秒)をメモしておいてください。Midjourneyでは、作成ページとDiscordに「Raw Videoをダウンロード」オプションがありますので、これを開始ファイルとして使用してください。

検討すべき OpenAI TTS モデルはどれですか? またその理由は何ですか?

現在利用可能な TTS オプションは何ですか?

OpenAIは複数のTTSオプションを提供しています。歴史的に tts-1 / tts-1-hd そして新しい操縦可能な gpt-4o-mini-ttsを選択します。 gpt-4o-mini-tts モデルは操縦性(トーン、ペース、感情を指示できる)を重視し、柔軟で表現力豊かな音声生成向けに設計されています。 tts-1 および tts-1-hd 高品質でより伝統的なTTSには依然として有力な選択肢です。 gpt-4o-mini-tts コントロールしたいとき テキストは話されているか(スタイル、雰囲気)、そして tts-1-hd スタイルコントロールがそれほど重要でない場合は、最高の忠実度を実現します。penAIはオーディオモデル(2025年に拡張された音声および文字起こし機能の発表)を継続的に改良しているため、プロジェクトのコスト、品質、およびコントロールのバランスが取れたモデルを選択してください。TTSモデルAPIも統合されています。 コメットAPI.

生産上の注意点や現在の制限事項はありますか?

gpt-4o-mini-tts 1.5~2分を超える長い音声ファイルでは、特に不安定になることがあります(一時停止や音量の変動)。旅の途中の短いクリップ(20~30秒未満)では、これはほとんど問題になりませんが、長いナレーションや長編ボイスオーバーの場合は、テストして検証してください。ナレーションが長くなる場合は、 tts-1-hd または、テキストを短いチャンクに分割し、慎重につなぎ合わせます。

その他のオプションツール

バックグラウンドミュージックとSFX: MM Audio(コミュニティツール)、Udio、MagicShot、Runwayなどのツールを使えば、マッチしたBGMと状況に応じた効果音を素早く作成できます。コミュニティスレッドやチュートリアルでは、クリエイターがMidJourneyの動画にこれらの効果音を組み込んでいる様子が紹介されています。プロダクションレベルのコントロールを実現するには、ステム(音楽+アンビエント)を生成し、ミキシング用にエクスポートしましょう。

リップシンクと顔のアニメーション: 動画にキャラクターや顔のクローズアップが含まれており、リアルな口の動きが必要な場合は、Wav2Lip(オープンソース)やSync.so、Synthesiaなどの商用API、その他のリップシンクサービスを検討してください。これらのツールは音声を分析し、音素に合わせた口の形を生成し、対象の顔やフレームシーケンスに適用します。

OpenAI の TTS (実用的なコード) を使用して音声ファイルを生成するにはどうすればよいですか?

以下は、OpenAIのTTSエンドポイントを使用してMP3(またはWAV)を生成するCometAPI呼び出し形式の2つの実用的な例です。CometAPIアカウントとSDKのアップデートに応じて、音声名とストリーミングフラグを変更できます。

⚠️ 置き換え YOUR_CometAPI_API_KEY APIキーを入力してください。まずは短いフレーズでテストしてください。
CometAPI のオーディオモデル DOC.

例A — クイック curl (コマンドライン)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

WAVをご希望の場合:

  • 出力ファイル名を次のように変更します narration.wav、そして(もし可能なら)本文にオーディオフォーマットパラメータを指定します(一部のSDKでは format: "wav").

なぜこれが機能するのか: TTSエンドポイントはテキストを受け取り、保存して後でビデオと結合できるバイナリオーディオファイルを返します。 voice および instructions (利用可能な場合) 韻律とスタイルを調整します。

例B: リクエストを使用するPython

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

TTS オーディオを MidJourney ビデオ ファイルと結合するにはどうすればよいですか?

MidJourneyからビデオをエクスポートする

MidJourney のビデオ/アニメーション機能を使用すると、MP4/GIF を作成したり、ギャラリーからビデオをエクスポートしたりできます。ローカル ファイルを取得するには、「アニメーション」機能またはギャラリーのエクスポート オプションを使用します。

ffmpegを使った簡単なマージ

あなたが既に持っているなら video.mp4 (音声なしまたはプレースホルダー音声)および voiceover.wav (またはmp3)、ffmpegを使用して結合します。

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

注意:

  • -shortest 短いストリームで停止します。ビデオをオーディオよりも長く再生し続けたい場合(またはその逆)は省略します。
  • -c:v copy ビデオ ストリームは変更されません。
  • -c:a aac オーディオを AAC (MP4 と互換性あり) にエンコードします。
  • -af "volume=... 音量を合わせるためのフィルター。
  • プロフェッショナルな仕上がりにするには、DAW でオーディオ ステムを開き、タイミング、EQ、圧縮を調整します。

正確なビデオの長さに合わせてオーディオをトリミングまたはパディングする

オーディオがビデオより長く、正確にカットしたい場合:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

オーディオが短く、残りの部分をBGMで埋めたり、音声をループさせたりしたい場合は、 adelay, apad、またはバックグラウンドトラックとミックスします。例:20秒のクリップに合わせてナレーションをループします(通常は音声には推奨されません)。

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

オーディオをオフセットする方法(ナレーションを後で開始する必要がある場合)

ナレーションを短い沈黙の後に開始する場合や、複数のセグメントをオフセットに配置する場合は、 -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 2 番目の入力を 0.5 秒遅延します。

複数のオーディオトラックや非常に正確な配置には -filter_complex   adelay TTS を小さなセグメント (ファイルごとに 1 つの文) で生成した後:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

ここに adelay 数ミリ秒 (2500 ミリ秒 = 2.5 秒) しかかからないため、テキストを視覚的な手がかりに正確に配置できます。

ナレーションは短く、シーンを意識しましょう。Midjourneyのクリップは短く、スタイリッシュなものが多いため、動画のテンポに合った簡潔なフック(5~15秒程度)を目指しましょう。テキストは、映像のカットやモーションキューと調和する短い文章に分割しましょう。

BGM + ナレーション + SFX のミックス方法

filter_complex 複数のオーディオ入力をミックスし、音量をコントロールします。例:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

これはナレーションをミックスします(narration.mp3)と音楽(music.mp3)を調節しながら、音楽のレベルを低く設定し、ナレーションの音量がボーカルの音量に埋もれないようにします。また、サイドチェーンフィルターを使ってダイナミックダッキング(ナレーション再生時に音楽をフェードアウトさせる)をかけたり、DAWで編集して正確なフェードアウト効果を得ることもできます。

高度な編集

脚本とペース

  • タイトなスクリプトを記述し、視覚的なキュー (タイムコードまたはフレーム番号) をマークして、TTS 出力がシーンの変更に一致するようにします。
  • 自然なリズムを保つには短い文を使用してください。長い文章が必要な場合は、意図的に休止を挿入するか、複数の TTS 呼び出しに分割してください。

動き、強度、質感を合わせる

  • 一時的な SFX を使用して、視覚的なカットやカメラの動きを強調します。
  • ゆっくりとした絵画的な中間の動き(--motion low) は、微妙なアンビエンスと長いリバーブテールを好みます。
  • ハイアクション(--motion high) では、パンチの効いた SFX、テンポに合わせた音楽ヒット、短いリバーブを使用します。

ステアリングボイススタイル

指示的なプロンプトを使用して誘導する gpt-4o-mini-tts — 例: "instructions": "Calm, conversational, slight warmth, medium speed" または、その指示をテキストペイロードの一部として含めることもできます。例:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

注意: 正確なパラメータ名は SDK のバージョンによって異なります。SDK がサポートするフィールドをテストしてください。

サウンドデザインのヒント

  • 低音量のベッド トラック (音楽) を追加し、音声中にサイドチェーンまたはダッキングします。
  • 短いシューッという音、ライザー、インパクトのある効果音を、視覚的なトランジションに合わせて使用​​しましょう。効果音は短く、明瞭なものにしましょう。
  • 音声を正規化(-1 dBFS)し、軽く圧縮(比率 2:1)して、プラットフォーム間で音量を一定に保ちます。
  • ソーシャル プラットフォームの場合、互換性を確保するために、最終ビデオを AAC-LC オーディオと H.264 ビデオでエンコードします。

MidJourney ビデオの登場人物に、生成された音声に合わせて「話す」(リップシンクする)ことはできますか?

はい。リップシンクモデルを使用して、TTS音声の音素を口の動きのフレームにマッピングします。一般的なアプローチは以下の2つです。

Wav2Lipのようなオープンツールを使用する(ローカルまたはホスト)

Wav2Lipは、音声を口の動きに合わせて調整します。ローカルまたはホストされたGUI経由で実行できます。一般的なワークフロー:

  1. MidJourney からビデオまたは一連のフレーム (画像シーケンス) をエクスポートします。
  2. 音声ファイル(OpenAI TTS)を生成します。
  3. Wav2Lip を実行して、口の形がオーディオと一致する新しいビデオを出力します。

Wav2Lip は 1:1 の口の位置合わせに優れており、オープンソースです。見た目を洗練させるには後処理が必要になる場合があります。

ワンステップリップシンクには商用APIを使用する

Sync.so、Synthesiaなどのサービスは、音声とリップシンク/ダビングの両方を扱うAPI/GUIパイプラインを提供しており、多言語ダビングにも対応している場合もあります。これらのサービスは高速で技術的な要件も少ないですが、有料サービスであるため、細かい制御が制限される場合があります。

リアリズムに関する実践的なノート

  • 完璧なリアリズムを実現するには、微妙な表情や瞬き、頭の動きが必要になることがよくあります。リップシンク サービスによっては、これらを自動的に追加するものもあれば、手動で微調整する必要があるものもあります。
  • キャラクターが様式化されている場合(フォトリアリスティックではない)、小さなリップシンクのエラーは目立ちにくくなります。クローズアップの場合は、DAW + 顔のレタッチ パイプラインに時間を費やします。

スタートガイド

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

CometAPI で MidJourney ビデオを使用する

コメットAPI 統合を支援するために、公式価格よりもはるかに安い価格を提供します ミッドジャーニーAPI および 旅の途中のビデオ APICometAPIに登録して体験してみましょう。まずは、モデルの機能を調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得してください。CometAPIはSD 480PとHD 720Pの解像度をサポートしています。

呼び出し方法: パラメーター videoType=vid_1.1_i2v_720 を使用します。

旅の途中 V1 ビデオ世代: 開発者はRESTful APIを介してビデオ生成を統合できます。典型的なリクエスト構造(例)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

音声モデル

開発者はCometAPIを通じてGPT 4oオーディオとtts-1にアクセスできます。最新のモデルバージョン(エンドポイント:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1)は常に公式ウェブサイトで更新されます。まずは、 プレイグラウンド そして相談する オーディオAPIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

結論

Midjourneyビデオに音声とサウンドを追加するのは簡単です。短いMidjourneyクリップを生成し、OpenAIのステアラブルTTSで短いナレーションを合成し、 ffmpeg。 新しい gpt-4o-mini-tts モデルは強力なスタイルコントロールを提供しますが、Midjourneyの --video ワークフローは、ソーシャル、プロトタイプ、コンセプト作業に最適な、簡潔な短いアニメーションを生成します。

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ