Gemini/Vertex(Veo)エンドポイントを呼び出すと、Veo 3.1 は動画と同期した音声をネイティブに同時生成します。音声はテキストプロンプト(音声キュー、セリフ、SFX、アンビエンス)で制御でき、同一の生成ジョブがダウンロード可能な MP4 を返します。複数プロバイダを束ねた単一の統合 API を好む場合は、CometAPI からも Veo 3.1 にアクセスできます(CometAPI に Comet キーでアクセスし、veo3.1/veo3.1-pro を指定)。本リリースは、他のメディアモデル(例:OpenAI の Sora 2)に対する直接の競合として位置づけられており、音声のリアリズム、ナラティブ制御、マルチショットの継続性に重点を置いて改良されています。
Veo 3.1 とは?
Veo 3.1 は、Google によるテキストおよび画像→動画モデル「Veo」ファミリーの最新イテレーションです。以前の Veo リリースと比べ、Veo 3.1 はネイティブの音声生成を特に強調しています。つまり、別途のテキスト読み上げ(TTS)やポストプロダクション工程を必要とせず、動画出力の一部として同期したセリフ、アンビエンス、効果音、音楽キューを生成します。さらに、リファレンス画像、最初と最後のフレームを使ったトランジション、シーン拡張といった新しいナラティブ制御も導入され、マルチショットのストーリーをより首尾一貫させます。
それが重要な理由:音声は、視聴者が空間、感情、タイミング、因果関係を解釈する主要な手掛かりです。ネイティブの音声生成(口の動きに合うセリフ、可視イベントに同期した SFX、シーンの地理に合った背景サウンド)は、クリップを「本物らしく」感じさせるための手作業を削減し、クリエイターが物語やムードを素早く反復できるようにします。
Veo 3.1 は「音声」を生成できるのか?どんな音声を作れるのか?
モデル内部で音声はどのように生成されるのか?
Veo 3.1 は、動画生成パイプラインにおける統合出力モダリティとして音声を扱います。動画フレームを別の TTS やフォーリーエンジンに送るのではなく、生成プロセスが音声と映像ストリームを共同でモデリングすることで、タイミング、音響的キュー、視覚イベントの整合性を担保します。この共同モデリングにより、会話のやり取り、環境音響、同期した SFX などが生成映像と自然に揃うのです。3.1 では「より豊かなネイティブ音声」と同期音生成が目玉の改良点として掲げられています。
音声機能が大きな意味を持つ理由
歴史的に、多くのテキストから動画へのシステムは無音の動画を生成し、音声は後段のパイプラインに任せていました。Veo 3.1 は、同じ生成パスで音声を生成することでそれを変えました。これにより、ミキシングの手作業を減らし、短い台詞のリップシンク精度を高め、プロンプトで因果的な音(例:「カメラが左に切り替わるとガラスが割れる」)を制御できるようになります。これは制作スピード、反復設計、クリエイティブなプロトタイピングに大きな影響を与えます。
Veo 3.1 が生成できる音声の種類
- 強調 ダイアログ/スピーチ 強調終了 — 複数話者の台詞で、口の動きやアクションに対応したタイミング。
- 強調 アンビエント・サウンドスケープ 強調終了 — 風、交通、ルームトーンなど、シーンの地理に合った環境音。
- 強調 効果音(SFX) 強調終了 — ヒット、インパクト、ドア、足音など、視覚イベントに合わせてタイミング付け。
- 強調 音楽キュー 強調終了 — シーンのテンポに合った短いモチーフやムードの下支え。
これらの音声タイプはネイティブに生成され、専用の音声パラメータではなく、主にプロンプト内容によってガイドされます。
技術的制約と長さ
Veo 3.1 はデフォルトで高品質な短尺クリップ(あるフローでは 8 秒の高品質出力)に最適化されていますが、モデルは「シーン拡張」や生成ブリッジ(最初→最後のフレーム、最終 1 秒からの拡張)にも対応しており、Scene Extension により多数のクリップをつなぐことで、数十秒から 1 分以上の連続シーケンスを作成できます。
Veo 3.1 で音声を生成する方法(Google Gemini / Vertex 経由の直接利用)
Step 1: 前提条件
- Gemini API / Vertex AI へのアクセス権を持つ Google アカウントと有効な API キー/認証情報(Veo 3.1 は多くの経路で有料プレビュー提供)。
- 環境に Google の
genai/ Gemini クライアントまたは REST エンドポイントの設定(または Vertex クライアント)。
Step 2: 適切なモデルとアクセスの選択
veo-3.1-generate-preview(または速度/コスト重視なら veo-3.1-fast)を使用します。これらのモデル文字列は Google のプレビュー例に登場します。Gemini API / Google AI の有料キー(または AI Studio / Vertex AI へのアクセス)が必要です。
Step 3: Python 例 — Gemini genai クライアント(推奨、コピペ可)
この例はプログラム呼び出しの形(Python、google.genai クライアント)を示します。音声指示を含むテキストプロンプトの渡し方をデモします。
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
注記:返されるファイルは通常、生成された音声トラックを含む MP4 です。上記で音声制御の要となるのは、プロンプト内に埋め込む記述的な音声指示です。Veo 3.1 は自然言語による音声指示に反応し、同期した音声トラックを生成します。
Step 3 — リファレンス画像と“Ingredients to video”の使用
キャラクターの外見や音の手掛かりの一貫性を保つには、最大 3 枚のリファレンス画像を渡すことができ、Veo はそれらを用いてビジュアルスタイルと継続性を保持します。同じ生成呼び出しで reference_images=[...] をサポートしています。特定のキャラクターについて、声の質感や習慣的な音(例:繰り返し登場するドアのきしみ)に一貫性を求める場合に推奨されます。
Step 4 — 音声の連続性を保ったままシーンを拡張(Scene extension)
Veo 3.1 は「シーン拡張」に対応しており、前クリップの最終 1 秒から新しいクリップを生成して、より長いシーケンスを作成できます。音声も連続性(背景アンビエンス、進行中の音楽など)を保つように拡張されます。generate_videos 呼び出しの video=video_to_extend パラメータを使用します。
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Step 5 — 最初と最後のフレームのブリッジ(音声付き)
2 つのフレーム間をスムーズに遷移させたい場合(例:昼のショットから夕暮れのショットにモーフィング)、image=first_frame と last_frame=last_frame を指定し、プロンプト内に音声の指示を含めます。Veo は、視覚的な進行を反映したトランジションフレームと音声を生成します。Veo は通常、MP4 内に単一のミックス済み音声トラックを返します。
Veo 3.1 の音声ツールはどう使う?
1) CometAPI の役割と使う理由
CometAPI は、複数モデル(Google の Veo を含む)にアクセスできる単一の OpenAI 風 REST エンドポイントを提供します。複数ベンダーのキーを管理せず、単一の統合ポイント(課金、クォータ、SDK の一貫性)を望む場合に有用です。Comet のドキュメントには、Veo 3.1 が映像モデルのひとつとして提供されていることが記載されています。
2) CometAPI 経由で Veo 3.1 を呼び出す基本フロー
- CometAPI に登録し、API キーを作成します。
- Comet のカタログで正確なモデル識別子を確認("Veo 3.1"/"veo3.1-pro")。
- CometAPI の OpenAI 風エンドポイント(または SDK)で
modelを Veo のモデル名に設定。Comet が Google へのルーティングを代行します。
Veo3.1 非同期生成 は、当社独自技術で実装されており、以下の制限があります:動画の長さは 8 秒に固定され、カスタマイズできません
問題が発生した場合はテクニカルサポートにご連絡ください
Example Request
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Veo 3.1 で音声意識したプロンプトを書くベストプラクティスは?
良い音声のためのプロンプト設計(含めるべきもの)
プロンプトでは「音声レーン」を構造化して使いましょう。最小限の推奨ブロック:
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
主なコツ:レーンにラベルを付け、短い時間アンカー(例:at 1.6s)を入れ、感情のニュアンスや音のキャラクター(例:「ソフトなリバーブ、スローアタック」)を記述します。ステレオのパンが必要なら L / R や L→R も注記しましょう。反復は通常のワークフローです——短いクリップ(4〜8 秒)を生成して拡張します。
プロンプトの構造とトーン
- 強調 構造化レーンを使う 強調終了:Ambience、SFX、Music、Dialogue のブロックにラベルを付ける。ジェネレータは予測可能なパターンの方がうまく機能します。
- 強調 タイミングを具体的に 強調終了:短い時間アンカー(例:「sfx: door slam at 1.6s」)はタイトな同期に役立ちます。フレームレベルの厳密さが必要なら反復して調整します。
- 強調 音の特性を記述する 強調終了:単に「シンセ」ではなく、「スローアタックのソフトなパッド、80 BPM のフィール」のように音楽的ムードを示します。
視覚→音声の整合性
リファレンス画像や開始フレームを提供する場合は、音の発生源も記述しましょう(例:「Ambience: 左側からこもった街の音、カメラに近い位置;車の通過は L→R にパン」)。これにより、より妥当なステレオキューと音源定位が得られます。
反復ワークフロー
- 短いクリップ(4〜8 秒)を生成し、音声同期を評価。
- 物語を長くしたい場合は、最終 1 秒を連続性のシードとして用いる「Scene Extension」でクリップを伸ばします。
- キャラクターの一貫性(声質、アクセント)にはリファレンス画像を使い、クリップ間で声の記述を繰り返します。短いテキストの「ボイスアンカー」記述(例:「ALICE — ソフトなミッドアトランティック訛り」)を用いて声を安定させるのも有効です。
ポストプロダクションに関する注意
Veo は埋め込み音声付きの MP4 を起点として提供します。高度なミキシング(マルチチャンネルのステム、セリフ/音楽の分離ステム)が必要な場合は、DAW で音声を抽出・再構成する必要があります。Veo は主として統合単一ファイルの生成を目的としています。多くのワークフローでは、配布品質のミックスに向け、Veo によるベース生成と DAW 編集を組み合わせます。
プロンプト例(コピペで使えます)
1 — 自然なアンビエンス+効果音+短いセリフ
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — フォーリー重視のアクション
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — シネマティックなアンビエンス+キャラクターボイス
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— タイトな会話+SFX(短尺、明示的なタイミング)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — アンビエンス主導のシーン(ムード重視、SFX 厳密性は低め)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — 複数話者の会話(段階的)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Veo 3.1 の音声は Sora 2 の音声とどう違う?
Veo 3.1 と OpenAI の Sora 2 はどちらも、生成動画に結びついた同期音声出力をサポートしています。両者は各社のフラッグシップ級メディア生成モデルとして位置づけられ、リアルな音声・映像の整合性を重視しています。双方とも API を公開しています。
主要な違い
- 強調 モデルの焦点と長さ 強調終了:Veo 3.1 は、最初/最後のフレーム、より長いシーケンスのためのシーン拡張、キャラクターや音声の継続性を保つ明示的なリファレンス画像コンディショニングなど、コントロール性を強調します。Sora 2 は同期音声付きの動画生成を提供するフラッグシップモデルとして位置づけられ、Sora 2 Pro は品質とコストの調整を吟味した高忠実度を強調します。Veo 3.1 はシーン拡張やマルチプロンプトシーケンスを明確に打ち出しています。
- 強調 プラットフォーム統合 強調終了:Veo 3.1 は Google の Gemini エコシステム(Gemini アプリ、Flow、Gemini API、Vertex AI)に統合されています。一方、Sora 2 は OpenAI のプラットフォームモデルとして API エンドポイントと iOS 向け Sora アプリを提供しており、価格やエンドポイント構成が異なります(Sora 2 のドキュメントでは秒単位の価格帯が示されています)。既存のクラウド基盤やコンプライアンス要件に応じて選びましょう。
- 強調 きめ細かな映像コントロール 強調終了:Veo 3.1 は「Ingredients to Video」「Scene Extension」「First/Last Frame」などの具体的なクリエイティブコントロールを打ち出し、ナラティブワークフローの反復時間を短縮します。Sora 2 は同期音声と物理的にもっともらしいモーションに焦点を当てています。両者ともコントロール機能を提供しますが、その流儀や SDK は異なります。
音声重視プロジェクトにおける実務的含意
強調 単発ショットの高忠実度な同期音声付き動画を即戦力で、秒課金のシンプルな価格で重視するなら 強調終了 → Sora 2 は有力な競合です。対象アセットと予算で両方をテストしましょう。
強調 ショットをまたいで音のモチーフを一貫させた長尺のナラティブが必要なら 強調終了 → Veo 3.1 の Scene Extension とリファレンス画像コンディショニングが魅力的です。
最終判断:いつ Veo 3.1 を使うべきか(音声中心の推奨)
強調 Veo 3.1 を使うべきなのは 強調終了、統制されたマルチショットのシーケンスでキャラクターの一貫性が必要で、ナラティブの連続性を支える統合音声が求められる場合です。Veo 3.1 の際立った強みは、シーン拡張、最初/最後のフレーム制御、リファレンス画像コンディショニングであり、音声の連続性が重要な連載/エピソード型の短尺コンテンツに最適です。
開発者は、CometAPI を通じて Veo 3.1 と Sora 2 にアクセスできます。始めるには、CometAPI の Playground でモデル機能を試し、詳細は API ガイドを参照してください。アクセス前に、CometAPI にログインし API キーを取得済みであることを確認してください。CometAPI は、統合を支援するため公式価格よりもはるかに低い価格を提供しています。
Ready to Go?→ Veo 3.1 の無料トライアル!
