Veo 3.1 の技術仕様
| 項目 | Veo 3.1(公開仕様) |
|---|---|
| 公式モデル ID | veo-3.1-generate-001 |
| 提供元 | Google DeepMind / Google Cloud |
| モデルタイプ | テキストから動画、画像から動画の生成 |
| 入力タイプ | テキストプロンプト、画像入力、ファーストフレーム+ラストフレームのガイダンス |
| 出力タイプ | AI 生成動画 |
| 対応解像度 | 720p および 1080p、4K |
| 対応アスペクト比 | 16:9 および 9:16 |
| 対応フレームレート | 24 FPS |
| 動画の長さ | 4s、6s、8s のクリップ(モードに依存) |
| プロンプト言語 | 英語 |
| 1 リクエストあたりの動画数 | 最大 4 |
| API レート制限 | プロジェクトあたり毎分最大 50 リクエスト |
| 対応デプロイ先 | Vertex AI、Gemini エコシステム統合、Flow |
| 非対応機能(公式ドキュメント) | 動的共有クオータ、一部の参照画像ワークフロー、標準 API フローにおけるネイティブな動画延長 |
Veo 3.1 とは?
Veo 3.1 は、映画レベルの品質の動画合成、より強いプロンプト遵守性、優れたシーンの一貫性、そしてマルチモーダルな動画制作ワークフローに焦点を当てた、Google の旗艦生成動画モデルファミリーです。テキストから動画の標準的な生成を超え、画像ガイド生成やフレーム制御によるストーリーテリングのワークフローをサポートします。公式には、テキストから動画、画像から動画、プロンプトの書き換え、ファースト/ラストフレーム生成の各ワークフローをサポートしています。
コア機能
Veo 3.1 は実践的なコンテンツ制作機能に注力しています:
- ネイティブ音声生成(セリフ、環境音、SFX)を出力に統合。Veo 3.1 は視覚的タイムラインに同期したネイティブ音声(セリフ+環境音+SFX)を生成し、セリフのリップシンクやシーンのキューにおける音声と映像の整合を目指します。
- より長い出力(~60 秒/1080p までに対応。Veo 3 のごく短いクリップ、8s と比較)、および物語の連続性のためのマルチプロンプトによるマルチショットシーケンス。
- Scene Extension と First/Last Frame モードにより、キー フレーム間の素材を拡張または補間。
- Flow 内でのオブジェクト挿入と(今後提供予定の)オブジェクト除去、および編集プリミティブ。
上記の各項目は手作業の VFX 作業を減らすことを目的としています。つまり、音声とシーンの連続性が後付けではなく一次成果物として扱われます。
技術詳細(モデル動作と入力)
モデルファミリーとバリアント: Veo は Google の Veo-3 ファミリーに属します。プレビューのモデル ID は一般に veo3.1-pro、veo3.1(CometAPI のドキュメント)。入力としては、テキストプロンプト、画像参照(単一フレームまたはシーケンス)、およびマルチショット生成のための構造化されたマルチプロンプトレイアウトを受け付けます。
解像度と長さ: プレビューのドキュメントでは、720p/1080p の出力と、(一部のプレビュー設定において)最大 ~60 秒 までの長尺、および以前の Veo バリアントより高い忠実度が説明されています。
アスペクト比: 16:9(対応)および 9:16(一部の参照画像フローを除き対応)。
プロンプト言語: 英語(プレビュー)。
API 制限: 一般的なプレビュー制限として、プロジェクトあたり毎分最大 10 API リクエスト、1 リクエストあたり最大 4 本の動画、および動画の長さは 4、6、8 秒 から選択(参照画像フローは 8s に対応)といった条件が含まれます。
ベンチマークパフォーマンス
Google の社内および公開要約された評価によれば、テキスト整合性、視覚品質、音声と映像の整合(テキスト→動画および画像→動画タスク)といった指標において、Veo 3.1 の出力が人間評価者の比較で強く支持されています。
Veo 3.1 は、全体的な好ましさ、プロンプト整合性(テキスト→動画および画像→動画)、視覚品質、音声–映像の整合、そして MovieGenBench や VBench といったベンチマークデータセットでの「視覚的にリアルな物理」の軸において、社内の人間評価者による比較で最先端の結果を達成しました。
制限事項と安全性に関する考慮
制限事項:
- アーティファクトと不整合: 改善はあるものの、特定のライティング、微細な物理挙動、複雑なオクルージョンでは依然としてアーティファクトが生じる可能性があります。画像→動画の一貫性(特に長尺)も改善されていますが完全ではありません。
- 誤情報/ディープフェイクのリスク: より高度な音声とオブジェクト挿入/除去により、悪用リスク(リアルな偽音声や長尺クリップ)が高まります。Google は(ポリシーやセーフガードなどの)緩和策を示し、過去の Veo リリースでは出所証明を支援するウォーターマーキング/SynthID に言及していますが、技術的セーフガードだけで悪用リスクを完全には排除できません。
- コストとスループットの制約: 高解像度・長尺動画は計算コストが高く、現在は有償プレビューで制限されています。画像モデルと比べるとレイテンシとコストが高くなることが想定されます。コミュニティ投稿や Google フォーラムでは利用可能時間やフォールバック戦略が議論されています。
安全対策: Veo3.1 にはコンテンツポリシー、過去の Veo リリースでのウォーターマーキング/SynthID シグナリング、プレビューアクセス制御が組み込まれています。高リスクの出力に対しては、プラットフォームポリシーの遵守と人によるレビューの実施が推奨されます。
実用的なユースケース
- クリエイター向けの迅速なプロトタイピング: 絵コンテ → マルチショットのクリップやアニマティクスを生成し、初期のクリエイティブレビューに適したネイティブのセリフ付き素材を提供。
- マーケティング&短尺コンテンツ: 15–60 秒のプロダクト動画、ソーシャル向けクリップ、コンセプトティーザーなど、完全な写実性よりスピードを重視する用途。
- 画像→動画の適用: イラストやキャラクター、2 枚のフレームから、First/Last Frame や Scene Extension によってスムーズなトランジションやアニメーションシーンを生成。
- ツールの強化: Flow に統合された反復編集(オブジェクト挿入/除去、ライティングプリセット)により、手作業の VFX 工程を削減。
他の主要モデルとの比較
Veo 3.1 vs Veo 3(前身): Veo 3.1 は、プロンプト遵守性の向上、音声品質、マルチショットの一貫性に注力しています。アーティファクトの削減と編集容易性の向上を狙った、漸進的ながら実用的な更新です。
Veo 3.1 vs OpenAI Sora 2: 報道で指摘されているトレードオフとして、Veo 3.1 は長尺の物語制御、統合された音声、Flow 編集統合を重視。一方 Sora 2(報道での比較)では、速度や異なる編集パイプラインなど別の強みに焦点が当てられています。TechRadar などの媒体は、Veo 3.1 を長尺・物語重視分野における Sora 2 の競合として位置付けています。独立した並行比較は現時点で限定的です。
| 機能 | Veo 3.1 | Sora 2 | Runway Gen-4 / Gen-4.5 |
|---|---|---|---|
| ネイティブな縦長出力 | あり | ワークフローのサポートは限定的 | あり |
| 画像から動画 | あり | あり | あり |
| 音声統合の重視度 | 強い | 中程度 | 中程度 |
| フレーム条件付け | あり | あり | 部分的 |
| ソーシャル動画向け最適化 | 強い | 中程度 | 強い |
| API エコシステム統合 | Google エコシステム | OpenAI エコシステム | クリエイター向けツールのエコシステム |
CometAPI で Veo 3.1 API を使うには?
- CometAPI の API キーを作成する
- モデルエンドポイントとして
veo-3.1-generate-001を選択する - 動画生成 API 経由でプロンプトまたは画像入力を送信する
- 結果をポーリングし、生成された動画を取得する
- カメラワーク、シーンの連続性、一貫性の改善に向けてプロンプトを反復する