Veo 3.1 APIの使い方

CometAPI
AnnaDec 10, 2025
Veo 3.1 APIの使い方

Veo 3.1は、Googleの動画生成モデルであるVeoファミリーの最新版です。よりリッチなネイティブオーディオ、より優れたナレーションとシネマティックなコントロール、複数画像ガイダンス、そして新しい編集機能(最初と最後のフレームのトランジション、「材料」/参照画像、シーン拡張ワークフロー)が追加されています。開発者にとって、Veo 3.1にアクセスする最も簡単な方法は、API(コンシューマー向け統合用)とVertex AI(エンタープライズおよびクラウドワークロード用)です。

Veo 3.1 API とは何ですか? また、その主な機能は何ですか?

Veo 3.1は、Googleが開発したテキストと画像から動画を生成するための生成モデルです。ネイティブで生成された音声(セリフ、環境音、効果音)を備えた、短く高品質な映画のようなクリップを制作できます。このリリースでは、プロンプトの順守、キャラクターの一貫性、音声生成、そしてよりきめ細かな編集コントロール(例:最初と最後のフレームの遷移や、最大3枚の参照画像によるガイド機能など)の改善に重点が置かれています。

主な機能(概要)

  • テキスト → ビデオ: ナレーションプロンプトから直接ビデオを生成します (会話と音声を含む)。
  • 画像 → 動画: 画像を短いアニメーションシーンに変換します。()
  • 参考画像(「動画の材料」): 供給最大 3 出力全体で視覚的な一貫性を保つための画像 (文字、オブジェクト、スタイル)。
  • 最初と最後のフレーム生成: 2 つの画像をつなぐトランジションを作成します (モデルは、一致するオーディオを使用して、それらの画像間をスムーズにモーフィングするフレームを生成します)。
  • シーン拡張ワークフロー: 以前のビデオの末尾に結び付けられた新しいクリップを生成することで、既存のクリップを拡張するツール (注: 機能とサポートは Gemini API と Vertex プレビューで異なります。「条件」セクションを参照してください)。
  • ネイティブオーディオとSFX: モデルは、生成されたビジュアルに一致する音声、環境音、同期効果を合成できます。

Veo 3.1 API を使用するにはどうすればよいですか? 前提条件と条件は何ですか?

API を呼び出す前に何が必要ですか?

  1. アクセスと請求: Veo 3.1 は有料プレビュー中です。API キーまたは Google Cloud プロジェクトをお持ちで、Vertex AI が有効になっていて課金が設定されていることを確認してください。プレビューでは、一部の機能とモデルバリアントはリージョン制限があります。
  2. クォータとプレビューの制約プレビューモデルには、プロジェクトごとのリクエストレート制限(例:プレビューバリアントの場合は10 RPM)やリクエストあたりの動画数制限が設定されている場合があります。アカウントの正確な数値については、Vertex AI / Gemini ドキュメントのモデルページをご確認ください。
  3. 入力アセットとフォーマット: テキストプロンプト、単一または複数の画像から生成したり、既存のVeo生成ビデオのURIを参照して拡張したりできます。画像からビデオへのワークフローでは、サポートされている形式(エンドポイントに応じてURLまたはバイト)で画像を指定してください。
  4. 安全性と原産地: 生成されたコンテンツはGoogleのコンテンツ ポリシーに準拠する必要があります。プレビューでは、透かしや使用状況のフラグが表示される場合があります。アプリケーションで出所の確認とコンテンツ モデレーションの手順を実行できるようにしてください。

どの認証方法がサポートされていますか?

  • APIキー: GeminiホストエンドポイントまたはサードパーティAPIプラットフォームのキーの場合。CometAPIをお勧めします。  コメットAPI Veo 3.1 API(veo3.1-pro; veo3.1)の統合を支援するために、公式価格よりもはるかに低い価格を提供します。
  • Google Cloud 認証情報 / ADC: Vertex AI の場合、アプリケーションのデフォルト認証情報(サービス アカウント / gcloud 認証)または Google Cloud プロジェクトに添付された API キーを使用します。

Veo 3.1 API エンドポイントとは何ですか? また、最も重要なパラメータは何ですか?

短い答え:あなたは電話するか、 コメットAPI API ビデオ生成エンドポイント(CometAPIホストアクセス用) v1/chat/completionsどちらもモデル、プロンプト、および video/output 構成; 大規模なビデオ ジョブは長時間実行操作として返されます。

一般的なエンドポイント(例):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

一般的なリクエストパラメータ(論理的な内訳)

  • — ターゲットのモデル識別子(veo3.1-pro; veo3.1の名前は モデル参照).
  • プロンプト/入力 — シーンを説明する人間のテキスト。モデルの能力に応じて、複数のプロンプトや複数ショットの指示を含めることができます。構造化されたプロンプトを使用して、カメラの動き、時間帯、雰囲気、音声キューを制御します。
  • 画像参照 — オブジェクト/文字/スタイルをガイドする 1~3 個の画像 URI または base64 画像 (Veo 3.1 は複数の画像参照をサポートしています)。
  • ビデオ — 次のような場合に使用します 延伸 以前のVeo出力(最初のビデオURIを渡します)。一部の機能はVeoで生成されたビデオでのみ動作します。
  • 継続時間 / fps / 解像度 / アスペクト比 — サポートされている長さと形式から選択します (プレビュー モデルには、サポートされている期間とフレーム レートがリストされます (一部のプレビュー ドキュメントでは 4、6、8 秒など)。拡張機能により、Flow/Studio でより長い出力が許可される場合があります)。

高度な使用パターンとテクニックとは何ですか?

1) 参照画像でキャラクターの一貫性を保つ

複数のショットでキャラクターの見た目を維持するために、最大3枚の参考画像(顔、ポーズ、衣装)をご提供ください。一般的なフロー:

  1. 参照画像をアップロードまたはインライン エンコードします。
  2. 渡して config.reference_images 各ショットを生成するとき。
  3. 視覚的な一貫性を最大限に高めるには、後続の世代呼び出しに同じ画像を使用します (またはシード値と組み合わせます)。
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) 最初と最後のフレームの遷移(ショット合成)

image (最初のフレーム)+ config.last_frame Veoに中間モーションを合成するよう指示します。これは映画のようなトランジションに最適で、自然な視覚的補間と同期したオーディオを生成します。

提供する 最初のフレーム (image)であり、a 最後のフレーム (lastFrame) と Veo 3.1 は、それらの間の動きを補間してスムーズなトランジションを生成します (オプションでオーディオも使用可能)。cURL (REST) の例 - 最初の画像と最後の画像:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) シーンの拡張(複数世代の連鎖)

パターンは 2 つあります。

  • API/フローアプローチ(プレビュー機能): 既存のビデオ(返されたビデオオブジェクトまたはURI)を次のように渡します。 video=video_to_extend 前のシーンと一貫性のある後続のクリップを作成します。操作レスポンスを使用して、 video.uri これを次の呼び出しに渡すことで、ナラティブを拡張できます。注: 可用性と動作はプラットフォームによって異なるため、選択したプラットフォームで検証してください。
  • 頂点雲模様Vertexのプレビューモデルには、ドキュメントに記載されているより厳しい制限があります(例:現在のプレビューでは4/6/8秒のセグメントのみが返されます)。そのため、1分間の出力を生成するには、複数のリクエストを連結してアプリケーション内でつなぎ合わせるか、エンジンの公式シーン拡張ツール(利用可能な場合)を使用する必要があります。最新のサポートマトリックスについては、Vertexの「Veo 3.1 プレビュー」ページをご覧ください。

取る 以前はVeoで生成された 動画を前方に拡張(秒数を追加)しながら、スタイルと連続性を維持できます。API の入力は Veo で生成された動画である必要があります(任意の MP4 の拡張はサポートされない場合があります)。ドキュメントに記載されている制限まで、7 秒単位で拡張できます(Veo のプレビュー制限が適用されます)。

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) オーディオとダイアログのコントロール

Veo 3.1 はプロンプトからネイティブオーディオ(音声と効果音)を生成します。ヒント:

  • リアルなリップシンクを促すために、プロンプトにセリフを入れます(セリフを引用符で囲みます)。
  • オーディオ記述子(「左から右への柔らかい足音」、「くぐもった雷のクレッシェンド」)を追加して、SFX とムードを形作ります。
  • シード値を使用して、テスト実行全体で同じオーディオ/ビジュアル結果を再現します。

5) テスト用の決定論的出力(シード)

CIまたはA/Bテストで繰り返し可能な出力が必要な場合は、 seed パラメータ(uint32)。プロンプトや参照画像を変更しても結果は変化しますが、シードは再現性を保証します。 他のすべてが同一である場合。

6) コストとパフォーマンスの最適化

  • より少ないジョブをより大きなジョブとして一括処理する: 許可されている場合は設定 sampleCount セットアップのオーバーヘッドを削減するために、1回のリクエスト(1~4)で複数の候補動画を生成します。()
  • 参照画像をキャッシュし、シードを再利用する 再現性を確保し、大きなバイナリの再アップロードを回避します。
  • Cloud Storageの出力を使用する (Vertex) 出力サイズが大きい場合、リクエスト本体に生のバイトが返されることを回避します。

7) 他のGeminiモデルとのマルチステップパイプライン

便利なパイプライン:静止画像ジェネレータ(例:Gemini画像モデル)を使用してアセットを作成→最適な画像を渡す image + referenceImages Veo 3.1 へ → 音声/ダイアログプロンプトをテキストモデルで反復処理し、ナレーションを生成します。Gemini のドキュメントには、画像生成と Veo 呼び出しを連鎖させる例が明示的に示されています。

実用的なヒント、注意点、ベストプラクティス

  • 種を使う 実行間で決定論的で繰り返し可能な出力が必要な場合 (同じプロンプト + 同じ参照 + 同じシード → 同じ生成)。
  • 参照画像の一貫性を保つ同じ切り抜き、同じ顔の角度、一貫した服装と背景は、モデルの個性とスタイルを保つのに役立ちます。連続性を保つために、同じ3枚の画像を複数のショットで再利用してください。
  • 本番環境では GCS URI を優先する: Cloud Storage に画像と出力を保存すると、base64 転送サイズの制限が回避され、チェーン/拡張が簡素化されます。
  • トランジションとオーディオを明示的に記述する: 最初/最後のトランジションでは、カメラの動き、テンポ、SFX/音声キューをプロンプトに追加して、オーディオの同期を改善します。
  • まずは短いループをテストする: プロンプト、シード、参照画像を調整しながら短い期間 (4~8 秒) で反復し、その後、より長いシーンのために拡張を連鎖させます。
  • 正確なフィールド名を確認する: SDKは以下を使用できます reference_images (スネークケース)、 referenceImages (キャメルケース)、またはネストされた image を持つオブジェクト content / gcsUri使用しているバージョンの正確なプロパティ名については、SDK ドキュメントまたは Vertex モデル スキーマを確認してください。

Veo 3.1 の価格はいくらですか? また、どのように請求されますか?

Veo 3.1は課金されます 生成されたビデオの1秒あたりGoogleは複数のバリエーションを公開しています(例えば スタンダード および 尊大)は、1秒あたりの料金が異なります。公開されている開発者向け料金表には、有料プランの料金例が示されています。 Veo 3.1 Standard の場合、0.40ドル/秒 および Veo 3.1 Fast の場合、0.15ドル/秒Gemini の料金ページには、ビデオが正常に生成された場合にのみ料金が発生する(失敗した場合は課金されない場合がある)とも記載されています。

Veo3.1 APIについて CometAPI の価格

veo3.10.4000
veo3.1プロ2.0000

結論 — Veo 3.1 が今開発者にとって重要な理由

Veo 3.1は、AI動画生成における明確な飛躍的進歩です。よりリッチなネイティブオーディオ、参照画像ガイダンス、そして新しい編集プリミティブにより、ストーリーテリング、プレビジュアライゼーション、そしてクリエイティブアプリにおいて、より強力な選択肢となります。モデルの正確な機能は、エンドポイントとプレビュービルド間で若干異なります(例えば、CometAPIとgeminiのバージョンの違いなど)。そのため、使用するモデルバリアントをテストし、検証することをお勧めします。このガイドの例は、プロトタイピングと製品化のための実用的な出発点となります。

アクセス方法 Veo3.1 APIについて API

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

開発者はアクセスできる Veo3.1 APIについて CometAPIを通じて、 最新モデルバージョン 公式ウェブサイトで常に更新されています。まずは、モデルの機能について調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

準備はいいですか?→ 今すぐCometAPIに登録しましょう !

AIに関するヒント、ガイド、ニュースをもっと知りたい方は、フォローしてください。 VKX および Discord!

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ