Gemini 3 Flash vs Gemini 3 Pro: 価格、速度、推論

CometAPI
AnnaDec 24, 2025
Gemini 3 Flash vs Gemini 3 Pro: 価格、速度、推論

Google が 2025 年末に展開した Gemini 3 ファミリーには、開発者とパワーユーザー向けに明確に位置づけの異なる 2 つのモデルが含まれます。Gemini 3 Flash — 生のスループット、低レイテンシ、コスト効率に最適化 — と、Gemini 3 Pro — 最深のマルチモーダル推論、最大のコンテキストウィンドウ、最高水準のベンチマーク上限に最適化。実務的には、Flash は高頻度の開発・対話型アプリ向けに「productive-flow」のフロンティアを押し広げる設計であり、Pro は単一クエリの知性を最大化し、非常に大きいまたは複雑なマルチモーダル入力を処理する設計です。トレードオフは明確かつ測定可能です。Flash は Gemini 3 の推論能力の多くを維持しつつ、レイテンシを大きく下げ、トークンあたりのコストを実質的に低減します。Pro は最高のベンチマークスコア、最先端のモード(例:Deep Think)、より大きなセーフティガード付き機能を、より高いコストとレイテンシで提供します。

What is Gemini 3 Flash?

(And what problems is it built to solve?)

Gemini 3 Flash は、Gemini 3 ファミリーにおける Google の最新「スピード優先」メンバーです。2025 年 12 月中旬に発表・展開され、Flash は明確に低レイテンシ、トークン効率、広いアクセシビリティに最適化されています。Gemini アプリおよび Google 検索の AI Mode でデフォルトモデルとなり、Gemini API、Google AI Studio、Vertex AI、Gemini CLI を通じて開発者に提供されています。設計目標は、Flash レベルの速度と実質的に低い価格帯で「Pro 級の推論」を提供し、高頻度かつ対話的なユースケース(コーディングアシスタント、リアルタイムのマルチモーダルアプリ、検索の AI Mode、ライブな CLI 対話)をスケールで実行できるようにすることです。

Core strengths of Flash

  • Latency and throughput: 短いターンタイムと高い要求レートに向けて設計(Google は Gemini 3 ファミリーで最速のモデルとして位置づけ)。
  • Token efficiency: Google は、同等タスクにおけるトークン使用量が従来の Flash/Pro 世代より少なく、リクエストあたりのコストを削減できると主張しています。
  • Multimodal and agentic capability: 「軽量」でありながら、Flash は Gemini 3 のマルチモーダル推論(テキスト、画像、音声、動画)を維持し、エージェント的なツール呼び出しもサポートします。

What is Gemini 3 Pro?

Gemini 3 Pro は、Gemini 3 ファミリーのフラッグシップ「深度優先」モデルです。深いリサーチ、複雑な長期ホライズン計画、マルチステップのエージェントワークフロー、大規模コードベース、そして精度や信頼性の最後の数パーセントが実務上重要となるタスクのために位置づけられています。Pro は推論の忠実性、ツール統合(ストリーミング関数呼び出し、堅牢なツール呼び出し)、非常に大きなコンテキストウィンドウ(Google は Pro で高トークン階層をアピール)を重視しています。Pro は有料購読者(Google AI Pro / Ultra 階層)およびエンタープライズ API 経由で利用可能です。

Core strengths of Pro

  • Reasoning depth and stability: マルチステージ推論に調整され、複雑なベンチマークでの失敗モードを低減。
  • Large context support: 非常に長いコンテキスト(複数文書の統合、リポジトリ全体、大規模 PDF)が必要なワークフローをターゲット。
  • Enterprise features and tool-calling: 本番エージェントシステム向けに、さまざまなツールパターン、グラウンディング、リトリーバル統合をより豊富にサポート。

How do Gemini 3 Flash and Gemini 3 Pro perform on benchmarks?

Flash は多くの実務的な開発者/エージェントタスクで非常に優れた性能を示し(しばしば Pro に肉薄)、一部のコーディング系ベンチマークでは Pro を上回ることもあります。一方で Pro は、最難関の推論や長文コンテキスト統合タスクの第一選択肢であり続けます。

Gemini 3 Flash vs Gemini 3 Pro: 価格、速度、推論

Benchmarks where Pro leads

  • GPQA Diamond(大学院レベルの科学): Pro ≈ 91.9%(一部の実行で Deep Think により ≈ 93.8% へ上昇)。大学院レベルの科学系設問でトップクラスの性能を示します。
  • Terminal-Bench 2.0(エージェント的な端末タスク): Pro: 54.2% — 以前のモデルや多くの競合に対し、ツール使用/端末操作テストで明確なリード。エージェント的なコード/ターミナル自動化における重要指標です。
  • ARC-AGI-2(抽象的な視覚推論): 以前の Gemini バージョンに対し有意な改善(例:Pro 31.1% 対 従来モデル 4.9%。Deep Think でさらに上昇)。絶対値は難問ゆえ控えめでも、相対的な伸びは大きい指標です。

Benchmarks where Flash excels or competes well

  • GPQA / MMMU / 実務タスク: 初期レポートでは、Flash が多くの実行で高い GPQA 系スコアを出しているとされ(報道では GPQA Diamond ≈ 90.4%、MMMU Pro ≈ 81.2% と記載)、Flash は速度とコストが大幅に優れる一方で、幅広いタスクで Pro 級に迫る精度を示します。
  • コーディングや短時間タスク: Flash は低レイテンシとトークン効率により、単発の短いコーディング/評価タスクで Pro より速く、時に上回る成績を示すことがあります。選定テストで Flash がより高スコアかつ実行コストが大幅に低い事例も報告されています(コミュニティの初期結果であり、ハーネスによりばらつきあり)。

What the numbers mean for reasoning depth

  • Absolute ceilings: Gemini 3 Pro は最難関ベンチマーク(例:LMArena Elo、Humanity’s Last Exam の Deep Think)で依然として最高天井を示します。これは、最難問題で「あと一歩」の精度が要る場合(博士課程レベルのリサーチ、新規性の高い科学推論、最大の数理精度)には Pro がより安全な選択であることを意味します。
  • Pareto efficiency: Gemini 3 Flash は多くの実務タスク(QA、コーディング、マルチモーダル抽出)で差を詰めつつ、速度/コスト面で大きな利得をもたらします。応答性とスループットを優先する本番タスクの多くでは、Flash はより良いコストパフォーマンスのトレードオフとなります。
  • Score ≠ universal superiority. ベンチマークは、精選されたタスク上の挙動を測るものです。Flash の優れた SWE-bench/コーディング系の数値は、構造化・エージェントタスクに最適化され、一般的なコーディング作業に合致するアーキテクチャやデコーディングのデフォルトが寄与している可能性を示唆します。
  • Latency and cost change the practical tradeoff. 絶対精度で僅差に優れても、3 倍遅くて 6 倍高いモデルは、応答性とコストが重要な本番環境では不利になりがちです。Gemini 3 Flash は、以前の Gemini 2.5 Pro ベースラインに対しておおよそ 3× 高速 でありながら高い推論品質を維持していると報告されています。

Gemini 3 Flash vs Gemini 3 Pro: Pricing and specifications

Model technical summary

  • コンテキストウィンドウ(入力): Gemini 3 Pro と Gemini 3 Flash の両方が、入力コンテキストとして 最大 1,000,000 トークン を公開。Pro はさらに 64k 出力や、個別のウィンドウを持つ画像バリアントをアピールしています。(注:実際の Web UI の挙動やレート制限は製品ごとに異なる場合があります。詳細は「注意事項」を参照。)
  • 対応マルチモーダル入力: 両モデルともテキスト、画像、音声、動画、PDF に対応(画像/動画機能は Google AI Studio / API / Vertex 経由で提供)。
  • Special modes: Pro は Deep Think や Pro 専用のエージェント機能(Google Antigravity / tooling)をサポートし、より高い安全性が要求されるワークロードに使用されます。Flash は推論レベルの構成や構造化出力をサポートしつつ、低レイテンシと低コストに最適化されています。

Developer/API pricing (published developer pricing tiers — per 1M tokens)

(以下の値は、Gemini 3 ファミリー向けに公開された Gemini API / モデルドキュメントに基づく、入力/出力あたり 100 万トークンのプレビュー価格を反映しています。実際に請求される本番レートは課金情報を確認してください。)

gemini-3-flash-preview (Flash):

  • Input: $0.50 per 1M tokens
  • Output: $3.00 per 1M tokens.

gemini-3-pro-preview (Pro)

  • Tier A (<200k tokens context): $2 / $12 per 1M tokens (input / output)
  • Tier B (>200k tokens context or heavy contexts): $4 / $18 per 1M tokens — 非常に大きなコンテキストでは価格が上方にスケールします。

実務的な意味: 一般的な(<200k トークン)帯で同等のトークン使用量の場合、公開プレビュー価格の比較では Flash は入力で約 4×、出力でも約 4× Pro より安価です。>200k のコンテキストでは、Pro のコストは実質的に高くなり得ます。

CometAPI は Gemini 3 FlashGemini 3 Pro への API アクセスを提供しており、API 価格は割引されています。

Consumer / subscription pricing (Gemini app / Google AI plans)

Google AI Pro(Gemini アプリと Workspace 連携で Gemini 3 Pro 機能を解放するコンシューマー/パワーユーザー向け階層)は、$19.99 per month として公開されています(利用可能地域や現地通貨換算が適用)。エンタープライズ級のアクセス向けに、さらに上位の「AI Ultra」階層も高額の月額で提供されます。

Gemini 3 Flash vs Gemini 3 Pro: reasoning and multimodal understanding

Reasoning depth: Pro vs Flash

Gemini 3 Pro は、一貫してより深い推論モデルとして提示されています。大学院レベルの科学ベンチマーク(GPQA Diamond)やエージェント的ツール使用ベンチマーク(Terminal-Bench 2.0)で、Pro は最先端に近いスコア(例:GPQA Diamond は Pro ≈ 91.9%、一部実行で Deep Think により 93.8%)を示します。これらの数値は、複雑でドメイン特化のタスクにおいて、多くの競合より先行していることを示します。

エージェント性、コーディング、マルチモーダル統合: Gemini 3 Flash のアーキテクチャ上の選択とチューニングにより、一部のコーディングや構造化推論ベンチマークで驚くほど良好な性能を示します。特に「思考レベル」API コントロールを調整すると、多くの実務タスクで Pro との差はユーザー視点では小さいことがあります。独立した初期テストや報道では、特定のエージェント的コーディングベンチマークで Gemini 3 Flash が Pro に匹敵または上回る例も示されています。ただし、これはあらゆる長文リサーチや高曖昧性の推論シナリオで Gemini 3 Flash が Gemini 3 Pro に匹敵することを意味しません。

対照的に Flash は、品質と速度のバランスに最適化されています。Gemini 3 Flash は、日常的なタスクの大半で「高い」推論力を示す一方、最難の学術的または多段階の問題における Pro のトップエンド性能には及びません。トレードオフは明示されています。すなわち、より速い応答と、やや浅めの推論連鎖です。

Multimodal performance (images/video/audio)

Gemini 3 ファミリーの Flash と Pro は、いずれもマルチモーダル入力(画像、動画、音声)に対応しています。Gemini 3 Flash は、1 プロンプトあたり非常に多数の画像(状況によっては最大 900 枚)に対応し、インラインアップロードのファイルサイズ上限(例:1 ファイルあたり 7 MB、デプロイによっては Cloud Storage から最大 30 MB)や、明示的な MIME/タイプ/解像度の制限があり、Flash のマルチモーダル I/F が本番グレードで高負荷用途を想定していることを示します。Gemini 3 Pro のマルチモーダルの強みは、視覚推論や、コード/端末実行のためのツール統合を要するベンチマークに表れます。最も複雑な視覚推論タスクでは Pro が優位を維持しつつ、高スループットのメディア要約や定型的なビジョンタスクでは、Flash がより低コストかつ高速となり得ます。

Example benchmark contrasts

視覚推論(ARC-AGI-2): Gemini 3 Pro は Gemini 2.5 Pro から大幅な改善を示し、多くの競合を上回ります。これは、Pro のアーキテクチャ改良が抽象視覚推論を特に押し上げているシグナルです。Gemini 3 Flash も実務的なマルチモーダルタスクで良好なスコアを示しますが、最難の視覚パズル系ベンチマークでは Pro に及びません。

How do they compare on raw speed — is Gemini 3 Flash really faster?

Gemini 3 Flash は、従来の Flash/Pro ベースライン(一般には Gemini 2.5 Pro や前世代 Pro と比較)に対し、スループット/レイテンシで最大およそ 3× の優位を示し得ます。この速度優位が Gemini 3 Flash の中核的な訴求点です。「Pro 級」の回答を Flash のレイテンシで提供する、というものです。Gemini 3 Flash は、スループット重視のタスク(短いコーディングプロンプト、チャットのターンレイテンシ)でしばしば Pro を上回り、同時に多くの精度系ベンチマークでも競争力のあるスコアを維持します。

Tokens, “thinking” tokens and caching

Google は、入力トークン(送信するもの)、出力トークン(モデルが返すもの。一部モードでは内部の「思考」トークンを含む)、およびコンテキストキャッシュのコストを区別しています。Flash は多くのタスクで「思考」トークンの使用を最適化しており(同等タスクで 2.5 Pro 比およそ 30% 削減)、多くの実務シナリオで解決あたりの実効コストを引き下げます。Pro の価格とトークン使用は、より深い内部推論パスを反映し、特に非常に大きなコンテキストではトークン消費とコストが増えることがあります。

How to interpret “faster” in practice

インタラクティブなチャット: Gemini 3 Flash は体感的により俊敏です。ユーザー体験がサブ秒応答に依存する会話 UI には Flash を使いましょう。

大規模で計算負荷の高いジョブ: 思考トークンが蓄積する長い推論連鎖では、Gemini 3 Pro のより深い推論により計算量が増え、レイテンシが高まる可能性があります。一部のエージェントシナリオでは、Pro の内部追加パス(例:Deep Think モード)が、より高品質な回答に到達するために意図的に時間をかける場合があります。

What are real-world use-cases and recommendations?

Pick Gemini 3 Flash if you need:

  • 高スループット、低レイテンシのインタラクティブチャット(コンシューマーアプリ、サポートボット、会話型検索)。
  • 絶対的な多段推論のトップティアよりも、応答速度とスループットを重視する動画・画像セットの高速なマルチモーダル要約。
  • 量産の A/B テスト、プロダクト内アシスタント、短い反復が支配的なコーディング補完。

Pick Gemini 3 Pro if you need:

  • 先端的な科学 Q&A、数学/物理の問題解決など、大学院レベルの信頼性が求められるタスク。
  • 端末操作、ツール実行、コードの実行とデバッグ、マルチステップのツールチェーンをオーケストレーションする必要があるエージェントシステム(Terminal-Bench での Pro の強みが効く領域)。
  • 精度や非言語的推論の増分向上が、増えるトークンコストとレイテンシに見合うワークロード。

Hybrid deployment pattern (practical best practice)

多くの本番チームは、デュアルモデル戦略を採用します。

  1. Front door = Gemini 3 Flash: 応答性とコストコントロールのため、ほとんどのインタラクティブユーザーには Flash を提供。
  2. Escalate = Pro: 長文リサーチ、特殊なエージェント実行、または「エスカレーション」は Pro にルーティング。必要に応じて、最初に Flash でスコープを切ってから Pro に回す。コスト、レイテンシ、精度のバランスを取るパターンです。

Conclusion

Gemini 3 Flash と Gemini 3 Pro は、単純に「速い vs. 賢い」という二分法ではありません。速度/レイテンシ、コスト、推論軸で設計上のトレードオフが施されています。Flash は、コストとレイテンシのごく一部で Gemini 3 の多くの推論能力を提供することで、インタラクティブで高スループットなワークロードの実用フロンティアを前進させます。一方 Pro は、研究グレードの推論上限、マルチモーダルの忠実度、エンタープライズ

Developers can access Gemini 3 Pro API and Gemini 3 Flash through CometAPI. To begin, explore the model capabilities ofCometAPI in the Playground and consult the API guide for detailed instructions. Before accessing, please make sure you have logged in to CometAPI and obtained the API key. CometAPI offer a price far lower than the official price to help you integrate.

Ready to Go?→ Gemini 3 の無料トライアル !

もっと読む

1つのAPIで500以上のモデル

最大20%オフ