Gemini 3 Pro (Preview) は、Gemini 3 ファミリーにおける Google/DeepMind の最新フラッグシップ多モーダル推論モデルです。彼らの「これまでで最も知的なモデル」と位置づけられ、深い推論、エージェント駆動のワークフロー、高度なコーディング、長コンテキストでのマルチモーダル理解(テキスト、画像、音声、動画、コードおよびツール統合)に向けて設計されています。
主な機能
- モダリティ: テキスト、画像、動画、音声、PDF(および構造化ツール出力)。
- エージェント/ツール: 組み込みの関数呼び出し、検索をツールとして利用、コード実行、URL コンテキスト、多段エージェントのオーケストレーションに対応。Thought-signature メカニズムにより、呼び出し間で多段推論を保持します。
- コーディング & 「vibe coding」: フロントエンド生成、インタラクティブな UI 生成、エージェント的コーディングに最適化(Google が報告する関連リーダーボードでトップ)。同社最強の「vibe-coding」モデルとしてマーケティングされています。
- 新しい開発者向けコントロール:
thinking_level(low|high)はコスト/レイテンシと推論深度のトレードオフを調整し、media_resolutionは画像や動画フレームごとのマルチモーダルの忠実度を制御します。これらにより、性能・レイテンシ・コストのバランスが取りやすくなります。
ベンチマーク性能
- Gemini3Pro は LMARE で 1501 点を獲得し 1 位。Grok-4.1-thinking の 1484 点を上回り、Claude Sonnet 4.5 と Opus 4.1 も凌駕しました。
- WebDevArena のプログラミングアリーナでも 1487 点で 1 位を獲得。
- Humanity’s Last Exam の学術推論で 37.5%(ツール未使用)、GPQA Diamond のサイエンスで 91.9%、MathArena Apex の数学コンペで 23.4% を達成し、新記録を樹立。
- マルチモーダル能力では MMMU-Pro が 81%、Video-MMMU の動画理解では 87.6%。
技術詳細とアーキテクチャ
- 「Thinking level」パラメータ: Gemini 3 は
thinking_levelコントロールを公開し、開発者が内部推論の深さとレイテンシ/コストのトレードオフを行えるようにします。モデルはthinking_levelを厳密なトークン保証ではなく、内部の多段推論に対する相対的な許容量として扱います。Pro のデフォルトは一般にhigh。これは、多段計画やチェーン・オブ・ソートの深さを調整するための明示的な新コントロールです。 - 構造化出力とツール: モデルは 構造化 JSON 出力 をサポートし、組み込みツール(Google 検索によるグラウンディング、URL コンテキスト、コード実行など)と組み合わせることができます。構造化出力 + ツールの一部機能は
gemini-3-pro-previewでのプレビュー限定です。 - マルチモーダルおよびエージェント統合: Gemini 3 Pro はエージェント的ワークフロー(ツール利用 + 複数エージェントによるコード/ターミナル/ブラウザ操作)を明確に想定して構築されています。
制限と既知の注意点
- 完全な正確性ではない — 幻覚は依然として起こり得ます。Google の主張する正確性改善にもかかわらず、法務・医療・金融など高リスク領域では根拠確認と人的レビューが必要です。
- 長コンテキスト性能はタスクによりばらつきあり。1M 入力ウィンドウのサポートはハードな能力ですが、極端な長さでは一部ベンチマークで実効性が低下することが観察されています(1M でのポイント低下など)。
- コストとレイテンシのトレードオフ。大きなコンテキストや高い
thinking_levelは計算量・レイテンシ・コストを増やします。thinking_levelや分割戦略でコストを管理してください。 - セーフティとコンテンツフィルタ。Google は引き続き安全性ポリシー/モデレーションを適用しており、特定のコンテンツやアクションは制限されたり拒否モードを引き起こします。
Gemini 3 Pro Preview は他のトップモデルとどう比較されるか
ハイレベル比較(プレビュー → 定性的):
Gemini 2.5 Pro と比較: 推論、エージェント的ツール利用、マルチモーダル統合で段違いの進歩。より大きなコンテキスト処理と長文理解の改善。DeepMind は学術推論、コーディング、マルチモーダルでの一貫した向上を示しています。
GPT-5.1 および Claude Sonnet 4.5(報告ベース)と比較: Google/DeepMind のベンチマーク群では、Gemini 3 Pro はいくつかのエージェント、マルチモーダル、長コンテキスト指標でリードと提示されています(Terminal-Bench、MMMU-Pro、AIME を参照)。比較結果はタスクにより変動します。
代表的かつ高価値なユースケース
- 大規模ドキュメント/書籍の要約と Q&A: 長コンテキスト対応により、法務・リサーチ・コンプライアンスチームに有望。
- リポジトリ規模でのコード理解と生成: コーディングツールチェーンとの統合と推論強化により、大規模コードベースのリファクタや自動コードレビューを支援。
- マルチモーダル製品アシスタント: 画像 + テキスト + 音声のワークフロー(スクリーンショット、通話スニペット、ドキュメントの取り込み)。
- メディア生成・編集(写真 → 動画): 既存の Gemini 系機能に Veo / Flow スタイルの写真→動画機能を含み、プレビューではプロトタイピングやメディアワークフロー向けにより深いマルチメディア生成が示唆されています。
Gemini 3 Pro API へのアクセス方法
ステップ 1: API キーを取得
cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI console にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API token で “Add Token” をクリックし、トークンキー: sk-xxxxx を取得して送信します。
ステップ 2: Gemini 3 Pro API にリクエストを送信
“gemini-3-pro” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントから取得します。当社サイトは利便性のため Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。ベース URL は Gemini Generating Content と Chat です。
質問や依頼を content フィールドに挿入します — モデルはこの内容に応答します。API レスポンスを処理して生成された回答を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。