Gemini 2.5 Flash は、出力品質を損なうことなく迅速に応答するよう設計されています。テキスト、画像、音声、動画を含むマルチモーダル入力に対応しており、幅広い用途に適しています。Google AI Studio や Vertex AI などのプラットフォームを通じて利用可能で、開発者がさまざまなシステムへシームレスに統合するためのツールを提供します。
基本情報(機能)
Gemini 2.5 Flash は、Gemini 2.5 ファミリーの中で際立たせるいくつかの注目すべき機能を導入しています:
- ハイブリッド推論: 出力前の内部推論にモデルがどれだけのトークンを割り当てるかを細かく制御するために、開発者は thinking_budget パラメータを設定できます。
- パレート・フロンティア: 最適なコスト・パフォーマンス点に位置づけられ、Flash は 2.5 モデルの中で最高の価格対知能比を提供します。
- マルチモーダル対応: テキスト、画像、動画、音声をネイティブに処理し、より豊かな対話と分析を可能にします。
- 100万トークンのコンテキスト: 比類ないコンテキスト長により、単一リクエストでの深い分析と長文ドキュメントの理解が可能です。
モデルのバージョニング
Gemini 2.5 Flash は、以下の主要なバージョンを経て移行してきました:
- gemini-2.5-flash-lite-preview-09-2025: ツールの使いやすさを向上: 複雑な多段タスクでの性能が向上し、SWE-Bench Verified スコアが 5% 改善(48.9% から 54%)。効率性の向上: 推論を有効化した場合、より少ないトークンで高品質な出力を達成し、レイテンシとコストを削減。
- Preview 04-17: “thinking” 機能を備えた早期アクセス版。gemini-2.5-flash-preview-04-17 経由で利用可能。
- Stable General Availability (GA): 2025 年 6 月 17 日時点で、安定版エンドポイント gemini-2.5-flash がプレビューを置き換え、5 月 20 日のプレビューから API の変更なしに本番レベルの信頼性を確保。
- Deprecation of Preview: プレビューのエンドポイントは 2025 年 7 月 15 日にシャットダウン予定で、この日までに GA エンドポイントへ移行する必要があります。
2025 年 7 月時点で、Gemini 2.5 Flash は一般公開かつ安定版です(gemini-2.5-flash-preview-05-20 からの変更はありません)。gemini-2.5-flash-preview-04-17 を使用している場合、モデルのエンドポイントは 2025 年 7 月 15 日に廃止予定で、その日まで既存のプレビュー料金が適用され、当日シャットダウンされます。一般提供のモデル gemini-2.5-flash へ移行できます。
より高速、低コスト、スマートに:
- 設計目標: 低レイテンシ + 高スループット + 低コスト;
- 推論、マルチモーダル処理、長文タスクにおける全体的な高速化;
- トークン使用量を 20–30% 削減し、推論コストを大幅に低減。
技術仕様
入力コンテキストウィンドウ: 最大 100 万トークンで、広範なコンテキスト保持が可能。
出力トークン: 応答あたり最大 8,192 トークンを生成可能。
対応モダリティ: テキスト、画像、音声、動画。
統合プラットフォーム: Google AI Studio と Vertex AI を通じて利用可能。
価格: 競争力のあるトークンベースの料金体系で、コスト効率の高い導入を支援。
技術詳細
内部的には、Gemini 2.5 Flash は Web、コード、画像、動画データの混合で訓練されたtransformer-based 大規模言語モデルです。主要な技術仕様には次が含まれます:
マルチモーダル学習: 複数のモダリティを整合させるように訓練されており、Flash はテキストと画像、動画、音声をシームレスに組み合わせ、動画の要約や音声キャプション作成などに有用。
動的な思考プロセス: 最終出力の前に、モデルが計画し、複雑なプロンプトを分解する内部推論ループを実装。
調整可能な思考バジェット: thinking_budget は 0(推論なし)から 24,576 tokens まで設定でき、レイテンシと回答品質のトレードオフが可能。
ツール統合: Grounding with Google Search、Code Execution、URL Context、Function Calling をサポートし、自然言語プロンプトから現実世界のアクションを直接実行可能。
ベンチマーク性能
厳密な評価において、Gemini 2.5 Flash は業界最先端の性能を示します:
- LMArena Hard Prompts: 困難な Hard Prompts ベンチマークで、2.5 Pro に次ぐ第 2 位のスコアを記録し、強力な多段推論能力を示しました。
- MMLU スコア 0.809: 0.809 の MMLU 精度で平均的なモデル性能を上回り、広範なドメイン知識と推論力を反映。
- レイテンシとスループット: 271.4 tokens/sec のデコード速度と 0.29 s Time-to-First-Token を達成し、レイテンシに敏感なワークロードに最適。
- 価格対性能のリーダー: \$0.26/1 M tokens で、主要なベンチマークで同等またはそれ以上の結果を示しつつ、多くの競合よりも低価格。
これらの結果は、推論、科学的理解、数学的問題解決、コーディング、視覚的解釈、多言語能力における Gemini 2.5 Flash の競争力を示しています:
制限事項
強力である一方で、Gemini 2.5 Flash にはいくつかの制限があります:
- 安全性リスク: 特にエッジケースのクエリにおいて、モデルが**“preachy” な口調**を示したり、もっともらしく聞こえるが誤っていたり偏っている出力(幻覚)を生成する可能性があります。厳格な人による監督が依然として不可欠です。
- レート制限: API の使用はレート制限(デフォルト階層で 10 RPM、250,000 TPM、250 RPD)により制約され、バッチ処理や大規模アプリケーションに影響する可能性があります。
- 知能の下限: flash モデルとして非常に高性能ではあるものの、高度なコーディングやマルチエージェント協調といった最も要求の高いエージェント的タスクでは 2.5 Pro より正確性が劣ります。
- コストのトレードオフ: price-performance に優れる一方で、thinking モードを多用すると全体のトークン消費が増加し、深い推論を要するプロンプトではコストが上昇します。




