Gemini 3.5 Flash APIの使い方

CometAPI
AnnaMay 20, 2026
Gemini 3.5 Flash APIの使い方

Google は Gemini 3.5 Flash を Google I/O 2026 で発表し、Flash レベルの速度とコストでフロンティア級の知性を提供しました。2026年5月19日前後にリリースされ、低レイテンシーを維持しながら、高度な推論、強力なエージェント機能、マルチモーダル理解を融合しています。

このモデルは、高性能な AI を、大型の「Pro」モデルのオーバーヘッドなしで必要とする開発者、企業、AI ビルダーにとって際立つ存在です。主要なエージェント系およびコーディング系ベンチマークで従来の Pro モデルに匹敵または上回る一方、優れた速度と効率性を提供します。

Key Highlights (Featured Snippet 構成):

  • パフォーマンス: Terminal-Bench 2.1 で Gemini 3.1 Pro を上回る(76.2% vs. 70.3%)、MCP Atlas(83.6%)など。
  • スピード: リアルタイムおよび大規模ユースケース向けの Flash レベルのレイテンシー。
  • コンテキスト: 最大 1M 入力トークン、64k 出力トークン。
  • マルチモーダル: テキスト、画像、動画、音声、PDF をネイティブに処理。
  • 価格: 概ね $1.50 / 1M 入力トークン、$9 / 1M 出力トークン(プロバイダ/プラットフォームにより変動)。

シームレスな統合のために、CometAPI は Gemini モデル(および多数の他モデル)への一元的で信頼性の高いプロキシを提供し、強化されたレート制限、簡素化された請求、フォールバックルーティング、利用分析を実現します。Gemini 3.5 Flash でスケールする本番アプリに最適です。

Gemini 3.5 Flash とは?

Gemini 3.5 Flash は、Google の Flash ティアで最も知的なモデルで、エージェント系およびコーディングタスクにおけるスケールでの継続的なフロンティア性能を狙って設計されています。Gemini 3 シリーズを基盤に、Pro に近い推論力と Flash レベルの効率を両立しています。

純粋にコスト重視の軽量「Lite」系や、最大限の知性を優先する重い Pro モデルとは異なり、3.5 Flash は実運用のマルチステップ・シナリオに強みがあります。サブエージェントの展開、迅速なコーディング反復(“vibe coding”)、ツールの並列利用、多ターンにわたりコンテキストを維持する長期ワークフローなどに適しています。

コア機能:

  • マルチモーダル入力: テキスト、画像、動画、音声、PDF。
  • ツール & エージェント機能: Function calling、コード実行、検索グラウンディング、ファイル検索、URL コンテキスト。(Computer Use は未対応)
  • 思考モード: 深さと速度のバランスを調整できる effort レベルを設定可能。
  • 本番対応: 安定版バージョニング(gemini-3.5-flash)の GA ステータス。

1M トークンのコンテキストをサポートし、巨大なドキュメント、コードベース、会話履歴の処理を可能にします。これは複雑なエージェントに不可欠です。

Gemini 3.5 Flash の新機能

Gemini 3 Flash および 3.1 Pro と比較して、3.5 Flash は大幅に強化されました。

  • エージェント性能の向上: 長距離・多ターンサイバー系ベンチマークで 42% 向上、ケースによってはトークンを 72% 削減。
  • コーディングの改善: 実務的な開発ワークフローで Terminal-Bench や SWE-Bench のバリアントをリード。
  • マルチモーダル推論の強化: CharXiv(84.2%)や MMMU-Pro でトップスコア。
  • 並列サブエージェントの協調: 複雑なマルチエージェントのオーケストレーションをネイティブにサポート(コードベース移行やゲーム開発などの Antigravity 事例で実証)。
  • 効率性の向上: 知性を高めつつ速度も維持または改善し、大規模本番運用に適合。

ベンチマーク比較表:

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 Pro注記
Terminal-Bench 2.1 (Agentic)76.2%58.0%70.3%コーディングで強み
MCP Atlas (Multi-step)83.6%62.0%78.2%エージェント系ワーク
CharXiv (Multimodal)84.2%80.3%83.3%チャート推論
GDPval-AA (Elo)165612041314ナレッジワーク
MMMU-Pro83.6%81.2%80.5%マルチモーダル

実運用ユーザー(例: Shopify、Macquarie Bank、Salesforce)は、予測、ドキュメント処理、エンタープライズ自動化での改善を報告しています。

振る舞いの調整と主な変更点

Google は効率と一貫性を高める重要な挙動更新を導入しました。

新しいデフォルト Effort レベル: Medium

既定の thinking_level は(以前のプレビューでの high から)medium に変更されました。これにより、ほとんどのタスクで優れた結果を出しつつ、レイテンシーとコストを削減できます。最も複雑な推論には high を使用してください。

Effort レベル比較表:

Effort Level最適な用途レイテンシー/コスト影響推奨ユースケース
minimalクイック応答最低チャット、簡単な事実、基本ルーティング
lowステップ数の少ないエージェント/コード分析、ライティング、簡易ツール
medium (default)ほとんどのタスクバランス複雑なコード、標準的なエージェント
high深い推論高め困難な数学、最難度のエージェントタスク

コード例(Python - 思考レベルの設定):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

同様のパターンは JavaScript、REST などにも適用できます。

思考の保持

会話の完全な履歴(思考シグネチャを含む)を提供した場合、モデルはマルチターンでの中間推論を自動的に維持します。これにより、反復的なデバッグ、リファクタリング、長時間のエージェントセッションでの性能が向上します。Interactions API では追加の API 変更は不要で、GenerateContent は完全な履歴を渡すことで恩恵を受けます。

パラメータ更新(Gemini 3.x ベストプラクティス)

  • temperature、top_p、top_k の手動設定は避ける — 既定値が最適化されています。
  • 数値の thinking_budget の代わりに thinking_level を使用。
  • 厳密な関数レスポンスの一致(id、name、count)が重要。これが欠けると空の応答につながります。

Gemini 3.5 Flash API の利用方法

1. アクセス手段:

  1. Google AI Studio(最も簡単にテスト可能)— 無料枠あり。
  2. Gemini API(API キーで直接)。
  3. Vertex AI / Gemini Enterprise Agent Platform(エンタープライズ機能と高い上限)。
  4. CometAPI などのサードパーティ(マルチプロバイダの簡易アクセス、分析、信頼性の面で推奨)。

CometAPI を始める: CometAPI は単一エンドポイントで Gemini モデルへのアクセスを集約し、より良いエラーハンドリング、利用ダッシュボード、コストアラートを提供します。Cometapi.com にサインアップし、キーを取得して、最小限のコード変更で gemini-3.5-flash(または同等のモデル ID)にリクエストをルーティングしてください。多数の API キー管理やレート制限への直接対応なしでスケールできます。

2. 基本セットアップと Hello World

Python クイックスタート:

import osfrom google import genaifrom google.genai import types​# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaults​client = genai.Client()​response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

JavaScript 例:

import { GoogleGenAI } from "@google/genai";​const ai = new GoogleGenAI({});​async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}​main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>​​

3. 応用: マルチモーダル、Function Calling、エージェント

マルチモーダル例(画像 + テキスト):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")​response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

エージェントワークフローのための Function Calling:

ツールを定義し、モデルに呼び出させ、レスポンスを提供します(id/name を厳密に一致させること)。

構造化出力:

レスポンススキーマを使用して信頼できる JSON パースを実現 — データ抽出パイプラインに最適です。

コード実行ツール:

サンドボックス内で Python コードを実行させ、数値計算、データ分析などに対応。

本格的なエージェント構成には、Google の Managed Agents(preview)を検討するか、オーケストレーション、ロギング、コスト制御のために Cometapi.com で自作することも可能です。

Gemini 3.5 Flash API のアドバイス

  1. 既定の medium Effort を活用 — 必要時のみ上書き。
  2. チャット/エージェントでは完全な履歴を渡して思考保持を活用。
  3. 繰り返し大規模プロンプトにはコンテキストキャッシングを使用(大幅な節約)。
  4. ツールレスポンスの厳密一致を徹底して失敗を防止。
  5. トークンを監視 — 1M コンテキストは強力だが乱用は高コスト。
  6. Cometapi.com と組み合わせ — Flash-Lite へのフォールバックなどの賢いルーティング、キャッシュ層、ダッシュボード、統合エラーハンドリングを実装し、コストと信頼性を最適化。

Gemini 3.5 Flash API のベストプラクティス

プロンプトエンジニアリング:

  • 役割(System + User)を明確にし構造化する。
  • 出力形式を指定(JSON、Markdown テーブル)。
  • Chain-of-Thought: "Think step-by-step..."

コスト最適化:

  • 既定の「medium」effort を活用。
  • キャッシングを利用(対応箇所)。
  • CometAPI ダッシュボードでトークン使用を監視。
  • 緊急性の低いタスクはバッチ処理。

エラーハンドリングと信頼性:

  • 指数バックオフ付きリトライを実装。
  • CometAPI を用いて他モデルへの自動フォールバック。

エージェント設計:

  • 複雑なタスクはサブエージェントに分割。
  • チャットセッションや外部メモリで状態を維持。
  • Antigravity または独自のオーケストレーションと組み合わせ。

実世界のアプリケーションと事例

  • コーディングエージェント: 迅速なフィードバックループによる反復開発。
  • エンタープライズ自動化: ドキュメント処理、データ抽出(例: Box Life Sciences の改善)。
  • マルチモーダル分析: 動画/音声 + テキストのリッチな洞察。
  • カスタマーサポートエージェント: 長文脈の会話ハンドリング。

Cometapi.com 経由での統合により、チームはプロンプト/モデルの A/B テスト、ワークフロー単位の ROI 追跡、インフラ管理なしのスケールが可能になります。

比較: Gemini 3.5 Flash vs. 競合 & 既存モデル

Gemini 3.5 Flash は、エージェント/コーディング用途で優れた価格性能を提供します。多くのタスクでフル Pro モデルより高速かつコスト効率に優れ、純粋な知性のギャップも縮めています。

選ぶべき場面:

  • 高スループットなアプリ(チャットボット、コーディングアシスタント)。
  • エージェント自動化。
  • 速度要件のあるマルチモーダル分析。
  • 予算を重視した本番運用。

制約: 依然としてプレビュー/安定版の差異があり得る点、出力によっては旧 Flash ティアより高価な場合も。十分な検証を推奨。

性能比較表(概算・公開情報に基づく):

Modelエージェント強度速度コスト (Input/Output)最適用途
Gemini 3.5 FlashHigh (Frontier)Very High$1.50 / $9Agents, Coding, Scale
Gemini 3 FlashMedium-HighHighLowerGeneral Fast Tasks
Gemini 3.1 ProVery HighMediumHigherMax Intelligence
Lite VariantsMediumHighestLowestHigh-Volume Simple

よくある落とし穴とトラブルシューティング

  • 関数レスポンスの不一致 → 空の出力。
  • high effort の過剰使用 → コスト/レイテンシー増。
  • 繰り返し文脈に対するキャッシュ未活用。
  • 長セッションでのトークン上限の見落とし。

結論: 今日から Gemini 3.5 Flash で構築を開始

Gemini 3.5 Flash は、速度重視・コスト志向のアプリケーションにフロンティア AI を民主化します。GA リリースと、medium 既定 effort や思考保持といった配慮ある挙動更新により、本番環境で強力な選択肢となります。

Action Steps:

  1. API キーを取得してテストする。
  2. 上記のコード例を用いて SDK で実装。
  3. プロキシ、最適化、監視、マルチ LLM 対応のために Cometapi.com を活用してスマートにスケール。
  4. エージェントパターンを試し、結果を共有。

このガイドに従うことで、Gemini 3.5 Flash を効果的に活用しつつ、リスクとコストを最小化できます。現代の AI ワークフローに合わせたシームレスな API 管理には、CometAPI を訪れて今すぐ統合してください。

AI開発コストを20%削減する準備はできていますか?

数分で無料スタート。無料トライアルクレジット付き。クレジットカード不要。

もっと読む