モデル料金エンタープライズ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
会社
会社概要エンタープライズ
リソース
AIモデルブログ変更履歴サポート
利用規約プライバシーポリシー
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

入力:$0.2/M
出力:$1.2/M
Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおける、コスト効率に優れ低レイテンシな Tier-3 モデルで、最大限の推論深度よりもスループットと速度が重視される大規模なプロダクション AI ワークフロー向けに設計されています。大きなマルチモーダルなコンテキストウィンドウと効率的な推論性能を兼ね備え、多くのフラッグシップモデルよりも低コストで提供されます。
新着
商用利用
Playground
概要
機能
料金プラン
API
バージョン

📊 技術仕様

仕様詳細
モデルファミリGemini 3 (Flash-Lite)
コンテキストウィンドウUp to 1 million tokens (multimodal text, images, audio, video)
出力トークン上限Up to 64 K tokens
入力タイプText, images, audio, video
コアアーキテクチャの基盤Based on Gemini 3 Pro
提供チャネルGemini API (Google AI Studio), Vertex AI
価格(プレビュー)~$0.25 per 1M input tokens, ~$1.50 per 1M output tokens
推論コントロールAdjustable “thinking levels” (e.g., minimal to high)

🔍 Gemini 3.1 Flash-Lite とは?

Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおけるコスト効率に優れた軽量バリアントであり、特に低レイテンシ、低トークン単価、高スループットが重視される大規模 AI ワークロードに最適化されています。Gemini 3 Pro のコアとなるマルチモーダル推論の基盤を維持しつつ、翻訳、分類、コンテンツモデレーション、UI 生成、構造化データ合成といったバルク処理ユースケースをターゲットにしています。

✨ 主な機能

  1. 超大規模コンテキストウィンドウ: 最大 1 M tokens のマルチモーダル入力を処理し、長文書の推論や動画/音声のコンテキスト処理に対応。
  2. 高いコスト効率: 既存の Flash-Lite モデルや競合と比べてトークン単価が大幅に低く、大規模利用が可能。
  3. 高スループット & 低レイテンシ: Gemini 2.5 Flash 比で、最初のトークンまでの時間が約 2.5× 高速、出力スループットが約 45 % 向上。
  4. 動的な推論コントロール: 「thinking levels」により、リクエスト単位でパフォーマンスと深い推論のバランスを調整可能。
  5. マルチモーダル対応: 画像、音声、動画、テキストを単一のコンテキスト空間でネイティブに処理。
  6. 柔軟な API アクセス: Google AI Studio の Gemini API およびエンタープライズ向け Vertex AI で利用可能。

📈 ベンチマーク性能

以下の指標は、過去の Flash/Lite 系や他モデルと比較した際の、Gemini 3.1 Flash-Lite の効率性と能力を示しています(2026年3月時点の報告):

ベンチマークGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (scientific knowledge)86.9 %66.7 %82.3 %
MMMU-Pro (multimodal reasoning)76.8 %51.0 %74.1 %
CharXiv (complex chart reasoning)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (code reasoning)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Not supported

これらのスコアは、効率重視の設計でありながら、Flash-Lite が競争力のある推論力とマルチモーダル理解を維持し、主要ベンチマークにおいて旧世代 Flash 系を多くの領域で上回っていることを示しています。

⚖️ 関連モデルとの比較

機能Gemini 3.1 Flash-LiteGemini 3.1 Pro
トークン単価低い(エントリー層)高い(プレミアム)
レイテンシ / スループット速度に最適化深さとのバランス
推論の深さ調整可能だが浅め深い推論が強力
主な用途バルクパイプライン、モデレーション、翻訳ミッションクリティカルな推論タスク
コンテキストウィンドウ1 M tokens1 M tokens (same)

Flash-Lite はスケールとコストに特化、Pro は高精度で深い推論に特化。

🧠 エンタープライズユースケース

  • 大規模翻訳とモデレーション: 低レイテンシのリアルタイム言語/コンテンツパイプライン。
  • バルクなデータ抽出と分類: 大規模コーパス処理における効率的なトークン経済性。
  • UI/UX 生成: 構造化 JSON、ダッシュボードテンプレート、フロントエンドのスキャフォールディング。
  • シミュレーションプロンプティング: 長い対話にわたる論理状態の追跡。
  • マルチモーダルアプリケーション: 動画、音声、画像の情報を統合した推論。

🧪 制限事項

  • 複雑でミッションクリティカルなタスクでは、推論の深さと分析精度が Gemini 3.1 Pro に劣る場合があります。 :
  • ロングコンテキスト融合のようなベンチマークでは、フラッグシップモデルと比較して改善の余地があります。
  • 動的推論コントロールは速度と綿密さのトレードオフであり、すべてのレベルで同一の品質が保証されるわけではありません。

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — 概要

GPT-5.3 Chat は、OpenAI の最新プロダクションチャットモデルで、公式 API では gpt-5.3-chat-latest エンドポイントとして提供され、ChatGPT の日常的な会話体験を支えるモデルです。GPT-5 ファミリから受け継いだ強力な技術能力を維持しつつ、日常のやり取りの質を高め、よりスムーズで正確、文脈に即した応答を目指しています。 :contentReference[oaicite:1]{index=1}


📊 技術仕様

仕様詳細
モデル名/エイリアスGPT-5.3 Chat / gpt-5.3-chat-latest
提供元OpenAI
コンテキストウィンドウ128,000 tokens
リクエストあたりの最大出力トークン16,384 tokens
知識のカットオフ2025年8月31日
入力モダリティText and image inputs (vision only)
出力モダリティText
関数呼び出しSupported
構造化出力Supported
ストリーミング応答Supported
ファインチューニングNot supported
蒸留 / 埋め込みDistillation not supported; embeddings supported
代表的なエンドポイントChat completions, Responses, Assistants, Batch, Realtime
関数呼び出しとツールFunction calling enabled; supports web & file search via Responses API

🧠 GPT-5.3 Chat の特長

GPT-5.3 Chat は、GPT-5 系列におけるチャット志向能力の改善を重ねたバリアントです。主な目標は、GPT-5.2 Instant などの従来モデルよりも、より自然で文脈的に一貫性があり、ユーザーフレンドリーな会話応答を提供することです。改善点は以下に重点化されています。

  • 動的で自然なトーン: 不要な但し書きが減り、より直接的な回答へ。
  • 文脈理解と関連性の向上: 日常的なチャットシナリオでの適合度が向上。
  • 豊かなチャットユースケースへのスムーズな統合: マルチターン対話、要約、会話型アシスタンスなど。

GPT-5.3 Chat は、将来的に提供予定の “Thinking” や “Pro” といった推論特化バリアントほどの深い推論は持たないものの、最新の会話品質を必要とする開発者やインタラクティブアプリケーションに推奨されます。


🚀 主な機能

  • 大きなチャットコンテキスト: 128K tokens により、豊富な会話履歴と長コンテキストの追跡が可能。 :contentReference[oaicite:17]{index=17}
  • 改善された応答品質: 不必要な但し書きや過度な拒否が減少し、会話の流れが洗練。 :contentReference[oaicite:18]{index=18}
  • 公式 API サポート: チャット、バッチ処理、構造化出力、リアルタイムワークフローなどに正式対応。
  • 多用途入力のサポート: テキストと画像入力を取り込み、マルチモーダルなチャットユースケースに適合。
  • 関数呼び出し & 構造化出力: API を通じて構造化・対話的なアプリパターンを実現。 :contentReference[oaicite:21]{index=21}
  • 広いエコシステム互換性: v1/chat/completions、v1/responses、Assistants など、最新の OpenAI API インターフェースに対応。

📈 代表的なベンチマークと挙動

📈 ベンチマーク性能

OpenAI と第三者のレポートでは、実環境での性能向上が示されています。

メトリクスGPT-5.3 Instant vs GPT-5.2 Instant
ウェブ検索ありの幻覚率−26.8%
検索なしの幻覚率−19.7%
ユーザー申告の事実誤認(ウェブ)~−22.5%
ユーザー申告の事実誤認(内部)~−9.6%

特に、GPT-5.3 の焦点は実世界の会話品質にあるため、標準化 NLP 指標のようなベンチマークスコアの改善はリリースの主眼ではありません。改善は、テストスコアよりもユーザー体験指標において最も明確に現れます。

業界比較では、GPT-5 系のチャットバリアントは、日常的なチャットの関連性とコンテキスト追跡において従来の GPT-4 モジュールを上回ることが知られていますが、専門的な推論タスクでは、専用の “Pro” バリアントや推論最適化エンドポイントが有利な場合があります。


🤖 ユースケース

GPT-5.3 Chat が適しているのは以下のケースです。

  • カスタマーサポートボットや会話アシスタント
  • インタラクティブなチュートリアル/教育エージェント
  • 要約と会話型検索
  • 内部ナレッジエージェントやチームチャットヘルパー
  • マルチモーダル Q&A(テキスト + 画像)

会話品質と API の汎用性のバランスにより、自然な対話と構造化データ出力を組み合わせるインタラクティブアプリに最適です。

🔍 制限事項

  • 最も深い推論バリアントではない: ミッションクリティカルで高度な分析には、今後提供予定の GPT-5.3 Thinking や Pro モデルがより適している場合があります。
  • マルチモーダル出力は限定的: 入力画像には対応しますが、完全な画像/動画生成やリッチなマルチモーダル出力ワークフローは主眼ではありません。
  • ファインチューニングは非対応: システムプロンプトによる行動制御は可能ですが、モデルの微調整はできません。

How to access Gemini 3.1 flash lite API

Step 1: Sign Up for API Key

cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。 CometAPI console にサインインし、インターフェースのアクセス認証用 API キーを取得します。パーソナルセンターの API token で “Add Token” をクリックし、トークンキー sk-xxxxx を取得して送信します。

cometapi-key

Step 2: Send Requests to Gemini 3.1 flash lite API

“` gemini-3.1-flash-lite” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社ウェブサイトの API ドキュメントから取得できます。利便性のため、当社ウェブサイトでは Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。base url is Gemini Generating Content

質問やリクエストを content フィールドに挿入します—モデルが応答する対象です。API レスポンスを処理して、生成された回答を取得します。

Step 3: Retrieve and Verify Results

API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。

よくある質問

What tasks is Gemini 3.1 Flash-Lite best suited for?

Gemini 3.1 Flash-Lite は、翻訳、コンテンツモデレーション、分類、UI/ダッシュボード生成、シミュレーション用プロンプトパイプラインなど、速度と低コストが優先される大量処理かつレイテンシに敏感なワークフロー向けに最適化されています。

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite は、テキスト、画像、音声、動画を含むマルチモーダル入力に対して、最大 100万トークン の大規模なコンテキストウィンドウをサポートし、出力は最大 64 K トークン です。

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

Gemini 2.5 Flash モデルと比較すると、Gemini 3.1 Flash-Lite は、最初の回答までの時間が約2.5倍高速で、出力スループットが約45%高く、さらに入力・出力の両方で100万トークンあたりのコストが大幅に低くなっています。 }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

はい — 最小、低、中、高など複数の推論または「思考」レベルを提供しており、開発者は複雑なタスクにおいて、速度とより深い推論との間でトレードオフできます。 :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

GPQA Diamond(科学知識)や MMMU Pro(マルチモーダル理解)などのベンチマークにおいて、Gemini 3.1 Flash-Lite は以前の Flash-Lite モデルと比較して高いスコアを示しており、公式評価では GPQA 約86.9%、MMMU 約76.8%です。

How can I access Gemini 3.1 Flash-Lite via API?

CometAPI を通じて、企業向け統合のために gemini-3.1-flash-lite-preview エンドポイントを利用できます。

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

大規模タスクでスループット、レイテンシ、コストを優先する場合は Flash-Lite を選択し、最高レベルの推論の深さ、分析精度、またはミッションクリティカルな理解が必要なタスクには Pro を選択してください。

Gemini 3.1 Flash-Liteの機能

Gemini 3.1 Flash-Liteのパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

Gemini 3.1 Flash-Liteの料金

Gemini 3.1 Flash-Liteの競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。Gemini 3.1 Flash-Liteがコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
入力:$0.2/M
出力:$1.2/M
入力:$0.25/M
出力:$1.5/M
-20%

Gemini 3.1 Flash-LiteのサンプルコードとAPI

Gemini 3.1 Flash-Liteの包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでGemini 3.1 Flash-Liteの潜在能力を最大限に活用できるよう支援します。
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Gemini 3.1 Flash-Liteのバージョン

Gemini 3.1 Flash-Liteに複数のスナップショットが存在する理由としては、アップデート後の出力変動により旧版スナップショットの一貫性維持が必要な場合、開発者に適応・移行期間を提供するため、グローバル/リージョナルエンドポイントに対応する異なるスナップショットによるユーザー体験最適化などが考えられます。各バージョンの詳細な差異については、公式ドキュメントをご参照ください。
モデル ID説明提供状況リクエスト
gemini-3-1-flash自動的に最新のモデルを指します✅Gemini コンテンツ生成
gemini-3-1-flash-preview公式プレビュー✅Gemini コンテンツ生成
gemini-3.1-flash-lite-preview-thinking思考版✅Gemini コンテンツ生成
gemini-3.1-flash-lite-thinking思考版✅Gemini コンテンツ生成

その他のモデル

C

Claude Opus 4.7

入力:$4/M
出力:$20/M
エージェントやコーディング向けの最も高知能なモデル
C

Claude Opus 4.6

入力:$4/M
出力:$20/M
Claude Opus 4.6 は、Anthropic の「Opus」クラスの大規模言語モデルで、2026年2月にリリースされた。ナレッジワークや研究ワークフローの主力として位置づけられており、長文脈での推論、多段階の計画立案、ツールの利用(エージェント型ソフトウェアワークフローを含む)、およびスライドやスプレッドシートの自動生成といったコンピュータ操作タスクを強化する。
A

Claude Sonnet 4.6

入力:$2.4/M
出力:$12/M
Claude Sonnet 4.6 は、これまでで最も高性能な Sonnet モデルです。コーディング、コンピューターの利用、長文脈推論、エージェントの計画立案、ナレッジワーク、デザインにわたってモデルのスキルを全面的にアップグレードしました。Sonnet 4.6 は、ベータ版で 1M トークンのコンテキストウィンドウも備えています。
O

GPT-5.4 nano

入力:$0.16/M
出力:$1/M
GPT-5.4 nano は、分類、データ抽出、ランキング、サブエージェントなど、速度とコストが最も重要となるタスク向けに設計されています。
O

GPT-5.4 mini

入力:$0.6/M
出力:$3.6/M
GPT-5.4 mini は、GPT-5.4 の強みを、高スループットのワークロード向けに設計された、より高速で効率的なモデルにもたらします。
Q

Qwen3.6-Plus

入力:$0.32/M
出力:$1.92/M
Qwen 3.6-Plus が利用可能になり、コード開発機能が強化され、マルチモーダル認識・推論の効率も向上し、Vibe Coding の体験がさらに向上しました。

関連ブログ

Gemini 3.1 Deep Think の入手方法
Mar 13, 2026

Gemini 3.1 Deep Think の入手方法

Gemini 3.1 Deep Think は、Google と Google DeepMind が開発した高度な推論モードで、AI システムが多段階の推論、科学的分析、複雑な問題解決を行えるようにします。現在は主に Google AI Ultra のサブスクリプション、Gemini アプリ、Gemini API や AI Studio などの開発者向けツールを通じて利用可能です。
Google、Gemini 3.1 Flash-Liteを発表 — 高速・低コストのLLM
Mar 5, 2026
gemini-3-1-flash-lite

Google、Gemini 3.1 Flash-Liteを発表 — 高速・低コストのLLM

Google は、開発者およびエンタープライズのワークロード向けに、高スループット・低レイテンシでコスト効率に優れたエンジンとして特別に設計された Gemini 3 ファミリーの最新メンバー「Gemini 3.1 Flash-Lite」を発表した。Google は Flash-Lite を Gemini 3 ラインにおける「最速かつ最もコスト効率の高い」モデルとして位置づけており、Pro 版と比べてはるかに低い価格帯で、ストリーミング対話、大規模なバックグラウンド処理、高頻度の本番タスク(例:翻訳、抽出、UI 生成、大規模分類)を提供することを目指した軽量版としている。