Gemini 3.1 Flash Image Preview の技術仕様
| 項目 | Gemini 3.1 Flash Image Preview |
|---|---|
| 提供元 | |
| モデルファミリー | Gemini 3.1(Flash ティア) |
| 主な用途 | 画像プレビューを伴う高速マルチモーダル生成 |
| 入力タイプ | テキスト、画像 |
| 出力タイプ | テキスト、画像(プレビュー生成) |
| コンテキスト長 | 最大 1M トークン(Gemini 3.x Flash ティア標準) |
| レイテンシ層 | 低レイテンシ・高スループット |
| ストリーミング対応 | あり |
| ツール呼び出し | あり(Gemini API tools framework) |
| バージョン | 3.1 |
Nano Banana 2 とは
Nano Banana 2 は、プレスや開発者コミュニティで新たにリリースされた Gemini-3.1-Flash-Image モデルに付けられた通称です。Google はこれを「Flash」ティアの画像エンジンとして位置づけ、ほぼプロに近い視覚的忠実度を、はるかに低いレイテンシとコストで提供します。これは大量生成、迅速な反復編集、Google サービス全体にまたがる統合型プロダクトのワークフローに適しています。Gemini 3.1 のマルチモーダル推論を継承し、画像中心の機能(画像内テキストの可読性、複数画像の合成、ワイドなアスペクト比のサポート、ネイティブ 4K)を追加しています。
主な特長
- 高速・マルチ解像度生成: Flash ティアの速度で、0.5K / 1K / 2K / 4K 出力に対応し、新たな極端アスペクト比(1:4、4:1、1:8、8:1)をサポート。
- リアルタイムのウェブグラウンディング: 「Thinking」や検索グラウンディングが有効な場合、テキストと画像の検索結果を統合して、最新のウェブ情報に生成内容を根拠づけます。最新リファレンスや事実ベースのインフォグラフィックに有用。
- 改善されたテキストレンダリング: 以前の Flash モデルより短文やグラフィックテキスト(フォント、サイズ)の描画が向上。長文段落や極小テキストではまだ不完全な点あり。
- 複数入力の編集とマルチターンワークフロー: 複数画像入力の組み合わせや、ターンをまたぐ反復編集を強力にサポート。
📊 ベンチマーク性能 — 画像生成&編集(Elo スコア)
| 機能領域 | Gemini 3.1 Flash Image (Nano Banana 2) | Gemini 2.5 Flash Image (Nano Banana) | Gemini 3 Pro Image (Nano Banana Pro) | GPT-Image 1.5 | Seedream 5.0 Lite | Grok Imagine Image Pro |
|---|---|---|---|---|---|---|
| テキストから画像 — 総合選好 | 1079.0 ± 7.0 | 1073.0 ± 5.0 | 942.0 ± 6.0 | 1021.0 ± 5.0 | 1047.0 ± 5.0 | 928.0 ± 8.0 |
| テキストから画像 — 視覚品質 | 1140.0 ± 6.0 | 1129.0 ± 6.0 | 929.0 ± 6.0 | 1043.0 ± 5.0 | 975.0 ± 5.0 | 759.0 ± 10.0 |
| テキストから画像 — インフォグラフィック(正確性) | 1114.0 ± 14.0 | 1074.0 ± 12.0 | 881.0 ± 13.0 | 1102.0 ± 13.0 | 985.0 ± 12.0 | 890.0 ± 22.0 |
| 編集 — 一般 | 1065.0 ± 9.0 | 1047.0 ± 9.0 | 913.0 ± 9.0 | 1051.0 ± 10.0 | 995.0 ± 8.0 | 937.0 ± 9.0 |
| 編集 — キャラクター | 1056.0 ± 7.0 | 1049.0 ± 7.0 | 952.0 ± 7.0 | 1050.0 ± 8.0 | 1025.0 ± 7.0 | 894.0 ± 8.0 |
| 編集 — クリエイティブ | 1023.0 ± 7.0 | 1031.0 ± 7.0 | 976.0 ± 7.0 | 1004.0 ± 7.0 | 1017.0 ± 7.0 | 938.0 ± 7.0 |
| 編集 — オブジェクト/環境 | 1029.0 ± 8.0 | 1018.0 ± 8.0 | 945.0 ± 8.0 | 1042.0 ± 10.0 | 976.0 ± 8.0 | 946.0 ± 9.0 |
| 編集 — 複数入力 | 1037.0 ± 8.0 | 1016.0 ± 8.0 | 919.0 ± 9.0 | 1056.0 ± 12.0 | 1014.0 ± 9.0 | N/A |
| 編集 — スタイライズ | 1045.0 ± 7.0 | 1031.0 ± 7.0 | 862.0 ± 8.0 | 1045.0 ± 9.0 | 996.0 ± 7.0 | 984.0 ± 7.0 |
このベンチマーク表からの主なポイント:
- テキストから画像生成と画像編集の両カテゴリにおいて、Gemini 3.1 Flash Image は Flash ティアおよび多くの競合画像モデルの中で一貫して最高水準のスコアをリードまたは同等に達成しています。
- 特に視覚品質と**インフォグラフィック(正確性)**のベンチマークで強みを示しており、審美性だけでなく構造的に正確なコンテンツのレンダリングにも優れていることを示唆します。
- 複数入力編集でも Nano Banana 2 は堅牢な汎化性能を示し、前世代の Flash と比較してより高いスコアを記録しています。
これらの評価は、多様なベンチマークスイート上での人手によるサイドバイサイドの Elo 比較によって実施され、一般的な画像生成/編集タスクにおける選好と忠実度の双方を反映しています。
Nano Banana 2 と Nano Banana と Nano Banana Pro の比較
| モデル | 位置づけ | 代表的なベンチマーク/注記 |
|---|---|---|
| Gemini 3.1 Flash Image (Nano Banana 2) | Flash ティア: スピード + 高い視覚品質(2K–4K) | 総合選好 1079.0 ± 7.0、視覚品質 1140 ± 6.0(internal GenAI-Bench)。 |
| Gemini 2.5 Flash Image (Nano Banana) | 以前の Flash リリース(忠実度はやや低め) | 3.1 と比べ、選好/視覚スコアがやや低い傾向。 |
| Gemini 3 Pro Image (Nano Banana Pro) | Pro ティア: 複雑なタスクでの知覚的忠実度が高い一方、コスト/レイテンシも高い | トレードオフが異なる。専門タスクでは相対的な順位が異なるメトリクスも存在。 |
| GPT-Image 1.5 / その他の商用モデル | 競合(オープン/クローズド) | Google の内部ベンチマークでは、視覚品質と総合選好で Gemini 3.1 が GPT-Image などを上回る結果を報告。独立した第三者比較では結果が異なる場合があります。 |
Flash Image Preview を選ぶべきケース:
- アプリでのリアルタイム画像プレビュー
- コスト重視の大規模画像生成
- インタラクティブなデザインアシスタント
Nano Banana 2 の利用と統合方法
ステップ 1: API キーにサインアップ
cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI コンソール にサインインします。インターフェースのアクセス認証用 API キーを取得します。個人センターの API トークンで “Add Token” をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
ステップ 2: Nano Banana 2 API にリクエストを送信
“gemini-3.1-flash-image-preview8” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとボディは当社サイトの API ドキュメントから取得できます。当社サイトは利便性のために Apifox テストも提供しています。アカウントの実際の CometAPI キーで <YOUR_API_KEY> を置き換えてください。呼び出し先: Gemini generates image
Nano Banana 2 は画像編集、画像生成、複数画像のワークフローに対応しています。画像編集では画像の URL をアップロードする必要があります。その他のパラメータについてはドキュメントを参照してください。
ステップ 3: 結果の取得と検証
API レスポンスを処理し、生成された出力を取得します。処理後、API はタスクステータスと出力データを返します。プレイグラウンドで画像をローカルに直接ダウンロードできます(通常は PNG 形式)。API の処理過程で画像 URL が生成されますので、速やかにダウンロードしてください。