Nano Banana Pro (Gemini 3 Pro Image) API の使い方は?

CometAPI
AnnaNov 20, 2025
Nano Banana Pro (Gemini 3 Pro Image) API の使い方は?

Nano Banana Pro — 公式名称は Gemini 3 Pro Image — は、高度なマルチモーダル推論、高精度なテキストレンダリング、複数画像のコンポジション、スタジオ級のクリエイティブコントロールを組み合わせた、Google/DeepMind の新しいスタジオグレードの画像生成・編集モデルです。

Nano Banana Pro とは何か、なぜ重要なのか?

Nano Banana Pro は Google の最新の画像生成・画像編集モデル(“Gemini 3 Pro Image” リリース)で、最大 4K のスタジオ品質で文脈を理解した高忠実度の画像と画像上のテキストを生成するよう設計されています。従来の Nano Banana モデル(Gemini 2.5 Flash Image/“Nano Banana”)の後継として、推論能力、Search によるグラウンディング(実世界の事実)、より強力なテキストレンダリング、そしてローカル編集の制御が強化されています。モデルは Gemini アプリ内でインタラクティブに利用でき、標準の Gemini API からも Nano Banana Pro にアクセス可能ですが、プログラムによるアクセスでは特定のモデル識別子(gemini-3-pro-image-preview またはその安定版後継)を選択します。

重要な理由: Nano Banana Pro は単に美しい画像を作るためだけでなく、インフォグラフィック、データ駆動のスナップショット(天気、スポーツ)、テキスト量の多いポスター、プロダクトのモックアップ、複数画像の融合(最大 14 枚の入力画像、最大 5 人でキャラクターの一貫性を維持)など、情報を“視覚化”するために構築されています。デザイナー、プロダクトチーム、開発者にとって、精度・画像内テキスト・プログラマブルなアクセスの組み合わせは、従来は自動化が難しかった制作ワークフローを開きます。

API を通じて公開されている機能は?

開発者が利用できる代表的な API 機能は次のとおりです:

  • テキスト→画像生成(単段または多段の“Thinking”コンポジションフロー)。
  • 画像編集(ローカルマスク、インペインティング、スタイル調整)。
  • 複数画像の融合(参照画像の組み合わせ)。
  • 高度なリクエスト制御: 解像度、アスペクト比、後処理ステップ、プレビューモードでのデバッグ/検査用の“コンポジション思考”トレース。

Nano Banana Pro の主な革新点と機能

より高度なコンテンツ推論

Gemini 3 Pro の推論スタックを用いて、複雑で多段階の視覚的指示を解釈します(例:「このデータセットから 5 ステップのインフォグラフィックを作成し、二言語のキャプションを追加」)。API は“Thinking”メカニズムを公開しており、最終出力を洗練するための中間コンポジションテストを生成できます。

重要な理由: 単一パスでプロンプト→ピクセルに写像するのではなく、モデルは内部の“思考”プロセスを実行してコンポジションを洗練し、外部ツール(例: Google Search)を呼び出して事実のグラウンディング(例: 正確な図表ラベルやローカルに適した標識)を行えます。これにより、インフォグラフィック、ダイアグラム、プロダクトモックアップのようなタスクで、見栄えが良いだけでなく意味的に正確な画像が得られます。

実現方法: Nano Banana Pro の“Thinking”は、モデルが最終画像を生成する前に中間的なビジュアルと推論トレースを生成する、制御された内部推論/コンポジションパスです。API は、モデルが最大 2 つの中間フレームを作成し、最終画像がその連鎖の最後の段階であることを公開します。本番運用では、コンポジション、テキストの配置、レイアウトの意思決定に役立ちます。

より高精度なテキストレンダリング

画像内の可読でローカライズされたテキスト(メニュー、ポスター、図表)が大幅に向上。Nano Banana Pro は画像内テキストのレンダリングで新たな水準に到達しています:

  • 画像内のテキストが明瞭で読みやすく、綴りも正確。
  • 多言語生成に対応(中国語、日本語、韓国語、アラビア語など)。
  • 長文や複数行の説明テキストを画像内に直接記述可能。
  • 自動翻訳とローカリゼーションが利用可能。

重要な理由: 伝統的な画像モデルは、可読で整ったテキストのレンダリングが苦手でした。Nano Banana Pro は、信頼性の高いテキストレンダリングとローカリゼーション(例: 翻訳しつつレイアウトを保持)に最適化されており、ポスター、パッケージ、マルチ言語広告といった本格的なクリエイティブ用途を実現します。

実現方法: テキストレンダリングの改善は、テキストを含む画像の例に重きを置いたデータセットでの学習と、対象を絞った評価セット(人手評価や回帰テスト群)を組み合わせた、基盤となるマルチモーダルアーキテクチャによるものです。モデルは字形、フォント、レイアウト制約の整合を学習し、画像内に可読でローカライズされたテキストを生成します。ただし、極小の文字や非常に密度の高い段落では誤りが生じる場合があります。

視覚的一貫性と忠実度の強化

スタジオコントロール(照明、フォーカス、カメラアングル、カラーグレーディング)と複数画像のコンポジション(最大 14 枚の参照画像、複数の人物被写体に対する特別な配慮)により、キャラクターの一貫性(同一人物/キャラクターを編集をまたいで保持)やブランドアイデンティティを生成アセット全体で維持します。モデルはネイティブの 1K/2K/4K 出力をサポートします。

重要な理由: マーケティングやエンターテインメントのワークフローでは、ショットや編集をまたぐキャラクターの一貫性が求められます。モデルは最大で5人の類似性を維持でき、最大 14 枚の参照画像を 1 つのコンポジションにブレンドしながら、Sketch → 3D Render を生成できます。これは広告クリエイティブ、パッケージ、複数ショットのストーリーテリングに有用です。

実現方法: モデル入力は複数画像を受け付け、明示的なロール割り当て(例:「Image A: ポーズ」「Image B: 顔の参照」「Image C: 背景テクスチャ」)が可能です。アーキテクチャはそれらの画像に条件付けして、アイデンティティ/ポーズ/スタイルを維持しつつ、(照明やカメラなどの)変換を適用します。

Nano Banana Pro のパフォーマンスベンチマーク

Nano Banana Pro(Gemini 3 Pro Image)は「Text→Image AI ベンチマークで優れる」とされ、従来の Nano Banana モデルに比べて推論および文脈的グラウンディングの向上を示します。前リリースと比較して、忠実度の向上とテキストレンダリングの改善を重視しています。

Nano Banana Pro (Gemini 3 Pro Image) API の使い方は?

実務的な性能ガイダンス

1K や高速化に最適化された“Flash”モデルと比べ、2K/4K の高忠実度レンダリングではレイテンシとコストが増加することを想定してください。スループット/レイテンシが重要な場合はフラッシュ系(例: Gemini 2.5 Flash/Nano Banana)を高ボリューム用途に、品質と複雑な推論が必要なタスクには Nano Banana Pro/gemini-3-pro-image を使用してください。

開発者は Nano Banana Pro にどうアクセスする?

どのエンドポイントとモデルを選ぶべきか

モデル識別子(preview/pro): gemini-3-pro-image-preview(preview)— Nano Banana Pro の機能を使用したい場合に選択します。より高速・低コストの作業には、gemini-2.5-flash-image(Nano Banana)が引き続き利用可能です。

利用可能なサーフェス

  • Gemini API(generativelanguage エンドポイント):CometAPI のキーを使用して xx にアクセスできます。CometAPI は公式サイトより有利な価格で同一の API を提供します。画像生成には generateContent への直接 HTTP/SDK 呼び出しを利用できます(下記の例を参照)。
  • Google AI Studio:迅速な実験とデモアプリのリミックスのための Web サーフェス。
  • Vertex AI(エンタープライズ):プロビジョニング済みスループット、課金選択(従量課金/エンタープライズ階層)、大規模プロダクション向けのセーフティフィルタ。大規模パイプラインやバッチレンダリングに統合する場合は Vertex を使用します。

無料枠には使用制限があります。制限を超えると Nano Banana にフォールバックします。Plus/Pro/Ultra の階層ではより高い制限と透かし無しの出力を提供し、Ultra は Flow の動画ツールや Antigravity IDE の 4K モードで利用できます。

Nano Banana Pro で画像を生成する手順

1) Gemini アプリを使ったクイックなインタラクティブ手順

  1. Gemini を開き、Tools → Create images を選択します。
  2. モデルとして Thinking(Nano Banana Pro) を選択します。
  3. プロンプトを入力します。被写体、アクション、ムード、照明、カメラ、アスペクト比、画像上に表示するテキストを説明してください。例:
    「ロボティクスワークショップの 4K ポスターを作成:多様なチームがテーブルを囲み、ブループリントのオーバーレイ、サンセリフの太字見出し『Robots in Action』、暖かいタングステン光、浅い被写界深度、シネマティックな 16:9。」
    4.(任意)融合や参照に使用する画像を最大 14 枚までアップロードします。選択/マスクツールを使って局所的な領域を編集します。
  4. 生成し、自然言語で反復します(例:「見出しを青にして上中央に整列;ブループリントのコントラストを上げて」)。その後エクスポートします。

2) HTTP を使って Gemini の画像エンドポイントへ送信

CometAPI にログインしてキーを取得する必要があります。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

このサンプルは base64 の画像ペイロードを書き出して PNG ファイルに保存します。generationConfig.imageConfig.resolution パラメータは 4K 出力を要求します(3 Pro Image モデルで利用可能)。

3) 画像生成のために generateContent を直接 SDK から呼び出す

Google の SDK をインストールし、Google 認証を取得する必要があります。Python の例(テキスト+参照画像+グラウンディング):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

この例では、インラインの参照画像をアップロードし、google_search をツールとして有効化しながら 4K コンポジションを要求しています。Python SDK は低レベルの REST の詳細を処理します。

複数画像の融合とキャラクター一貫性

同一人物をシーンをまたいで保持するコンポジットを作るには、複数の inline_data パート(写真セットから選択)を渡し、創作指示で「出力間でアイデンティティを保持する」ことを明示します。

短い実践的な例 — 実際のプロンプトと想定フロー

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

想定パイプライン: アプリ → プロンプトテンプレート+CSV データ → プロンプト内のプレースホルダを置換 → image_size=2048x1152 で API 呼び出し → base64 PNG を受信 → アセット+来歴メタデータを保存 → 必要に応じてコンポジタで正確なフォントをオーバーレイ。

本番パイプラインの設計と安全性/来歴の扱い

推奨される本番アーキテクチャ

  1. プロンプト+ドラフトパス(高速モデル):gemini-2.5-flash-image(Nano Banana)を使って、低解像度のバリエーションを多数、低コストで生成。
  2. 選定と洗練:最良の候補を選び、プロンプトを洗練し、精度を高めるためにインペインティング/マスク編集を適用。
  3. 高忠実度の最終レンダリング:gemini-3-pro-image-preview(Nano Banana Pro)で最終の 2K/4K レンダリングと後処理(アップサンプリング、カラーグレーディング)を実行。
  4. 来歴とメタデータ:プロンプト、モデルバージョン、タイムスタンプ、SynthID 情報をアセットのメタデータストアに保存 — モデルは SynthID ウォーターマークを付与し、出力はコンプライアンスとコンテンツ監査のために追跡可能。

安全性、権利、モデレーション

  • 著作権と権利クリアランス:権利を侵害するコンテンツのアップロードや生成は行わないでください。認識可能な肖像を作り得るユーザー提供画像やプロンプトには、明示的なユーザー確認を用意します。Google の禁止事項ポリシーとモデルのセーフティフィルタを遵守してください。
  • フィルタリングと自動チェック:生成画像を下流で消費や公開する前に、内部のコンテンツモデレーション(NSFW、憎悪シンボル、政治的/拘束的コンテンツの検出)にかけます。

画像編集(インペインティング)、複数画像コンポジション、テキストレンダリングの方法

Nano Banana Pro はマルチモーダルな編集ワークフローをサポートします。1 枚以上の入力画像と、編集内容(物体の除去、空の変更、テキストの追加)を記述するテキスト指示を提供します。API は同一リクエスト内で画像+テキストを受け付け、応答としてテキストと画像をインタリーブして返すことができます。典型的なパターンには、マスク付き編集や複数画像のブレンド(スタイル転送/コンポジション)などがあります。contents 配列でテキストブロックとバイナリ画像を組み合わせる方法についてはドキュメントを参照してください。

例:編集(Python の擬似フロー)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

この対話的な編集により、プロダクションに耐えるアセットに達するまで結果を反復的に調整できます。

Node.js 例 — マスクと複数の参照を用いた画像編集

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

API は Cloud Storage の URI や base64 画像ペイロードを受け付ける場合があります。正確な入力形式は Gemini API のドキュメントをご確認ください。

CometAPI を使った画像生成・編集の詳細は、gemini-3-pro-image の呼び出しガイド を参照してください。

結論

Nano Banana Pro(Gemini 3 Pro Image)は、画像生成におけるプロダクショングレードの飛躍です。データの視覚化、ローカライズされた編集の実施、開発者向けワークフローの推進に役立ちます。迅速なプロトタイピングには Gemini アプリを、プロダクション統合には API を使用し、コスト管理、安全性の確保、ブランド品質の維持に関する推奨事項に従ってください。透明性と監査要件を満たすため、実際のユーザーワークフローを必ずテストし、来歴メタデータを保存してください。

スタジオ品質のアセット、コンポジションの精密な制御、画像内テキストの改善、複数参照の融合による一貫した出力が必要な場合は Nano Banana Pro を使用してください。

開発者は Gemini 3 Pro Image(Nano Banana Pro)API に CometAPI 経由でアクセスできます。まずは CometAPIPlayground でモデルの機能を試し、詳細手順は API ガイドを参照してください。アクセス前に CometAPI にログインし、API キーを取得してください。CometAPI は公式価格より大幅に低い価格での統合を支援します。

準備はできましたか?→ CometAPI に今すぐサインアップ

AI に関する最新のヒント、ガイド、ニュースを知りたい方は、VKXDiscord をフォローしてください!

トップモデルを 低コストで利用

もっと読む