Nano Banana Pro(Gemini 3 Pro イメージ) API の使い方

CometAPI
AnnaDec 10, 2025
Nano Banana Pro(Gemini 3 Pro イメージ) API の使い方

ナノバナナプロ — 公式 Gemini 3 Pro の画像 — は、高度なマルチモーダル推論、高忠実度のテキスト レンダリング、複数画像の構成、スタジオ レベルのクリエイティブ コントロールを組み合わせた、Google/DeepMind の新しいスタジオ グレードの画像生成および編集モデルです。

Nano Banana Pro とは何ですか? なぜ気にする必要があるのですか?

Nano Banana Proは、Googleの最新の画像生成・編集モデルである「Gemini 3 Pro Image」リリースです。高忠実度でコンテキストアウェアな画像と、最大4Kのスタジオ品質の画像テキストを生成するように設計されています。これは、以前のNano Bananaモデル(Gemini 2.5 Flash Image / 「Nano Banana」)の後継であり、推論機能の向上、検索グラウンディング(現実世界の事実)、強力なテキストレンダリング、そしてより強力なローカル編集コントロールを備えています。このモデルは、インタラクティブなユーザー向けにGeminiアプリ内で利用可能で、Nano Banana Proには標準のGemini APIを介してアクセスできますが、特定のモデル識別子(gemini-3-pro-image-preview またはその安定した後継バージョン)。プログラムによるアクセス用。

これが重要な理由: Nano Banana Proは美しい画像を作成するだけでなく、 情報を視覚化する インフォグラフィック、データ駆動型スナップショット(天気、スポーツ)、テキスト中心のポスター、製品モックアップ、複数画像の融合(最大14枚の入力画像、最大5人のキャラクターの一貫性を維持)。デザイナー、製品チーム、開発者にとって、正確性、画像上のテキスト、プログラムによるアクセスの組み合わせは、これまで自動化が困難だった制作ワークフローを可能にします。

API 経由で公開される機能は何ですか?

開発者に公開される一般的な API 機能は次のとおりです。

  • テキスト→画像生成 (単一ステップまたは複数ステップの「思考」構成フロー)。
  • 画像編集 (ローカルマスク、インペインティング、スタイル調整)。
  • 複数画像の融合 (参考画像を組み合わせます)。
  • 高度なリクエスト制御: 解像度、アスペクト比、後処理手順、およびプレビュー モードでのデバッグ/検査可能性のための「構成の考え」トレース。

Nano Banana Proのコアイノベーションと機能

よりスマートなコンテンツ推論

Gemini 3 Proの推論スタックを用いて、複雑で複数段階の視覚的な指示(例:「このデータセットから5段階のインフォグラフィックを作成し、バイリンガルのキャプションを追加する」)を解釈します。APIは、中間的な構成テストを生成して最終出力を洗練させることができる「思考」メカニズムを提供します。

なぜ重要なのか: プロンプトからピクセルへとマッピングする単一のパスではなく、モデルは内部で「思考」プロセスを実行し、構図を洗練させます。また、外部ツール(例:Google検索)を呼び出して事実に基づく根拠(例:正確な図表ラベルや地域に適した標識)を見つけることができます。これにより、インフォグラフィック、図表、製品モックアップなどのタスクにおいて、より美しく、より意味的に正しい画像が生成されます。

達成方法: Nano Banana Proの「Thinking(思考)」は、モデルが最終画像を生成する前に、制御された内部推論/構成パスです。APIは、モデルが最大2つの中間フレームを作成し、最終画像がそのチェーンの最終段階であることを公開しています。これは、制作現場では、構成、テキストの配置、レイアウトの決定に役立ちます。

より正確なテキストレンダリング

画像内(メニュー、ポスター、図表)の読みやすいローカライズされたテキストが大幅に改善されました。Nano Banana Pro は、画像テキストのレンダリングにおいて新たな高みに到達しました。

  • 画像内のテキストは明瞭で読みやすく、正確に綴られています。
  • 多言語生成をサポートします(中国語、日本語、韓国語、アラビア語など)。
  • ユーザーが長い段落や複数行の説明テキストを画像内に直接書き込むことを可能にします。
  • 自動翻訳とローカライズが利用可能です。

なぜ重要なのか: 従来の画像モデルでは、読みやすく整列したテキストのレンダリングが困難でした。Nano Banana Proは、信頼性の高いテキストレンダリングとローカリゼーション(翻訳とレイアウトの維持など)に最適化されており、ポスター、パッケージ、多言語広告といったクリエイティブな用途に真に貢献します。

達成方法: テキストレンダリングの改善は、基盤となるマルチモーダルアーキテクチャと、画像内テキストの例を重視したデータセットを用いたトレーニング、そして対象を絞った評価セット(人間による評価と回帰分析セット)の組み合わせによって実現されています。モデルはグリフの形状、フォント、レイアウト制約を整合させることで、画像内に読みやすくローカライズされたテキストを生成します。ただし、小さなテキストや非常に密集した段落では、依然としてエラーが発生しやすい可能性があります。

視覚的な一貫性と忠実度の向上

スタジオコントロール(照明、フォーカス、カメラアングル、カラーグレーディング)とマルチイメージ合成(最大14枚の参照画像、複数の人物被写体の撮影にも対応)により、キャラクターの一貫性(編集間で同じ人物/キャラクターを維持)とブランドアイデンティティを、生成されたアセット全体で維持できます。このモデルはネイティブ1K/2K/4K出力をサポートしています。

なぜ重要なのか: マーケティングやエンターテインメントのワークフローでは、ショットや編集を通して一貫したキャラクターが求められます。モデルは最大で 人々と溶け合う 14 スケッチ→3Dレンダリングの作成中に、参照画像を単一のコンポジションにまとめることができます。これは、広告クリエイティブ、パッケージング、またはマルチショットのストーリーテリングに役立ちます。

達成方法: モデルの入力は、明示的に役割が割り当てられた複数の画像(例:「画像A:ポーズ」、「画像B:顔の参照」、「画像C:背景テクスチャ」)を受け入れます。このアーキテクチャは、これらの画像に基づいて生成を行い、変換(照明、カメラ)を適用しながら、画像のアイデンティティ、ポーズ、スタイルを維持します。

Nano Banana Proのパフォーマンスベンチマーク

Nano Banana Pro(Gemini 3 Pro Image)は、「Text→Image AIベンチマークで優れた性能」を示し、以前のNano Bananaモデルと比較して推論能力とコンテキストグラウンディング能力が向上していることが示されています。以前のリリースと比較して、テキストの忠実度が向上し、レンダリング性能も向上しています。

Nano Banana Pro(Gemini 3 Pro イメージ) API の使い方

実践的なパフォーマンスガイダンス

期待する レイテンシが高い 2K/4Kの高忠実度レンダリングは、1Kや速度重視の「Flash」モデルよりも処理速度とコストが高くなります。スループットとレイテンシが重要な場合は、高負荷処理にはFlashモデル(例:Gemini 2.5 Flash / Nano Banana)を使用し、高品質で複雑な推論タスクにはNano Banana Pro / gemini-3-pro-imageを使用してください。

開発者はどのようにして Nano Banana Pro にアクセスできますか?

どのエンドポイントとモデルを選択するか

モデル識別子(プレビュー / プロ): gemini-3-pro-image-preview (プレビュー)— Nano Banana Proの機能が必要な場合に使用します。より速く、より低コストで作業したい場合は、 gemini-2.5-flash-image (ナノバナナ)は引き続き販売中です。

使用する表面

  • Gemini API (生成言語エンドポイント): CometAPIキーを使用してxxにアクセスできます。CometAPIは公式ウェブサイトよりもお得な価格で同じAPIを提供しています。直接HTTP / SDK呼び出しで generateContent 画像生成用(下記に例を示します)。
  • Google AI スタジオ: デモ アプリを迅速に実験およびリミックスするための Web サーフェス。
  • Vertex AI(エンタープライズ): プロビジョニングされたスループット、課金オプション(従量課金制 / エンタープライズレベル)、そして大規模プロダクション向けの安全フィルターを備えています。大規模なパイプラインやバッチレンダリングジョブに統合する場合は、Vertex をご利用ください。

無料プランには使用制限があり、制限を超えるとNano Bananaに戻ります。Plus/Pro/Ultraプランでは、より高い制限とウォーターマークフリーの出力が提供されますが、UltraプランはFlowビデオツールとAntigravity IDEの4Kモードで使用できます。

Nano Banana Pro で画像を生成するにはどうすればいいですか (ステップバイステップ)?

1) ジェミニアプリを使った簡単なインタラクティブレシピ

  1. Geminiを開く → ツール → 画像の作成.
  2. 選択する 考える(ナノバナナプロ) モデルとして。
  3. プロンプトを入力します。被写体、アクション、雰囲気、照明、カメラ、アスペクト比、画像に表示するテキストなどを入力します。例:
    「ロボット工学ワークショップの 4K ポスターを作成します。テーブルを囲む多様なチーム、設計図のオーバーレイ、サンセリフ体の太字の見出し「Robots in Action」、暖かいタングステンライト、浅い被写界深度、映画のような 16:9 を使用します。」
  4. (オプション)合成または参照として使用する画像を最大14枚までアップロードします。選択/マスクツールを使用して、領域を部分的に編集します。
  5. 自然言語で生成し、反復処理します(例:「見出しを青色にして中央上部に配置し、設計図のコントラストを高めます」)。その後、エクスポートします。

2) HTTPを使用してGeminiイメージエンドポイントに送信する

キーを取得するには、CometAPI にログインする必要があります。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

このサンプルは、base64画像ペイロードをPNGファイルに書き込みます。 generationConfig.imageConfig.resolution パラメータは4K出力を要求します(3 Pro Imageモデルで利用可能)

3) SDKを直接呼び出す generateContent 画像生成用

Google SDKのインストールとGoogle認証の取得が必要です。Pythonの例(テキスト + 参照画像 + グラウンディング):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

この例では、インライン参照画像をアップロードし、4Kコンポジションをリクエストしながら、 google_search ツールとして。Python SDK は低レベルの REST の詳細を処理します。

複数画像の融合と文字の一貫性

シーン間で同じ人物を保持する合成画像を作成するには、 の試合に inline_data パーツ(写真セットから選択)を選択し、モデルが「出力間でアイデンティティを維持する」というクリエイティブ指示を指定します。

短い実例 - 実際のプロンプトと予想される流れ

プロンプト:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

予想されるパイプライン: アプリ → プロンプトテンプレート + CSVデータ → プロンプト内のプレースホルダーを置き換え → API呼び出し image_size=2048x1152 → base64 PNG を受信 → アセット + 来歴メタデータを保存 → 必要に応じて、コンポジターを介して正確なフォントをオーバーレイします。

生産パイプラインを設計し、安全性と出所をどのように処理すればよいですか?

推奨される本番環境アーキテクチャ

  1. プロンプト + ドラフトパス (高速モデル):   gemini-2.5-flash-image (ナノバナナ) 低解像度のバリエーションを安価に多数生産できます。
  2. 選択と絞り込み: 最適な候補を選択し、プロンプトを調整し、精度を高めるためにインペインティング/マスク編集を適用します。
  3. 高忠実度の最終レンダリング: コール gemini-3-pro-image-preview (Nano Banana Pro) 最終的な 2K/4K レンダリングとポストプロセス (アップサンプリング、カラー グレード) 用。
  4. 来歴とメタデータ: プロンプト、モデル バージョン、タイムスタンプ、および SynthID 情報をアセット メタデータ ストアに保存します。モデルには SynthID ウォーターマークが添付され、コンプライアンスとコンテンツ監査のために出力を遡ることができます。

安全、権利、節度

  • 著作権および権利のクリアランス: 権利を侵害するコンテンツをアップロードまたは作成しないでください。ユーザーが提供した画像や、認識可能な肖像画を作成する可能性のあるプロンプトについては、明示的なユーザー確認を使用してください。Googleの禁止使用ポリシーとモデル安全フィルターを遵守してください。
  • フィルタリングと自動チェック: 生成された画像は、下流での消費や公開表示の前に、内部コンテンツ モデレーション パイプライン (NSFW、ヘイト シンボル、政治的/拘束力のあるコンテンツの検出) に通します。

画像編集(インペインティング)、複数画像の合成、テキストレンダリングを行うにはどうすればいいですか?

Nano Banana Proは、マルチモーダル編集ワークフローをサポートしています。1枚以上の入力画像と、編集内容(オブジェクトの削除、空の変更、テキストの追加など)を説明するテキスト指示を提供します。APIは、画像とテキストを同じリクエストで受け入れ、モデルはテキストと画像を交互に生成してレスポンスとして生成します。パターンの例としては、マスク編集や複数画像のブレンド(スタイル転送/合成)などがあります。詳細はドキュメントをご覧ください。 contents テキスト BLOB とバイナリ イメージを組み合わせた配列。

例: 編集 (Python 擬似フロー)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

この会話型編集により、本番環境に対応したアセットに到達するまで、結果を繰り返し調整できます。

Node.js の例 - マスクと複数の参照を使用した画像編集

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API は Cloud Storage URI または base64 画像ペイロードを受け入れる場合があります。正確な入力形式については、Gemini API ドキュメントを確認してください。)

CometAPIを使用した画像の生成と編集については、以下を参照してください。 gemini-3-pro-image の呼び出しガイド .

結論

Nano Banana Pro(Gemini 3 Pro Image)は、画像生成における飛躍的な進歩をもたらします。データの可視化、ローカライズされた編集、そして開発者のワークフロー強化のためのツールです。Geminiアプリで迅速なプロトタイピングを、APIで本番環境への統合を実現し、上記の推奨事項に従うことで、コスト管理、安全性の確保、ブランド品質の維持を実現できます。常に実際のユーザーワークフローをテストし、出所メタデータを保存することで、透明性と監査のニーズに対応します。

必要なときにNano Banana Proを使用してください スタジオ品質 アセット、構成の正確な制御、画像内のテキスト レンダリングの改善、複数の参照を 1 つの一貫した出力に融合する機能などです。

開発者はアクセスできる Gemini 3 Pro イメージ (Nano Banana Pro) API CometAPIを通じて。まずは、コメットAPI 会場は プレイグラウンド 詳細な手順についてはAPIガイドをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 eタピ 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

準備はいいですか?→ 今すぐCometAPIに登録しましょう !

AIに関するヒント、ガイド、ニュースをもっと知りたい方は、フォローしてください。 VKX および Discord!

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ