Gemini 3 Pro イメージ (Nano Banana Pro) API

CometAPI
AnnaDec 10, 2025
Gemini 3 Pro イメージ (Nano Banana Pro) API

Googleの ナノバナナプロ (公式モデルID gemini-3-pro-image-preview)は、Gemini 3 Proの画像生成/画像編集バージョンです。プレビュー段階のプロ仕様の画像モデルで、2K/4K出力、高忠実度のマルチ画像合成(最大 参考画像14枚、文字の一貫性 アップ5人へ)、画像内テキストのレンダリング強化、現実世界の事実に基づく検索の基盤などです。

基本的な機能

  • テキスト → 画像: 強力なプロンプト遵守による完全なプロンプト駆動型生成。
  • 画像 → 画像(編集): 複数の編集にわたって主題/登場人物の一貫性を維持しながら、細かくターゲットを絞った編集。
  • 最大出力解像度: 以下 4K (例とサポートされる正確なピクセル サイズはアスペクト比によって異なります。API は 1K/2K/4K プリセットを公開します)
  • 反復的な計画と自己修正: 一般的な視覚的な間違い (遠近法、テキスト、細かい形状) を検出して修正する内部の「マルチステージ」パイプライン。
  • 高度な画像内テキストレンダリング: ポスター、モックアップ、インフォグラフィックに適した、明確で読みやすい多言語テキスト (短いキャプションから長い段落まで)。
  • 5文字 最大で忠実度 14個のオブジェクト/参照画像 単一のワークフローで。
  • 透かし/来歴: 生成されたすべての画像には SynthID 透かしが含まれます。モデルは、一部の製品統合における来歴のために C2PA メタデータを埋め込みます。

Gemini 3 Pro イメージのバージョンと命名

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

技術的な詳細

アーキテクチャ

  • 系譜 / バックボーン: Nano Banana ProはGoogleの進化するGeminiイメージスタック、特に新しい ジェミニ3プロ画像 / GEMPIX 2 アーキテクチャ(より大容量のマルチモーダル画像+テキストフレームワーク)は、 ジェミニ2.5のフラッシュイメージ (オリジナルの「ナノバナナ」)を、拡張された視覚言語推論機能を備えたネイティブのマルチモーダル画像モデルに変換します。
  • モデル行動ネイティブなマルチモダリティ(画像 + テキスト + 世界知識)、複数画像融合のための明示的なパイプライン、そして単一の静的サンプルを生成するのではなく、複数のパスで出力を洗練させる内部段階的プランナー。初期の報告では、以前のバージョンと比較して、幾何学的/光学的推論(ガラス、屈折)が強化されたことが示されています。
  • 思考・内面の洗練: モデルは、内部で目に見える「思考」プロセスを使用して構成を調整します (API はこの動作を文書化し、これらの内部ステップは最終的な画像トークンとして課金されないことを注記しています)。
  • 接地とツール:サポート 検索の停止 (Web上の情報をダイアグラム/インフォグラフィック生成に組み込むことができます)。また、より決定論的な制御のためのシステム命令もサポートしています。

主要な API パラメータ:

  • thinking_level (低 / 高) レイテンシと推論の深さをトレードオフします。
  • media_resolution (低/中/高) 画像の OCR/詳細読み取りトークンを制御します。
  • generationConfig.imageConfig 画像出力のアスペクト比/解像度を制御します。

画像の制限:

  • サポートされている入力方法: テキストと画像 (モデルは画像生成入力としてオーディオまたはビデオを受け入れません)。
  • プロンプトあたりの最大画像数: 14 (Gemini 3 Pro イメージプレビュー用)。
  • 最大画像サイズ(アップロード): 入力画像ごとに 7 MB。
  • サポートされているアスペクト比: 1:1、3:2、16:9、9:16、21:9など。

出力画像/トークン: 4K/4096px をサポートするなど、高い制限があります。

ベンチマークパフォーマンス

短い要約: これまでの公開/初期ベンチマークは、主に定性的なもの/コミュニティ主導のものですが、オリジナルのナノバナナ(Gemini 2.5 Flash Image)と比較して、解像度、アーティファクトの低減、物理的な忠実度において一貫して大幅な改善が報告されています。具体的な「チャレンジ」では明確な視覚的向上が示されていますが、標準的な画像生成指標を用いてv1とv2を比較した、Googleによる標準化された数値ベンチマーク表(公開)はまだありません。

  • 定性的なコミュニティテストより鮮明なエッジ、よりシャープな微細ディテール、より忠実な色彩、そしてより忠実なプロンプトへの追従性(幻覚的な小道具の減少、より​​一貫したキャラクター)が実現しました。人気の非公式テストには、いわゆる「ワイングラステスト」や「グラスバーガーチャレンジ」などがあり、GEMPIX2(Nano Banana Pro)は、以前のビルドよりも透明性と屈折性を著しく向上させています。
  • テキスト処理Nano Banana Proでは、画像内のタイポグラフィとテキスト配置が目に見えて改善されています(多くの画像モデルに共通する弱点です)。コミュニティでの比較では、レンダリングされたグリフの文字化けが少なくなっていることが示されています。
  • スループット / UX: 反復速度が速くなり、バックエンドで多段階の改良を実行する UX により、ユーザーはより信頼性の高い初回パスの結果を確認できます (手動による再ロールが削減されます)。

制限とリスク

  • コンテンツフィルターと検出: モデルを統合するプラットフォーム (例: Whisk/サードパーティ アプリ) では、厳密な有名人または肖像の検出が有効になり、特定の出力がブロックされる可能性があります。これは、有名人のリアルな肖像に依存するクリエイティブ ワークフローに影響します。
  • 幻覚/推論のエッジケース: 改善されてはいるものの、モデルは、特に画像内や高度に技術的な図表内の密集した記号テキストでは、物理的に非現実的なアーティファクトを生成する可能性があります。ただし、NB2 では、以前のバージョンに比べてこれらのエラーが減少しているようです。
  • 安全性と誤用: 生成画像モデルは、問題のあるコンテンツや有害なコンテンツの作成に利用される可能性があります。Googleは、出所の確認を容易にするために、制約、コンテンツフィルタ、SynthIDウォーターマークを適用しています。しかし、それでもなお、悪用は発生しています(政治的にデリケートな状況において、ナノバナナで生成された画像が大きな論争を巻き起こした事例)。

Nano Banana Proと他のモデルの比較

  • ナノバナナプロ(GEMPIX 2 / Gemini 3 Proイメージ) — 強力なモバイル統合、複数画像の融合、反復的な自己補正、2Kネイティブ/4Kアップスケーリング、Googleアプリ(検索、フォト、Workspace/Gemini)との緊密な連携。信頼性の高い編集、継続性、そしてGoogleサービスとの連携が求められるワークフローに最適です。
  • ミッドジャーニー — 様式化された芸術的な出力とコミュニティ主導の迅速なエンジニアリングに優れています。通常、写真のように正確な複数画像の融合や、高度なマルチモーダル編集パイプラインを対象としているわけではありません。
  • 安定拡散/オープンウェイト — 完全にオープンで、高度なカスタマイズが可能で、ローカルホストも可能です。チェックポイントと微調整のエコシステムは、研究やオフラインでの使用において決定的な利点となります。Nano Banana Proに比べ、「ワンクリック」のモバイル統合が少なく、複数画像編集の一貫性も初期状態では劣ります。
  • シードリーム 4.0 (バイトダンス) — 最近、Nano Bananaの競合として明確に位置付けられ、超高速レンダリング、2K出力、多数の参照画像(最大6枚)のサポートを強調しています。プロ/クリエイター向けの代替品として位置付けられています。

(これらの比較はハイレベルです。ツールをワークフローに合わせて選択してください。オープン性/カスタマイズ性 → Stable Diffusion、様式化されたアート → Midjourney、積極的な反復による統合された一貫性のあるモバイル編集 → Nano Banana Pro/Gemini 3 Pro イメージ ファミリー。)


実際の使用例

  • モバイル写真編集とクリエイティブフィルター (Google フォトの統合 - スタイル変更、背景の融合、ポートレートの再構成)。
  • マーケティングと広告資産 — 素早いコンセプト生成、複数のフレーム/角度にわたる一貫したブランドキャラクター。
  • コンセプトアートとストーリーボード — 複数の画像を融合することで、パネル間でのキャラクターの連続性を保つことができます。
  • Eコマース / 製品モックアップ — さまざまなコンテキスト/照明条件で一貫した製品ショットを生成します。
  • AR/VRアセットのラピッドプロトタイピング — 没入型の用途向けにアップスケールできる高品質の 2K/4K 出力。

gemini-3-pro-imageの呼び出し方法(ナノバナナプロ  API

CometAPI の Nano Banana API の価格、公式価格より 20% オフ:

価格$0.19200

必要な手順

  • ログインする コムタピまだユーザーでない場合は、まず登録してください
  • インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
  • このサイトの URL を取得します: https://api.cometapi.com/

使用方法

  1. "を選択します。gemini-3-pro-image” エンドポイントを使用してAPIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。
  2. 交換するアカウントの実際の CometAPI キーを使用します。
  3. コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
  4. API 応答を処理して、生成された回答を取得します。

CometAPIは、シームレスな移行を実現する完全な互換性のあるREST APIを提供します。主な詳細:

参照 Gemini 2.5 フラッシュイメージ API (Nano-Banana)

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ