基本機能
- テキスト → 画像:高いプロンプト追従性を備えた、完全なプロンプト駆動生成。
- 画像 → 画像(編集):複数回の編集でも被写体/キャラクターの一貫性を維持しながら、細かく狙いを絞った編集が可能。
- 最大出力解像度: 最大 4K(例およびサポートされる正確なピクセルサイズはアスペクト比によって異なります。API では 1K / 2K / 4K のプリセットを提供)
- 反復的な計画と自己修正:一般的な視覚的ミス(遠近法、文字、細かな幾何形状)を検出して修正する内部の「マルチステージ」パイプライン。
- 画像内テキストの高度なレンダリング:ポスター、モックアップ、インフォグラフィックに適した、明瞭で読みやすい多言語テキスト(短いキャプションから長い段落まで)。
- 5 人のキャラクターに対応し、単一のワークフローで最大 14 個のオブジェクト/参照画像まで忠実性を維持。
- ウォーターマーク/来歴情報: 生成されたすべての画像には SynthID ウォーターマークが含まれ、一部の製品統合では来歴情報のために C2PA メタデータが埋め込まれます。
Gemini 3 Pro Image のバージョンと命名
gemini-3-pro-image-previewgemini-3-pro-image
技術詳細
アーキテクチャ
- 系譜 / バックボーン:Nano Banana Pro は Google の進化する Gemini 画像スタック、具体的には新しい Gemini 3 Pro Image / GEMPIX 2 アーキテクチャ(より大規模なマルチモーダル画像+テキストフレームワーク)上に構築されています。これは Gemini 2.5 Flash Image(元の「nano-banana」)から進化したもので、視覚と言語の推論能力を拡張したネイティブなマルチモーダル画像モデルです。
- モデルの挙動:ネイティブなマルチモーダリティ(画像 + テキスト + 世界知識)、複数画像の融合のための明示的なパイプライン、そして単一の静的サンプルを生成するのではなく複数回のパスで出力を洗練する内部の段階的プランナーを備えています。初期レポートでは、以前のバージョンと比べて幾何学的/光学的推論(ガラス、屈折)がより強いことが示されています。
- Thinking / 内部リファイン:モデルは構図を洗練するために内部で可視の「thinking」プロセスを使用します(API ドキュメントではこの挙動が記載されており、それらの内部ステップは最終画像トークンとして課金されないことが示されています)。
- グラウンディングとツール:Search grounding をサポートしており、図表/インフォグラフィック生成にウェブ上の事実を取り込むことができます。また、より決定論的な制御のために system instructions もサポートしています。
主要な API パラメータ:
thinking_level(low / high):レイテンシと推論の深さのトレードオフを調整;media_resolution(low/medium/high):画像 OCR/細部読み取りトークンを制御;generationConfig.imageConfig:画像出力のアスペクト比/解像度を制御。
画像の制限:
- 対応する入力モダリティ: テキストおよび画像(このモデルは画像生成入力として音声や動画を受け付けません)。
- プロンプトあたりの最大画像数: 14(Gemini 3 Pro Image preview の場合)。
- 最大画像サイズ(アップロード): 入力画像 1 枚あたり 7 MB。
- 対応アスペクト比: 1:1、3:2、16:9、9:16、21:9 など。
出力画像 / トークン: 上限は高く、4K/4096px をサポート。
ベンチマーク性能
要約: 現時点の公開/初期ベンチマークの多くは定性的/コミュニティ主導のものですが、元の nano-banana(Gemini 2.5 Flash Image)と比較して、解像度、アーティファクト低減、物理的忠実性において大幅な改善が一貫して報告されています。特定の有名な「チャレンジ」では明確な視覚的向上が見られますが、Google から v1 → v2 を標準的な画像生成指標で比較した公開の数値ベンチマーク表はまだありません。
- 定性的なコミュニティテスト:よりきれいな輪郭、よりシャープな微細ディテール、より正確な色、そしてより忠実なプロンプト追従(幻覚的な小道具の減少、より一貫したキャラクター)。人気の非公式テストには、いわゆる「Wine Glass Test」や「Glass Burger Challenge」があり、GEMPIX2(Nano Banana Pro)は透明性と屈折の処理で以前のビルドより著しく優れています。
- テキスト処理:Nano Banana Pro は画像内のタイポグラフィとテキスト配置が目に見えて改善されています(これは多くの画像モデルにとって継続的な弱点でした)。コミュニティ比較では、文字の崩れが少ないことが示されています。
- スループット / UX:反復速度が速く、バックエンドでマルチステージのリファインを行う UX により、ユーザーはより信頼できる初回結果を得やすくなっています(手動での再生成を減らせます)。
制限とリスク
- コンテンツフィルターと検出:モデルを統合するプラットフォーム(例:Whisk / サードパーティアプリ)は、厳格な有名人または肖像検出を有効化し、特定の出力をブロックする場合があります。これは、リアルな有名人の肖像に依存するクリエイティブワークフローに影響します。
- ハルシネーション / 推論のエッジケース:改善されているとはいえ、特に画像内に高密度の記号的テキストがある場合や高度に技術的な図表では、依然として物理的に不自然なアーティファクトを生成することがあります。ただし NB2 は以前のバージョンよりこれらのエラーを減らしているようです。
- 安全性と悪用: 生成画像モデルは問題のある、または有害なコンテンツの作成に悪用される可能性があります。Google は来歴情報の補助として制約、コンテンツフィルター、SynthID ウォーターマークを適用していますが、それでも悪用事例は発生しており(政治的にセンシティブな状況で Nano Banana により生成された画像に関連する大きな論争がありました)。
Nano Banana Pro と他モデルの比較
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image) — 強力なモバイル統合、複数画像融合、反復的自己修正、2K ネイティブ / 4K アップスケーリング、Google アプリ(Search、Photos、Workspace/Gemini)との緊密な統合が特徴です。信頼性の高い編集、連続性、Google サービスとの統合を必要とするワークフローに最適です。
- Midjourney — スタイライズされた芸術的出力とコミュニティ主導のプロンプトエンジニアリングに優れています。通常、写真精度の高い複数画像融合や深いマルチモーダル編集パイプラインを主目的としていません。
- Stable Diffusion / オープンウェイト — 完全にオープンで、高いカスタマイズ性があり、ローカルでホスト可能です。チェックポイントやファインチューニングのエコシステムは、研究やオフライン用途において決定的な利点です。Nano Banana Pro と比べると、「ワンクリック」のモバイル統合や、初期状態での複数画像編集の一貫性はやや劣ります。
- Seedream 4.0(ByteDance) — 最近、Nano Banana の競合として明確に位置付けられており、超高速レンダリング、2K 出力、多数の参照画像(最大 6 枚)対応を強調しています。プロ向け/クリエイター向けの代替として位置付けられています。
(これらの比較は高レベルなものです。最適な選択はワークフローに合わせて行ってください:オープン性/カスタマイズ性 → Stable Diffusion、スタイライズアート → Midjourney、統合性が高く一貫したモバイル編集と積極的な反復 → Nano Banana Pro / Gemini 3 Pro image ファミリー。)
実際のユースケース
- モバイル写真編集とクリエイティブフィルター(Google Photos 統合 — スタイル変更、背景融合、ポートレート再構成)。
- マーケティングおよび広告アセット — 複数のフレーム/角度にわたって一貫したブランドキャラクターを保ちながら、コンセプトを迅速に生成。
- コンセプトアートとストーリーボード — 複数画像の融合により、パネル間でキャラクターの一貫性を維持しやすくなります。
- E コマース / 製品モックアップ — 異なる文脈や照明条件で一貫した製品ショットを生成。
- AR/VR アセットの迅速なプロトタイピング — 高品質な 2K/4K 出力は、没入型用途向けにアップスケール可能です。
- gemini-3-pro-image(Nano Banana Pro)API へのアクセス方法
必要な手順
- cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。
- インターフェースのアクセス認証情報である API キーを取得します。パーソナルセンターの API token で「Add Token」をクリックし、トークンキー
sk-xxxxxを取得して送信します。 - このサイトの URL を取得します: https://api.cometapi.com/
利用方法
- API リクエストを送信するには「
gemini-3-pro-image」エンドポイントを選択し、リクエストボディを設定します。リクエストメソッドおよびリクエストボディは当社ウェブサイトの API ドキュメントで確認できます。当社ウェブサイトでは利便性のために Apifox テストも提供しています。 <YOUR_API_KEY>を、アカウントで取得した実際の CometAPI キーに置き換えます。- content フィールドに質問またはリクエストを入力します。これがモデルの応答対象になります。
- API レスポンスを処理して、生成された回答を取得します。
CometAPI はシームレスな移行のために、完全互換の REST API を提供しています。主要な詳細 :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYヘッダー - Content-Type:
application/json.