基本機能
- テキスト → 画像: プロンプト駆動の生成で、プロンプトへの強い追従性。
- 画像 → 画像(編集): 複数回の編集でも被写体/キャラクターの一貫性を保った、細部まで狙った編集。
- 最大出力解像度: 最大 4K(例や正確なピクセルサイズはアスペクト比に依存;API は 1K/2K/4K のプリセットを提供)
- 反復的な計画と自己修正: 透視・テキスト・精密な形状の一般的な視覚的ミスを検出し修正する内部の「多段」パイプライン。
- 高度な画像内テキストレンダリング: ポスター、モックアップ、インフォグラフィックに適した、明瞭で可読な多言語テキスト(短いキャプションから長文まで)。
- 5 characters と、単一ワークフロー内で最大 14 objects/reference images までの忠実性。
- ウォーターマーキング / 来歴: 生成画像にはすべて SynthID ウォーターマークを付与;一部の製品統合では来歴のためにモデルが C2PA メタデータを埋め込み。
Gemini 3 Pro Image のバージョンと名称
gemini-3-pro-image-previewgemini-3-pro-image
技術詳細
アーキテクチャ
- 系譜 / バックボーン: Nano Banana Pro は Google の進化する Gemini 画像スタック—特に新しい Gemini 3 Pro Image / GEMPIX 2 アーキテクチャ(より高容量の画像+テキストのマルチモーダルフレームワーク)—に基づいて構築されています。これは Gemini 2.5 Flash Image(オリジナルの “nano-banana”)から進化し、拡張された視覚-言語推論能力を備えたネイティブなマルチモーダル画像モデルへと発展しています。
- モデル挙動: ネイティブなマルチモーダル(画像 + テキスト + 世界知識)、複数画像の融合のための明示的なパイプライン、そして単一の静的サンプルではなく複数パスで出力を洗練する内部段階的プランナー。初期報告では、以前のバージョンに比べて幾何学/光学(ガラス、屈折)推論が強化されています。
- 思考 / 内部リファインメント: 構図を洗練するために可視化された「思考」プロセスを内部で用い(API はこの挙動を文書化し、これら内部ステップは最終画像トークンとして課金されないことを明記しています)。
- グラウンディングとツール: Search grounding をサポート(図やインフォグラフィック生成にウェブ上の事実を取り込める)。より決定論的な制御のためのシステム指示にも対応。
主要な API パラメータ:
thinking_level(low / high)でレイテンシと推論深度をトレードオフ;media_resolution(low/medium/high)で画像 OCR/詳細読取りトークンを制御;generationConfig.imageConfigで画像出力のアスペクト比/解像度を制御。
画像の制約:
- サポートされる入力モダリティ: テキストと画像(モデルは画像生成の入力として音声や動画を受け付けない)。
- プロンプトあたりの最大画像数: 14(Gemini 3 Pro Image preview の場合)。
- アップロードの最大画像サイズ: 入力画像 1 枚あたり 7 MB。
- サポートされるアスペクト比: 1:1、3:2、16:9、9:16、21:9 など。
出力画像 / トークン: 高い上限で、4K/4096px をサポート。
ベンチマーク性能
ショートサマリー: 公開/初期ベンチマークは主に定性的/コミュニティ主導だが、解像度、アーティファクト低減、物理的忠実性においてオリジナルの nano-banana(Gemini 2.5 Flash Image)に比べ一貫した大幅な改善が報告されている。特定の名付けられた「チャレンジ」で明確な視覚的向上が示されているが、Google が v1 → v2 を標準的な画像生成メトリクスで比較する(公開の)標準化された数値ベンチマーク表はまだない。
- 定性的コミュニティテスト: よりクリーンなエッジ、シャープな微細ディテール、より忠実な色、そしてプロンプトへの忠実な追従(不要な小道具の幻覚が減り、キャラクターの一貫性が向上)。一般的な非公式テストには「Wine Glass Test」と「Glass Burger Challenge」があり、GEMPIX2(Nano Banana Pro)は透明性と屈折を以前のビルドより著しくうまく処理。
- テキスト処理: Nano Banana Pro は画像内のタイポグラフィとテキスト配置が目に見えて改善(多くの画像モデルの持続的な弱点)。コミュニティ比較では、文字化けした描画グリフが減少。
- スループット / UX: バックエンドで多段階のリファインメントを実行する UX により、初回結果がより信頼できる(手動の再生成を減らす)ため、反復速度が高速。
制限とリスク
- コンテンツフィルタと検出: モデルを統合するプラットフォーム(例: Whisk/サードパーティアプリ)はセレブリティや肖像類似の厳格な検出を有効化して一部の出力をブロックする場合があり、リアルなセレブリティ肖像に依拠するクリエイティブワークフローに影響。
- 幻覚 / 推論の限界ケース: 改善はされたものの、画像内の高密度な記号的テキストや高度に技術的な図では、物理的に非現実的なアーティファクトを生成する可能性が残る—ただし NB2 は以前よりこれらのエラーを減少させる傾向。
- 安全性と悪用: 生成画像モデルは問題ある/有害なコンテンツ作成に使用され得る。Google は制約、コンテンツフィルタ、来歴のための SynthID ウォーターマークを適用しているが、それでも悪用は発生(政治的にセンシティブな場面で Nano Banana による生成画像が絡む高プロフィールの物議)。
他モデルとの比較における Nano Banana Pro の位置付け
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image) — 強力なモバイル統合、複数画像融合、反復的自己修正、2K ネイティブ/4K アップスケーリング、Google アプリ(Search、Photos、Workspace/Gemini)への緊密な統合。信頼性の高い編集、連続性、Google サービス統合を必要とするワークフローに最適。
- Midjourney — スタイライズされたアーティスティックな出力とコミュニティ主導のプロンプトエンジニアリングに秀でる;フォトリアリスティックな複数画像融合や深いマルチモーダル編集パイプラインを主対象としてはいない。
- Stable Diffusion / オープンウェイト — 完全にオープンで高いカスタマイズ性がありローカルでホスト可能;チェックポイントと微調整のエコシステムは研究やオフライン利用で決定的な利点。ワンクリックのモバイル統合が弱く、Nano Banana Pro のようなすぐに使える複数画像編集の一貫性は標準では低め。
- Seedream 4.0(ByteDance) — 最近、Nano Banana の競合として明確に位置付けられ、超高速レンダリング、2K 出力、多数のリファレンス画像(最大 6)サポートを強調。プロ/クリエイター向けの代替として位置付け。
(これらの比較はハイレベル;ワークフローに合わせてツールを選ぶのが賢明:開放性/カスタマイズ性 → Stable Diffusion;スタイライズドアート → Midjourney;統合された一貫したモバイル編集と積極的な反復 → Nano Banana Pro / Gemini 3 Pro image ファミリー。)
実例/ユースケース
- モバイル写真編集とクリエイティブフィルター(Google Photos の統合—リスタイリング、背景融合、ポートレート再構成)。
- マーケティング/広告アセット — 高速なコンセプト生成、複数フレーム/角度にわたる一貫したブランドキャラクター。
- コンセプトアートとストーリーボーディング — 複数画像融合によってパネル間のキャラクター連続性を維持。
- EC / 製品モックアップ — 異なる文脈/照明条件で一貫した製品写真を生成。
- AR/VR アセットの迅速なプロトタイピング — 高品質な 2K/4K 出力を、没入型用途向けにアップスケール可能。
- How to accessl gemini-3-pro-image(Nano Banana Pro) API
必要な手順
- cometapi.com にログイン。まだユーザーでない場合は、まず登録してください
- インターフェースのアクセス認証 API キーを取得。個人センターの API トークンで「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信。
- このサイトの URL を取得: https://api.cometapi.com/
使い方
- “
gemini-3-pro-image” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定。リクエストメソッドとリクエストボディは当サイトの API doc から取得可能。利便性のため Apifox のテストも提供。 - <YOUR_API_KEY> を、アカウントの実際の CometAPI キーに置き換える。
- 質問またはリクエストを content フィールドに挿入—モデルはその内容に応答します。
- . API レスポンスを処理して生成された回答を取得。
CometAPI は完全互換の REST API を提供—シームレスな移行のために。主な詳細 :
- ベース URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- モデル名:
gemini-3-pro-image - 認証:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json