基本機能
- Text → Image: 強力なプロンプト順守による完全なプロンプト駆動生成。
- Image → Image(編集): 複数回の編集でも被写体/キャラクターの一貫性を維持しつつ、細部まで正確なターゲット編集。
- 最大出力解像度: 4Kまで(例や正確なピクセルサイズはアスペクト比に依存。APIは1K/2K/4Kプリセットを提供)。
- 反復的プランニングと自己修正: 内部の「多段」パイプラインにより、透視・テキスト・精密な形状の一般的な視覚的誤りを検出・修正。
- 高度な画像内テキストレンダリング: ポスター、モックアップ、インフォグラフィックに適した、短いキャプションから長文までの多言語テキストを鮮明かつ可読に描画。
- 5キャラクターおよび、単一ワークフローで最大14個のオブジェクト/参照画像に対する忠実性。
- 透かし/来歴: すべての生成画像にSynthID透かしを含み、一部の製品統合では来歴のためのC2PAメタデータを埋め込み。
Gemini 3 Pro Image のバージョンと名称
gemini-3-pro-image-previewgemini-3-pro-image
技術的詳細
アーキテクチャ
- 系譜/バックボーン: Nano Banana Pro は、Googleの進化する Gemini イメージスタック — 特に新しい Gemini 3 Pro Image / GEMPIX 2 アーキテクチャ(より高容量のマルチモーダル画像+テキストフレームワーク)上に構築。これは Gemini 2.5 Flash Image(オリジナルの“nano-banana”)から、視覚と言語の推論能力を拡張したネイティブなマルチモーダル画像モデルへの進化。
- モデルの挙動: ネイティブなマルチモーダル(画像+テキスト+世界知識)、複数画像融合のための明示的なパイプライン、および単一の静的サンプルではなく複数パスで出力を洗練する内部段階的プランナー。初期レポートでは、以前のバージョンと比べて幾何/光学推論(ガラス、屈折)が強化されていると示唆。
- 思考/内部洗練: 構図を洗練するために、モデルは内部で可視化された「thinking」プロセスを使用(APIはこの挙動を文書化し、これら内部ステップは最終的な画像トークンとして課金されないと明記)。
- グラウンディングとツール: Search grounding をサポート(図表/インフォグラフィック生成にウェブの事実を取り込める)。より決定的な制御のためにシステム指示もサポート。
主要なAPIパラメータ:
thinking_level(low / high): レイテンシと推論深度のトレードオフを制御。media_resolution(low/medium/high): 画像のOCR/詳細読取トークン量を制御。generationConfig.imageConfig: 画像出力のアスペクト比/解像度を制御。
画像の制限:
- 対応入力モダリティ: テキストと画像(このモデルは画像生成の入力として音声や動画を受け付けない)。
- プロンプトあたりの最大画像数: 14(Gemini 3 Pro Image previewの場合)。
- 最大画像サイズ(アップロード): 入力画像1枚あたり7 MB。
- 対応アスペクト比: 1:1、3:2、16:9、9:16、21:9 など。
出力画像 / トークン: 高い上限を備え、4K/4096pxに対応。
ベンチマーク性能
短い要約: 公開/初期ベンチマークは主に定性的/コミュニティ主導だが、解像度、アーティファクトの低減、物理的忠実度がオリジナルの nano-banana(Gemini 2.5 Flash Image)と比べ一貫して大幅に改善されているとの報告。特定の名指しの「チャレンジ」でも明確な視覚的向上が示されているが、Googleによる標準的な画像生成メトリクスに基づく v1 → v2 の(公開)数値ベンチマーク表はまだ存在しない。
- 定性的なコミュニティテスト: エッジがよりクリーン、微細ディテールがシャープ、色の忠実度が高く、プロンプト順守がより正確(不要な小道具の幻覚が減り、キャラクターの一貫性が向上)。一般的な非公式テストとして「Wine Glass Test」や「Glass Burger Challenge」があり、GEMPIX2(Nano Banana Pro)は透明性と屈折を以前のビルドより顕著に良好に扱う。
- テキスト処理: Nano Banana Pro は画像内のタイポグラフィとテキスト配置が目に見えて改善(多くの画像モデルの持続的な弱点)。コミュニティ比較では、レンダリングされたグリフの崩れが減少。
- スループット/UX: 反復速度が向上し、バックエンドで多段の洗練を実行するため、ユーザーはより信頼性の高い初回出力を受け取れる(手動の再生成を削減)。
制限事項とリスク
- コンテンツフィルターと検出: このモデルを統合するプラットフォーム(例: Whisk/サードパーティアプリ)は、著名人や類似性の厳格な検出を有効化し、特定の出力をブロックする場合があり、リアルな著名人の類似性に依存するクリエイティブなワークフローに影響。
- 幻覚/推論の限界事例: 改善はされたものの、画像内の高密度な象徴的テキストや高度に技術的な図面では、物理的に不自然なアーティファクトを生成する可能性が残る — ただし NB2 は以前のバージョンに比べこれらの誤りを低減する傾向。
- 安全性と誤用: 生成画像モデルは問題ある/有害なコンテンツの作成に使われ得る。Google は制約、コンテンツフィルター、来歴のための SynthID 透かしを適用しているが、それでも誤用は発生している(政治的に敏感な状況で Nano Banana による生成画像が物議を醸した高プロフィール事例がある)。
Nano Banana Pro と他モデルの比較
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image) — モバイル統合が強力、複数画像融合、反復的自己修正、2Kネイティブ/4Kアップスケーリング、Googleアプリ(Search、Photos、Workspace/Gemini)への緊密な統合。信頼性の高い編集、継続性、Googleサービスとの統合を必要とするワークフローに最適。
- Midjourney — スタイライズされた芸術的出力とコミュニティ主導のプロンプトエンジニアリングに優れる。写真精度の高い複数画像融合や深いマルチモーダル編集パイプラインを主目的としてはいない。
- Stable Diffusion / オープンウェイト — 完全にオープンで高いカスタマイズ性があり、ローカルホスト可能。チェックポイントと微調整のエコシステムは研究やオフライン利用で決定的な利点。Nano Banana Pro と比べると、モバイルの「ワンクリック」統合や、箱出しでの複数画像編集の一貫性はやや劣る。
- Seedream 4.0(ByteDance) — 近頃、Nano Banana の明確な競合として位置づけられ、超高速レンダリング、2K出力、多数の参照画像(最大6)対応を強調。プロ/クリエイター向けの代替として位置づけ。
(これらの比較はハイレベルです。ワークフローに合わせてツールを選びましょう: 開放性/カスタマイズ性 → Stable Diffusion、スタイライズされたアート → Midjourney、統合され一貫性のあるモバイル編集と積極的な反復 → Nano Banana Pro / Gemini 3 Pro Image ファミリー。)
実際のユースケース
- モバイル写真編集&クリエイティブフィルター(Google Photos 連携 — リスタイリング、背景融合、ポートレート再構成)。
- マーケティング&広告アセット — 高速なコンセプト生成、複数フレーム/アングルにわたるブランドキャラクターの一貫性。
- コンセプトアート&ストーリーボーディング — 複数画像融合により、パネルをまたいだキャラクターの継続性を維持。
- Eコマース/製品モックアップ — 異なるコンテキスト/照明条件で一貫した製品写真を生成。
- AR/VRアセットの迅速なプロトタイピング — 高品質な2K/4K出力で、没入用途向けにアップスケーリング可能。
- gemini-3-pro-image(Nano Banana Pro)APIへのアクセス方法
必要な手順
- cometapi.com にログインしてください。まだユーザーでない場合は、まず登録してください
- インターフェースのアクセス認証 API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信します。
- サイトのURLを取得します:
https://api.cometapi.com/
使用方法
- 「
gemini-3-pro-image」エンドポイントを選択してAPIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトのAPIドキュメントから取得できます。当社サイトは利便性のために Apifox テストも提供します。 - <YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えます。
- 質問やリクエストを content フィールドに挿入します — モデルはこの内容に応答します。
- APIレスポンスを処理して生成された回答を取得します。
CometAPI は完全互換の REST API を提供しており、シームレスな移行が可能です。主な詳細 :
- ベースURL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- モデル名:
gemini-3-pro-image - 認証:
Bearer YOUR_CometAPI_API_KEYヘッダー - Content-Type:
application/json。