Googleの最近のリリース ジェミニ2.5のフラッシュ画像 — 愛称「ナノバナナ」 Nano Bananaは、会話型画像編集の定番ツールとして急速に定着しました。編集作業全体で類似性の一貫性を保ち、複数の画像をきれいに統合し、非常に自然なプロンプトベースのローカル編集をサポートします。以下では、Nano Bananaとは何か、そしてどのように使用するかについて解説します。 Googleのジェミニ ビア **サードパーティアクセス(例:CometAPI)**具体的なプロンプトの例と、プロジェクトに組み込めるコードを紹介し、マルチターン編集、アップスケール、高度なプロンプトに関する開発者向けヒントも共有します。私は画像モデルを日常的に使用する開発者として、このプレイブックを執筆しています。これは実践的で、やや独断的な内容となっていますので、ご理解ください。
ナノバナナとは何ですか?
「ジェミニ 2.5 フラッシュイメージ / ナノバナナ」とは実際何を意味するのでしょうか?
ナノバナナ コミュニティのニックネーム/コードネームです ジェミニ2.5のフラッシュイメージGoogle DeepMindの最新の画像生成・編集モデル。 プロンプト優先 編集(自然言語の指示を与える)に特に重点を置いた 文字の一貫性 (編集を通じて同じ人物/ペット/オブジェクトの外観を維持する) 複数画像の融合 (ソース写真間でのオブジェクトのブレンド)、および Gemini や Google AI Studio などのアプリでの低遅延のインタラクティブ使用を実現します。このモデルは、Google の Gemini API、AI Studio を通じて利用でき、すでに CometAPI で公開されています。
開発者として、Nano-Bananaを純粋な「ゼロから」の画像ジェネレーターとしてではなく、非常に有能なものとして考えてください。 写真編集および構成アシスタント画像の内容を理解し、編集を重ねても被写体を記憶し、自然言語による指示に応答することで、迅速な反復的なデザインループに適合します。そのため、製品のモックアップ、一貫性のあるキャラクターショット、素早いコンセプトの反復、そしてソーシャルクリエイティブな遊びなど、特に役立ちます。
開発者向けの概要
- モデル名 gemini-2.5-flash-image-preview / gemini-2.5-flash-image。
- 一貫性と継続性: Nano-Banana は、多くの競合製品よりも編集を通じてキャラクターの詳細をより確実に保持するため、連続編集やストーリーテリングに適しています。
- その2:シャフトスピード(回転数): ユーザーは、迅速な生成(多くの編集で 10 秒未満)が反復的なワークフローに役立つと報告しています。
- 編集重視の設計: 多くのモデルは純粋なテキスト駆動型生成用に最適化されていますが、Nano-Banana の UX と API は編集 (ワンショット編集、複数画像の融合、スタイル転送) に重点を置いています。
CometAPI で Nano-Banana を使用して編集するにはどうすればいいですか?
CometAPIは、多くのモデル( Gemini 2.5 フラッシュイメージ API(Nano Banana))を単一のOpenAI互換エンドポイントの背後で実行できます。プロトタイプを迅速に作成したい場合や、最初のテストのためにGoogle Cloud/Vertexアカウントをプロビジョニングしたくない場合は、CometAPIが実用的な橋渡しとなります。APIキーを取得し、 gemini-2.5-flash-image (または gemini-2.5-flash-image-preview )を使用して、チャット形式の画像編集のようにリクエストを送信します。CometAPIでは、サンプルも提供しています。 ガイド モデルを試してみます。
CometAPI を使用する理由は何ですか?
- 1 つの API キーですべてを管理し、複数のプロバイダーのテストを簡素化します。
- 価格や SLA が変更された場合は、運用中のプロバイダーを交換します。
- サービス レベルの制御 (レート制限、集中ログ) が必要なチームに役立ちます。
Nano-Banana (CometAPI) の呼び出し方法 — 実例
以下は簡単な例です。 YOUR_COMET_KEY ファイル パスを独自のものに変更します。
CURL — 基本編集(画像 + プロンプト → 編集された画像)
例:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**説明:**まず、ソース画像ファイルをBase64文字列に変換し、 inline_data.data2番目に、次のような接頭辞を含めないでください。 data:image/jpeg;base64, 出力は次の場所にあります candidates.content.parts 以下が含まれます:
- オプションのテキスト部分 (説明またはプロンプト)。
- 画像部分は
inline_data(どこでdata出力画像の Base64 です。
Nano-Bananaで画像編集を試してみたいという方のために、CometAPIは新規ユーザーに無料クレジットを提供しています。Nano-Bananaをプレイグラウンドで試したり、Gemini 2.5のFlash Image APIをご利用いただくことも可能です。無制限にご利用になりたい場合は、Geminiの価格から20%割引でご利用いただけます。
Nano-Banana には、一貫性のある類似性、自然言語によるターゲットを絞ったローカル編集、複数の画像の融合など、いくつかの重要な利点があります。
次に、いくつかの使用例を通して Nano-Banana の利点を示し、その魅力を実感していただきます。
例1: 複数の画像をXNUMXつのコラージュに組み合わせる
画像をアップロード:

入力例の説明: モデルがピンクのBMWに寄りかかってポーズをとっています。彼女は以下のアイテムを身に着けており、背景はライトグレーです。緑色のエイリアンはキーホルダーで、ピンクのハンドバッグに取り付けられています。モデルの肩にはピンクのオウムが乗っています。彼女の隣には、ピンクの首輪とゴールドのヘッドフォンをつけたパグが座っています。
返された Base64 は画像に変換されます。

コード:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
注: ソース画像ファイルをBase64文字列に変換し、 inline_data.data (接頭辞は含めないでください data:image/jpeg;base64,).
ユースケース分析: 複数画像の合成を利用することで、デザイナーはよりクリエイティブな表現が可能になります。例えば、住宅デザイナーは画像を組み合わせて、効果のラフレンダリングを作成できます。消費者は、自分の全身画像と購入したい商品を組み合わせることで、購入の判断材料にすることができます。また、アニメーションやコミック制作の参考資料としても活用できます。
例2: 類似性を保つために画像を編集する
以下では、ナノバナナをテストするための編集をいくつか紹介します。
まず、画像をアップロードします。

第二に、 プロンプト: 芝生に子犬を追加する
出力:

最後に、 プロンプト: 添付のキャラクター参考画像を使用してください。犬の部分はそのままにし、雨の降る夜のネオン街の街並みにキャラクターを配置してください。顔の特徴は参考画像と完全に一致させてください。

ユースケース分析: 複数回の画像修正において、かなり高い一貫性が維持されていることがわかります。
例3: スタイルの転送と顔のディテールの修正
画像をアップロード:

プロンプト: 顔を少しシャープにし、フィルムグレインを6%追加し、16:9にクロップします。顔の特徴は変えず、右側に柔らかなリムライトを追加します。
出力:

ナノバナナのその他の使用例
1) 企業のヘッドショットとプロフェッショナルポートレート
用途:統一感のあるブランドのヘッドショットを素早く作成(マーケティング、LinkedIn、企業プロフィールなど)。Nano-Bananaは、服装、背景、照明を変えても顔の忠実度を保ちます。
プロンプト — 衣装 + 照明 (編集)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
プロンプト - 背景の入れ替え + レタッチ
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2) Eコマースと製品の視覚化
使用方法: ライフスタイルシーンに製品を配置したり、さまざまな角度から一貫した製品ショットを生成したり、色のバリエーションを表示したりします。
プロンプト - シーン内の製品(複数画像の融合)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
プロンプト - カラーバリエーション(編集)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3) ソーシャルコンテンツとインフルエンサーマーケティング
用途: 素早いスタイル編集、服装の交換、季節のオーバーレイ、またはソーシャル プラットフォーム用の複数の形式の切り抜き。
プロンプト - フィードとストーリーの季節編集
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
プロンプト — 様式化されたプロモーションのバリエーション
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4) キャラクター/ブランド資産の一貫性(マスコット、繰り返し登場するキャラクター)
使用方法: シーン、キャンペーン、エピソード全体で、ロゴ、マスコット、キャラクターの視覚的な同一性を維持します。
プロンプト - キャラクターシートの強制
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5) 歴史的写真の修復とカラー化
用途: 構図と顔の細部を維持しながら、アーカイブ画像を復元またはカラー化します。
プロンプト - カラー化 + 修復
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
信頼性を高める高度なプロンプト技術は何ですか?
参照アンカー および マイクロ制約
参照アンカーは、曖昧さを減らすために追加する、簡潔で検証可能な情報です。具体的な衣服名(「ネイビーブレザー、シングルブレスト、ノッチラペル」)、照明に関する参照情報(「レンブラント照明」)、カメラ用語(「50mmポートレートレンズ、f/2.8」)などが挙げられます。マイクロコンストレイントは、モデルに変更してはならない内容を指示します(例:「右前腕のタトゥーを変更しないでください」)。マイクロコンストレイントは、モデルの自由度を効果的に制限し、結果の忠実度を向上させる効果があります。
反復ループ:質問、評価、改良
- 最初のパス: 正確かつ簡潔なプロンプトを使用します。
- 結果を評価する: モデルが何を間違えたか(例:顔の形が変わった、アクセサリがなくなった)を書き留めます。
- 対象を絞った修正: 前回の結果を参照する短いフォローアッププロンプト(「前回の出力結果のすべてを維持し、左耳のイヤリングはそのままにして、眉毛を太くする」など)を送信します。Nano-Bananaの会話型編集機能により、すぐに元の状態に戻ることができます。
複雑な変換のための編集の連鎖
大規模な編集作業の場合は、一度に大量の指示を出すのではなく、小さな編集作業を複数の小さな編集作業に分割しましょう。例えば、(1) 背景の切り替え → (2) 衣装のアップデート → (3) カラーグレーディング → (4) 最終レタッチといった具合です。これにより、各指示の焦点が明確になり、予期せぬ相互作用を減らすことができます。
Nano-Banana のプロンプトはどのように構成すればよいですか? (プロンプトの構造)
優れた画像プロンプトは一貫した構造を持っています。以下のものを使用してください。 プロンプト解剖学 正確で再現性のある結果を得るには:
プロンプト解剖学(推奨順序)
- 行動/目標 — モデルに何をしてほしいですか do(例:「この自撮り写真を編集してプロフェッショナルなヘッドショットを作成する」または「これら 2 つの画像を組み合わせて製品のライフスタイル写真を生成する」)。
- 科目) — 画像に写っているのは誰ですか?また、何ですか?身元、年齢、人数、物などを具体的に記入してください。
- Attributes — 視覚的な特徴: 服装、表情、目の色、髪、小道具。
- 環境と照明 — 場所、時間帯、ムード照明、焦点距離、レンズのヒント(「35mm ポートレート」)。
- スタイルと仕上げ — 写真スタイル (映画風、スタジオ風、フィルムグレイン風、ハイパーリアル風)、またはアート スタイル (油絵風、ベクター風、コミック風)。
- 制約/安全性 — 避けるべきもの(ロゴ、ヌード、医療テキストなど)。
- 一貫性トークン (オプション) — 複数のプロンプト間で文字認識を維持するために再利用する短いフレーズ (例: 「「ルナ スカーフ」の文字参照を使用する」)。
文字の一貫性を保つためのヒント(実践的な手順)
- 「参照フレーズ」を使用する: 毎回のプロンプトに、主題に結びつく短くて一意のフレーズ(例:「文字トークン:『Maya-blue-jacket』」)を含めます。このフレーズを再利用することで、モデルは編集内容を同じ文字にリンクする精度が向上します。
- アンカー詳細を含める: 特徴的で不変な特徴(例:「左の眉毛の傷、右の頬の緑色のあざ」)を指定して、モデルが維持すべき固定アンカーを持つようにします。
- 可能な限りポーズとフレーミングを維持する: 真の連続性を望む場合は、プロンプト間でカメラの角度/ポーズの説明を同様に保ちます。
- 同じ元の画像から始める編集ワークフローでは、アンカーとして必ず同じソース画像を使用してください。写真を変更する必要がある場合は、元の画像を追加の入力として含め、変更理由を説明してください。
一般的な障害モードとは何ですか? また、それを修正するにはどうすればよいですか?
失敗: アイデンティティの逸脱(被写体の見た目が異なる)
原因: モデルは要求されたスタイルを過度に一般化しているか、制約を誤って解釈しています。
修正: 明示的な「保存」句を追加したり、元の画像を参照として添付したり、編集を小さなステップで実行して中間出力を検証したりします。
失敗: 小道具や手が一貫していない
原因: 手や小さなアクセサリーは、多くのイメージモデルにとって歴史的に扱いにくいものです。
修正: 微細な制約(「時計を右手首に装着したままにする」)を含めたり、小さなアイテムの詳細なクローズアップ参照を提供したり、問題のある要素のみに焦点を当てた最終的なターゲット修正ステップを実行したりします。
失敗: 照明や影が不自然に見える
原因: 大規模な編集(背景の入れ替えや大幅な照明の変更)により不一致が生じる可能性があります。
修正: モデルに「左上からの指向性ライト、ソフトな影」を合わせるように依頼するか、希望する照明の参照画像を提供します。
結論
Nano-Banana(Gemini 2.5 Flash Image)は、コンシューマーグレードの画像編集と生成における大きな進歩です。高速で一貫性があり、GoogleのGeminiエコシステムと安全ツールと統合されています。最高の結果は、 明確でタスクに焦点を当てたプロンプトアイデンティティの一貫性が必要な場合には、明示的な保存指示を明記し、クイックプレビューと最終レンダリングを分離する段階的なワークフローも用意します。モデルとエコシステムが進化するにつれ、プロンプトエンジニアはテストを継続し、結果をログに記録し、編集を透過的かつ可逆的に行えるユーザー向けのコントロールを構築する必要があります。
