Gemini 2.5 フラッシュイメージ(Nano Banana): 機能、ベンチマーク、使用方法
2025年XNUMX月下旬にGoogle(DeepMind)がリリースした ジェミニ2.5のフラッシュイメージ — 広く愛称で呼ばれる 「ナノバナナ」 低レイテンシで高品質な画像生成・編集モデルで、Geminiアプリ、Google AI Studio、Gemini API、CometAPIに統合されています。フォトリアリスティックな画像の生成、編集におけるキャラクターの一貫性の維持、複数の入力画像の統合、自然言語プロンプトによるきめ細かなローカライズ編集などが可能です。このモデルはプレビュー版/早期GA版として提供されており、既に画像リーダーボード(LMArena)で上位にランクインしています。また、安全対策(SynthIDウォーターマークと製品レベルのフィルター)も搭載しています。
Gemini 2.5 フラッシュイメージ (別名「ナノバナナ」) とは何ですか?
ジェミニ2.5のフラッシュ画像 - ふざけてニックネームが付けられている ナノバナナ — は、Google DeepMind の Gemini ファミリーにおける最新の画像生成・編集モデルです。2025年XNUMX月下旬に発表されたこのモデルは、プレビューリリースとして位置付けられており、より忠実度の高い編集、複数画像の融合、キャラクターの一貫性の向上(複数の編集で同じ人物/ペット/物体を認識可能)、そして低レイテンシの画像生成を Gemini のマルチモーダルツールセットに提供します。Gemini API、Google AI Studio、Gemini モバイル/ウェブアプリ、そして企業向け Vertex AI を通じてご利用いただけます。
起源と命名
「ナノバナナ」というニックネームは、初期のテスターやLMアリーナのエントリーでフルーツをテーマにしたラベルが使われていたことから、ソーシャルフィードやコミュニティのリーダーボードで広く使われるようになりました。Googleもこの関連性を認め、開発者向けおよび製品関連の投稿でこの遊び心のあるハンドルネームを公式に採用しました。正式な製品名は ジェミニ2.5のフラッシュイメージ そして、コードやAPI呼び出しで使用されるモデル識別子が表示されます(プレビュー使用の場合は、次のように表示されます)。 gemini-2.5-flash-image-preview).
Gemini 2.5 Flash Image の主な機能は何ですか?
「キャラクターの一貫性」とは実際には何を意味するのでしょうか?
目玉機能の一つは 文字の一貫性: モデルに、同じ被写体(人物、ペット、マスコット、商品など)を、識別可能な視覚的特徴(顔/形状、カラーパレット、特徴的なマーク)を維持しながら、多くの編集や新しいシーンで再利用するよう指示できます。これは、以前の画像モデルに共通する弱点、つまり、後から編集を加えると、視覚的には妥当だが明らかに異なる人物/物体が生成されてしまうという弱点に対処するものです。これにより、開発者は、製品カタログ、エピソードストーリーテリング、ブランドアセット生成などのワークフローを、手作業による修正を減らすことで構築できます。
他にどのような編集コントロールが含まれていますか?
Gemini 2.5 フラッシュイメージは以下をサポートします:
- 対象を絞ったローカル編集 わかりやすい言葉によるプロンプト(オブジェクトの削除、衣装の変更、肌の修正、背景要素の削除)を介して。
- 複数画像の融合: 最大 3 枚の入力画像を 1 つの一貫した構成に結合します (例: 照明を維持しながら画像 A の製品をシーン B に配置します)。
- スタイルとフォーマットのコントロール: フォトリアリスティックな指示、カメラとレンズの属性、アスペクト比、様式化された出力 (イラスト、ステッカーなど)。
- ネイティブの世界の知識: モデルは、より広範な Gemini ファミリーの知識を活用して、意味を考慮した編集を行います (例: 「ルネッサンス照明」や「東京の横断歩道」が何を意味するかを理解する)。
速度、コスト、可用性はどうですか?
Gemini 2.5 Flash Imageは、Gemini 2.5のFlash層の一部であり、低レイテンシと低コストを実現しながらも高い品質を維持できるよう最適化されています。Googleは画像出力トークンの価格をプレビューし、APIとAI Studioを通じて提供を開始しました。エンタープライズ顧客はVertex AIを通じてアクセスできます。発表時点では、Gemini 2.5 Flash Image層の価格は 30万出力トークンあたり1ドル1画像あたりのコストの例は次の通りです。 1290出力トークン ≈ \$0.039 /画像.
Gemini 2.5 Flash Image は内部ではどのように動作するのでしょうか?
アーキテクチャとトレーニングのアプローチ
Gemini 2.5 Flash Imageは、Gemini 2.5ファミリーのアーキテクチャを継承しています。これは、テキスト、画像、音声、その他のデータを組み合わせたマルチモーダルトレーニングを備えた、スパースな専門家混合(MoE)スタイルのバックボーンです。Googleは、非常に大規模でフィルタリングされたマルチモーダルコーパスを用いてFlash Imageをトレーニングし、画像タスク(生成、編集、融合)と安全性動作向けにモデルを微調整しました。トレーニングはGoogleのTPUファブリック上で実行され、自動評価と人間による評価の両方の指標で評価されました。
会話主導の編集
大まかに言うと、このモデルは文脈的条件付けを使用します。画像(または複数の画像)とテキストプロンプトを提供すると、モデルは被写体の視覚的アイデンティティを内部表現にエンコードします。その後の編集や新しいシーンでは、この表現に基づいて生成が調整されるため、望ましい視覚属性(顔の形状、主要な衣服や製品の識別子、カラーパレット)が保持されます。実際的には、これはGemini APIによって公開されているマルチモーダルコンテンツパイプラインの一部として実装されています。参照画像と編集指示を送信すると、モデルは編集後の画像出力(または複数の候補画像)を1つのレスポンスで返します。
透かしと来歴
Googleは、Gemini 2.5 Flash Imageに安全性とコンテンツポリシーのフィルタを統合しました。このリリースでは、評価とレッドチーム演習、自動フィルタリング手順、教師ありファインチューニング、そして有害な出力を最小限に抑えながら指示に従うための強化学習を重視しています。出力には目に見えないSynthID透かしが含まれるため、モデルによって生成または編集された画像は、後でAI生成であることが識別できます。
パフォーマンスはどの程度ですか? (ベンチマークデータ)
ジェミニ2.5フラッシュイメージ(ベンチマークの文脈では「ナノバナナ」として販売されている)に到達 LMArenaの画像編集とテキスト画像変換のリーダーボードで1位 2025年XNUMX月下旬現在、報告されている比較において、競合他社に対してElo/嗜好度で大きなリードを獲得しています。LMArenaとGenAI-Benchによる人間による評価結果を参照し、テキスト画像化タスクと画像編集タスクの両方で最高の嗜好スコアを示しています。
テキストと画像の比較
| 能力ベンチマーク | ジェミニフラッシュ2.5イメージ | イマジェン4ウルトラ06-06 | ChatGPT 4o / GPT 画像 1 (高) | FLUX.1 コンテキスト [最大] | ジェミニフラッシュ2.0イメージ |
|---|---|---|---|---|---|
| 全体的な好み(LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| 視覚品質(GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| テキストと画像の位置合わせ(GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
画像編集
| 能力ベンチマーク | ジェミニフラッシュ2.5イメージ | ChatGPT 4o / GPT 画像 1 (高) | FLUX.1 コンテキスト [最大] | クウェン画像編集 | ジェミニフラッシュ2.0イメージ |
|---|---|---|---|---|---|
| 全体的な好み(LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| 人格 | 1170 | 1059 | 1010 | 911 | 850 |
| クリエイティブ | 1112 | 1057 | 968 | 983 | 879 |
| インフォグラフィック | 1067 | 1029 | 967 | 1012 | 925 |
| オブジェクト / 環境 | 1064 | 1023 | 1002 | 1010 | 901 |
| 製品の再コンテキスト化 | 1128 | 1032 | 943 | 1009 | 888 |
| 様式化 | 1062 | 1165 | 949 | 1091 | 733 |

これらのベンチマークは実際には何を意味するのでしょうか?
ベンチマークから分かることは1つある。(2)このモデルはフォトリアリスティックな生成において競争力があり、(XNUMX) 編集 文字の一貫性とプロンプトの遵守が重要となるタスク。人間の嗜好ランキングによると、出力を見たユーザーは、評価対象の多くのプロンプトにおいて、Gemini の出力のリアリティと指示との整合性を高く評価しました。ただし、既知の限界(細かい事実の詳細に関する幻覚リスク、画像内での長文テキストのレンダリング、スタイル変換のエッジケース)については明確に記載されています。したがって、ベンチマークはあくまでも目安であり、保証ではありません。
Gemini 2.5 Flash Image で何ができるでしょうか (ユースケース)?
Gemini 2.5 Flash Imageは、クリエイティブ、生産性、そして応用画像処理のシナリオに特化した設計となっています。代表的なユースケースと新たなユースケースには以下が含まれます。
迅速な製品モックアップと電子商取引
製品写真をシーンにドラッグしたり、環境間で一貫性のあるカタログ画像を生成したり、製品ライン全体で色や素材を入れ替えたりと、製品のアイデンティティを維持しながらあらゆる操作が可能です。複数画像の融合機能とキャラクターと製品の一貫性は、カタログワークフローに最適です。
写真のレタッチとターゲット編集
自然言語のプロンプトで、オブジェクトの削除、傷の修正、服装やアクセサリーの変更、照明の調整などを行うことができます。ローカライズされた編集機能により、専門家でなくても会話形式のコマンドでプロ並みのレタッチを行うことができます。
ストーリーボードとビジュアルストーリーテリング
同じキャラクターを異なるシーンに配置し、見た目の一貫性を保ちます(コミック、ストーリーボード、ピッチデッキなどに便利です)。反復編集により、クリエイターはアセットを一から作り直すことなく、ムード、フレーミング、物語の連続性を調整できます。
教育、図表、デザインプロトタイピング
テキストプロンプトと画像を組み合わせることができ、「世界知識」も備えているため、このモデルは注釈付きの図表、教育用ビジュアル、プレゼンテーション用の簡単なモックアップの作成に役立ちます。GoogleはAI Studioで、不動産モックアップや製品デザインなどのユースケース向けのテンプレートも提供しています。
Nano Banana API はどのように使用しますか?
以下は、以下の実用的な抜粋です。 CometAPI APIドキュメント GoogleのAPIドキュメントをご覧ください。一般的なフローは以下のとおりです。 テキストから画像へ 画像 + テキストを画像に変換(編集) 公式の GenAI SDK または REST エンドポイントを使用します。
注: CometAPIのドキュメントでは、プレビューモデル名は次のように表示されます。
gemini-2.5-flash-image-preview以下の例は、公式 SDK の例 (Python と JavaScript) と REST curl の例を反映しています。キーとファイル パスは環境に合わせて調整してください。
CometAPI からの REST curl の例
ジェミニの公式 generateContent テキストから画像を生成するためのエンドポイント。テキストプロンプトを contents.parts[].text.例(Windowsシェル、使用) ^ 行継続の場合):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
レスポンスにはbase64画像バイトが含まれており、上記のパイプラインは "data" 文字列をデコードして gemini-generated.png.
このエンドポイントは、「イメージからイメージへ」の生成をサポートしています。入力イメージ (Base64 として) をアップロードし、変更された新しいイメージ (これも Base64 形式) を受け取ります。例:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": [ { \"role\": \"user\", \"parts\": [ { \"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\" }, { \"inline_data\": { \"mime_type\": \"image/jpeg\", \"data\": \"iVBORw0KGgoA Note: This is a Base64 string\" } } ] } ], \"generationConfig\": { \"responseModalities\": [ \"TEXT\", \"IMAGE\" ] }}"
説明:まず、ソース画像ファイルをBase64文字列に変換し、 inline_data.dataのような接頭辞は含めないでください。 data:image/jpeg;base64,出力は次の場所にあります candidates[0].content.parts オプションのテキスト部分(説明またはプロンプト)。画像部分は inline_data (どこで data 出力画像の Base64 です)。複数の画像の場合は、次のように直接追加できます。
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
以下はGoogleの公式ドキュメントとブログから引用した開発者向けサンプルです。認証情報とファイルパスはご自身のものに置き換えてください。
Python (公式 SDK スタイル)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
これはGoogleドキュメントの標準的なPythonスニペットです(プレビューモデルIDが表示されています)。同じSDK呼び出しパターンは、画像+プロンプト編集をサポートしています(画像を contents詳細は以下を参照。 ジェミニドキュメント。
結論
製品に堅牢で低遅延の画像生成が必要な場合、特に 主題の一貫性を保ちながら信頼できる編集Gemini 2.5 Flash Imageは、最先端の画像品質と開発者向け統合API(AI Studio、Gemini API、Vertex AI)を組み合わせた、評価に値する実稼働グレードのオプションです。モデルの現在の制限(画像内の細かいテキスト、一部のスタイル設定のエッジケース)を慎重に検討し、責任ある使用のための安全策を実装してください。
スタートガイド
CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。
開発者はアクセスできる ジェミニ2.5のフラッシュイメージ(ナノバナナコメットAPIリスト gemini-2.5-flash-image-preview/gemini-2.5-flash-image CometAPIを通じてカタログに表示されている最新のモデルのバージョンは、記事の公開日時点のものです。まずは、モデルの機能について調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。



