モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/Google/Nano Banana 2
G

Nano Banana 2

入力:$0.4/M
出力:$2.4/M
コア機能の概要: 解像度: 最大4K(4096×4096)、Proと同等。参照画像の一貫性: 参照画像は最大14枚(オブジェクト10件 + キャラクター4件)、スタイル/キャラクターの一貫性を維持。極端なアスペクト比: 1:4、4:1、1:8、8:1を新規追加、縦長画像・ポスター・バナーに最適。テキストレンダリング: 高度なテキスト生成、インフォグラフィックおよびマーケティングポスターのレイアウトに最適。検索機能の強化: Google Search + Image Searchを統合。グラウンディング: 思考プロセスを内蔵、複雑なプロンプトは生成前に推論。
新着
商用利用
Playground
概要
機能
料金プラン
API
バージョン

Gemini 3.1 Flash Image Preview の技術仕様

ItemGemini 3.1 Flash Image Preview
ProviderGoogle
Model familyGemini 3.1 (Flash ティア)
Primary focus画像プレビュー対応の高速マルチモーダル生成
Input typesText, Image
Output typesText, Image (preview generation)
Context window最大 1M tokens(Gemini 3.x Flash ティア標準)
Latency tier低レイテンシ・高スループット
Streaming support対応
Tool calling対応(Gemini API tools framework)
Version3.1

Nano Banana 2 とは

Nano Banana 2 は、新たにリリースされた Gemini-3.1-Flash-Image モデルに対して、報道や開発者コミュニティで広く使われている愛称です。Google はこれを、より低いレイテンシとコストでほぼ Pro レベルの視覚的忠実度を実現する “Flash” ティアの画像エンジンとして位置づけています。大規模生成、高頻度の反復編集、Google サービス横断の統合プロダクトワークフローに適しています。Gemini 3.1 のマルチモーダル推論を継承し、画像中心の機能(画像内テキストの可読性、マルチイメージ合成、極端なアスペクト比のサポート、ネイティブ 4K)を追加しています。

主な機能

  • 高速・多解像度生成: Flash ティアの速度で、0.5K / 1K / 2K / 4K 出力および新しい極端なアスペクト比(1:4、4:1、1:8、8:1)に対応。
  • リアルタイム Web グラウンディング: “Thinking” または検索グラウンディングが有効な場合、テキストと画像の検索結果を統合して生成内容を最新の Web 情報に基づかせます。最新リファレンスやファクトを伴うインフォグラフィックに有用。
  • テキストレンダリングの改善: 以前の Flash モデルよりも短いテキストやグラフィックテキスト(フォント、サイズ)の描画が向上。長文や極小テキストでは完全ではありません。
  • マルチ入力編集とマルチターン・ワークフロー: 複数画像の入力や、複数ターンにわたる反復編集に強力に対応。

📊 ベンチマーク性能 — 画像生成 & 編集(Elo スコア)

CapabilityGemini 3.1 Flash Image (Nano Banana 2)Gemini 2.5 Flash Image (Nano Banana)Gemini 3 Pro Image (Nano Banana Pro)GPT-Image 1.5Seedream 5.0 LiteGrok Imagine Image Pro
Text-to-Image — Overall Preference1079.0 ± 7.01073.0 ± 5.0942.0 ± 6.01021.0 ± 5.01047.0 ± 5.0928.0 ± 8.0
Text-to-Image — Visual Quality1140.0 ± 6.01129.0 ± 6.0929.0 ± 6.01043.0 ± 5.0975.0 ± 5.0759.0 ± 10.0
Text-to-Image — Infographics (Factuality)1114.0 ± 14.01074.0 ± 12.0881.0 ± 13.01102.0 ± 13.0985.0 ± 12.0890.0 ± 22.0
Editing — General1065.0 ± 9.01047.0 ± 9.0913.0 ± 9.01051.0 ± 10.0995.0 ± 8.0937.0 ± 9.0
Editing — Character1056.0 ± 7.01049.0 ± 7.0952.0 ± 7.01050.0 ± 8.01025.0 ± 7.0894.0 ± 8.0
Editing — Creative1023.0 ± 7.01031.0 ± 7.0976.0 ± 7.01004.0 ± 7.01017.0 ± 7.0938.0 ± 7.0
Editing — Object/Environment1029.0 ± 8.01018.0 ± 8.0945.0 ± 8.01042.0 ± 10.0976.0 ± 8.0946.0 ± 9.0
Editing — Multi-Input1037.0 ± 8.01016.0 ± 8.0919.0 ± 9.01056.0 ± 12.01014.0 ± 9.0N/A
Editing — Stylization1045.0 ± 7.01031.0 ± 7.0862.0 ± 8.01045.0 ± 9.0996.0 ± 7.0984.0 ± 7.0

このベンチマーク表からの主なポイント:

  • テキストから画像の生成 および 画像編集 のカテゴリ全般で、Gemini 3.1 Flash Image は Flash ティアおよび多くの競合画像モデルの中で、最高水準に並ぶか上回るスコアを一貫して示しています。
  • 特に Visual Quality と Infographic(Factuality) ベンチマークで強みが顕著であり、審美性だけでなく構造的に正確なコンテンツの描画にも優れていることが示唆されます。
  • マルチ入力編集 においても、Nano Banana 2 は前世代の Flash モデルより高いスコアで、堅牢な汎化性能を示しています。

これらの評価は、多様なベンチマークスイートにおける人手のサイドバイサイド Elo 比較により実施され、一般的な画像生成・編集タスクにおける嗜好と忠実度の両面を反映しています。

Nano Banana 2 と Nano Banana、Nano Banana Pro の比較

ModelPositioningRepresentative benchmark/notes
Gemini 3.1 Flash Image (Nano Banana 2)Flash ティア:スピード + 高い画質(2K–4K)全体の嗜好スコア 1079.0 ± 7.0、画質 1140 ± 6.0(社内 GenAI-Bench)。
Gemini 2.5 Flash Image (Nano Banana)先行する Flash リリース(忠実度はやや低め)3.1 と比べ嗜好/画質スコアがわずかに低い。
Gemini 3 Pro Image (Nano Banana Pro)Pro ティア:複雑タスクでより高い知覚上の忠実度、コスト/レイテンシ高トレードオフが異なる。特定タスクでは相対的順位が異なるメトリクスもあり。
GPT-Image 1.5 / other commercial models競合(オープン/クローズド)Google の社内ベンチマークでは、報告された評価において画質と全体嗜好で GPT-Image などは Gemini 3.1 を下回る結果。第三者の比較では見解が分かれる場合あり。

Flash Image Preview を選ぶべき場面:

  • アプリ内のリアルタイム画像プレビュー
  • コスト重視の大規模画像生成
  • インタラクティブなデザインアシスタント

Nano Banana 2 の利用と統合方法

Step 1: API キーを取得

cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI console にサインインします。インターフェースのアクセス認証用 API キーを取得します。パーソナルセンターの API トークンで「Add Token」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。

Step 2: Nano Banana 2 API にリクエストを送信

“gemini-3.1-flash-image-preview8” エンドポイントを選択し、API リクエストを送信してリクエストボディを設定します。リクエストメソッドおよびリクエストボディは当社サイトの API ドキュメントから取得できます。利便性のため、当社サイトでは Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。Where to call it: Gemini generates image

Nano Banana 2 は、画像編集、画像生成、マルチ画像ワークフローをサポートします。画像編集の場合は、画像 URL をアップロードする必要があります。その他のパラメータについてはドキュメントを参照してください。

Step 3: 結果の取得と検証

API レスポンスを処理して生成結果を取得します。処理後、API はタスクステータスと出力データを返します。プレイグラウンドで画像をローカルに直接ダウンロードできます(通常は PNG 形式)。API 処理中に画像 URL が生成されますので、速やかにダウンロードしてください。

よくある質問

Nano Banana 2 とは正確には何で、何ができるのですか?

Nano Banana 2 は、Gemini Flash の画像技術を基盤として構築された Google の最新の AI 画像生成・編集モデルであり、テキスト入力と画像入力の両方にわたって、高速で高品質なビジュアル生成と、指示への高精度な追従を実現します。

Nano Banana 2 は Gemini 3.1 Flash Image とどのような関係がありますか?

Nano Banana 2 は本質的に、Google の Gemini 3.1 Flash Image モデルのコンシューマー向けブランド名であり、従来の Nano Banana バージョンの高度な機能と Flash モデルの速度を組み合わせたものです。

Nano Banana 2 は従来の Nano Banana モデルと比べてどのような改善がありますか?

Nano Banana 2 では、生成速度の向上、ディテールの鮮明化、指示忠実度の改善、テキストレンダリング⁠/ローカライズ翻訳の強化、そしてより幅広いクリエイティブコントロールが実現されており、多くの Pro レベル機能がベースティアでも利用可能になっています。

Nano Banana 2 ではどのような種類の画像や解像度を生成できますか?

このモデルは、さまざまなアスペクト比と最大 4K までの解像度による柔軟な出力に対応しており、ソーシャルメディア、広告、ディスプレイ、プロフェッショナルコンテンツに適しています。

Nano Banana 2 は複雑な構図でも一貫性を維持できますか?

はい — 複数の被写体やオブジェクトにまたがって一貫性を維持します(たとえば、単一のプロンプトワークフローで最大 5 人のキャラクターと 14 個のオブジェクトまで対応可能です)。これにより、物語性のあるシーンや絵コンテ風のタスクに役立ちます。

Gemini 3.1 Flash Image はどのような画像生成ユースケースに最適ですか?

高品質な画像の作成と編集、インフォグラフィック、複数画像間の一貫性、テキストレンダリング、ローカライズされた多言語出力に特に適しており、とりわけワークフローで精密な制御と反復的な試行が必要な場合に有効です。

Nano Banana 2 はリアルタイム情報や世界知識を使用しますか?

Nano Banana 2 は、より正確な被写体、インフォグラフィック、位置情報に対応したビジュアルの生成を支援するために、現実世界の知識と画像検索の統合を取り入れています。

Gemini 3.1 Flash Image は画像や図の中に詳細なテキストを生成できますか?

はい — 画像内で明瞭なテキストを生成・レンダリングできますが、極端に小さい文字や高密度の複数段落テキストについては、依然として難しい場合があります。

Nano Banana 2の機能

Nano Banana 2のパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

Nano Banana 2の料金

Nano Banana 2の競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。Nano Banana 2がコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。

nano-banana-2(image)

variant / aliasPrice
gemini-3.1-flash-image (0.5K)≈ $0.03600
gemini-3.1-flash-image (1K)≈ $0.05360
gemini-3.1-flash-image (2K)≈ $0.08080
gemini-3.1-flash-image (4K)≈ $0.12080
gemini-3.1-flash-image-preview (0.5K)≈ $0.03600
gemini-3.1-flash-image-preview (1K)≈ $0.05360
gemini-3.1-flash-image-preview (2K)≈ $0.08080
gemini-3.1-flash-image-preview (4K)≈ $0.12080

Nano Banana 2のサンプルコードとAPI

Nano Banana 2の包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでNano Banana 2の潜在能力を最大限に活用できるよう支援します。
POST
/v1beta/models/{model}:generateContent
Python
JavaScript
Curl
from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

Python Code Example

from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

JavaScript Code Example

import fs from "fs";
import path from "path";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-image-preview";

const prompt =
  "A woman leaning on a wooden railing of a traditional Chinese building. " +
  "She is wearing a blue cheongsam with pink and red floral motifs and a headdress " +
  "made of colorful flowers, including roses and lilacs. Realistic painting style, " +
  "focusing on the textural details of the clothing patterns and wooden buildings.";

const response = await fetch(`${base_url}/models/${model}:generateContent`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        role: "user",
        parts: [{ text: prompt }],
      },
    ],
    generationConfig: {
      responseModalities: ["IMAGE"],
      imageConfig: {
        aspectRatio: "9:16",
      },
    },
  }),
});

const data = await response.json();

const outputDir = "./output";
if (!fs.existsSync(outputDir)) {
  fs.mkdirSync(outputDir, { recursive: true });
}

for (const candidate of data.candidates) {
  for (const part of candidate.content.parts) {
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageBuffer = Buffer.from(part.inlineData.data, "base64");
      const outputPath = path.join(outputDir, "gemini-3.1-flash-image-preview.png");
      fs.writeFileSync(outputPath, imageBuffer);
      console.log(`Image saved to ${outputPath}`);
    }
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

Nano Banana 2のバージョン

Nano Banana 2に複数のスナップショットが存在する理由としては、アップデート後の出力変動により旧版スナップショットの一貫性維持が必要な場合、開発者に適応・移行期間を提供するため、グローバル/リージョナルエンドポイントに対応する異なるスナップショットによるユーザー体験最適化などが考えられます。各バージョンの詳細な差異については、公式ドキュメントをご参照ください。
モデルID説明利用可否リクエスト
gemini-3.1-flash-image推奨(最新モデルを指します)✅Gemini が画像を生成します
gemini-3.1-flash-image-preview公式プレビュー✅Gemini が画像を生成します

その他のモデル

D

Doubao Seedream 5

リクエストごと:$0.028
Seedream 5.0 Lite は、深い思考能力とオンライン検索機能を備えた統合型マルチモーダル画像生成モデルで、理解・推論・生成の各能力が総合的に強化されています。
F

FLUX 2 MAX

リクエストごと:$0.008
FLUX.2 [max] は Black Forest Labs (BFL) による最高水準の視覚インテリジェンスモデルで、プロダクション向けのワークフロー: マーケティング、商品写真、eコマース、クリエイティブなパイプライン、および一貫したキャラクター/製品アイデンティティ、正確なテキストレンダリング、マルチメガピクセル解像度でのフォトリアルなディテールを必要とするあらゆるアプリケーションに向けて設計されています。アーキテクチャは、強力なプロンプト追従、複数参照の融合(最大10枚の入力画像)、およびグラウンデッド生成(画像生成時に最新のウェブコンテキストを取り込む能力)に対応するよう設計されています。
X

Black Forest Labs/FLUX 2 MAX

リクエストごと:$0.056
FLUX.2 [max] は、Black Forest Labs (BFL) の FLUX.2 ファミリーにおけるフラッグシップかつ最高品質のバリアントです。最大限の忠実度、プロンプト遵守、キャラクター、オブジェクト、ライティング、色にわたる編集の一貫性に重点を置いた、プロフェッショナルグレードのテキスト→画像生成および画像編集モデルとして位置付けられています。BFL およびパートナーのレジストリは、FLUX.2 [max] を、マルチリファレンス編集やグラウンデッド生成向けの機能を備えた、FLUX.2 の最上位バリアントとして説明しています。
O

GPT Image 1.5

入力:$6.4/M
出力:$25.6/M
GPT-Image-1.5は、OpenAIのGPT Image familyに属する画像モデルです。これは、テキストプロンプトから画像を生成し、ユーザーの指示に厳密に従いながら入力画像の高忠実度な編集を行うように設計された、ネイティブにマルチモーダルなGPTモデルです。
D

Doubao Seedream 4.5

リクエストごと:$0.032
Seedream 4.5 は、ByteDance/Seed のマルチモーダル画像モデル(text→image + 画像編集)で、プロダクショングレードの画像忠実度、より強固なプロンプトへの忠実性、そして大幅に改善された編集の一貫性(被写体の保持、テキスト/タイポグラフィのレンダリング、顔の写実性)に注力しています。
R

Black Forest Labs/FLUX 2 PRO

R

Black Forest Labs/FLUX 2 PRO

リクエストごと:$0.06
FLUX 2 PROはFLUX 2シリーズの旗艦商用モデルで、かつてない品質とディテールで最先端の画像生成を実現します。プロフェッショナルおよびエンタープライズ用途向けに設計されており、優れたプロンプト忠実度、フォトリアリスティックな出力、卓越した芸術的表現力を備えています。このモデルは、AI画像合成技術の最先端を体現しています。

関連ブログ

2026年のOpenClawの料金はいくら?完全な料金内訳
Apr 13, 2026
openclaw

2026年のOpenClawの料金はいくら?完全な料金内訳

OpenClaw のコアソフトウェアは 100% 無料(MIT ライセンス)です。実際の月額コストは、軽めの個人利用**(無料枠のホスティング + 低価格モデル)で $0–$13 から、**小規模チーム向けで $25–$100、大規模な自動化では $100–$200+ に及びます。公式の OpenClaw Cloud マネージドプランは一律 $59/月(初月は $29.50)です。API トークンが最大の変動要因—賢明な最適化で 90% 削減できます。
GPT Image 1.5 と Seedream 4.5:2026年に優れているのはどちらか
Apr 12, 2026
gpt-image-1-5
seedream-4-5

GPT Image 1.5 と Seedream 4.5:2026年に優れているのはどちらか

GPT Image 1.5(OpenAI、2025年12月)は、4倍高速な生成(5〜15秒)、トップクラスの LM Arena ELO スコア(約1,264〜1,285)、そして編集における優れた指示追従性でリードしています。Seedream 4.5(ByteDance、2025年12月)は、タイポグラフィ、4K解像度、複数画像間の一貫性(最大14件の参照)、および一律 $0.04/画像の価格設定に優れています。速度と汎用性なら GPT Image 1.5、デザイン重視の商用案件には Seedream 4.5 を選びましょう。どちらも、**CometAPI** の統合プラットフォーム経由で、20%超のコスト削減と単一キー統合により手頃に利用可能です。
2026年にChatGPTが画像を生成するのにどれくらい時間がかかりますか?
Apr 9, 2026
chat-gpt

2026年にChatGPTが画像を生成するのにどれくらい時間がかかりますか?

2026年、ChatGPTは最新のGPT-Image 1.5モデル(DALL·E 3の後継)を用いて、通常**5~20秒**で画像を生成します。シンプルなプロンプトなら最短で3~8秒で完了する一方、ピーク時には複雑または高精細なリクエストで20~60秒かかる場合があります。無料ユーザーはより長く(30~60秒超)待つことが多いのに対し、Plus/Pro加入者は優先処理の恩恵を受けます。これらの所要時間は、2024~2025年のDALL·E 3における平均15~30秒と比べて大幅に改善しており、OpenAIが2025年12月に実施したGPT-Image 1.5へのアップグレードにより、推論が最大4倍高速化されたことによるものです。
Alibaba Wan2.7-Image レビュー 2026: 革命的な統合型AI画像モデル
Apr 3, 2026

Alibaba Wan2.7-Image レビュー 2026: 革命的な統合型AI画像モデル

Wan2.7-Image は Alibaba Cloud の新たにローンチされた統合画像モデルで、2026年4月1日に発表されました。画像生成、画像編集、視覚理解を1つのワークフローに統合し、複数画像入力をサポートし、Pro バリアントよりも高速な生成を実現するよう設計されています。Alibaba によれば、このモデルはテキストからの画像生成、画像編集、画像セット生成、複数の参照画像に対応でき、Wan2.7-Image-Pro は 4K 出力とより安定した構図を追加しています。
Luma AI Unit-1 画像モデル(2026):包括的な分析と比較
Mar 24, 2026

Luma AI Unit-1 画像モデル(2026):包括的な分析と比較

Luma AI の Uni-1 は、画像生成と視覚理解を単一のアーキテクチャに統合した次世代の自己回帰型マルチモーダル画像モデルです。拡散モデルと異なり、テキストと画像のトークンを同一のシーケンスで処理し、優れた推論、編集、マルチターンのクリエイティブなワークフローを可能にします。Uni-1 は、RISEBench のような論理ベースのベンチマークで、GPT Image 1.5 や Nano Banana 2 といった競合を上回ります。