Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/Google/Nano Banana 2
G

Nano Banana 2

Đầu vào:$0.4/M
Đầu ra:$2.4/M
Tổng quan về khả năng cốt lõi: Độ phân giải: Lên đến 4K (4096×4096), tương đương với Pro. Tính nhất quán hình ảnh tham chiếu: Tối đa 14 hình ảnh tham chiếu (10 đối tượng + 4 nhân vật), duy trì tính nhất quán về phong cách/nhân vật. Tỷ lệ khung hình cực đoan: Bổ sung các tỷ lệ mới 1:4, 4:1, 1:8, 8:1, phù hợp cho hình ảnh dài, poster và banner. Kết xuất văn bản: Tạo văn bản nâng cao, phù hợp cho infographics và bố cục poster marketing. Tăng cường tìm kiếm: Tích hợp Google Search + Image Search. Lý giải nền tảng: Quy trình tư duy tích hợp; các prompt phức tạp được suy luận trước khi tạo.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Thông số kỹ thuật của Gemini 3.1 Flash Image Preview

MụcGemini 3.1 Flash Image Preview
Nhà cung cấpGoogle
Dòng mô hìnhGemini 3.1 (tầng Flash)
Trọng tâm chínhTạo đa phương thức nhanh với xem trước hình ảnh
Loại đầu vàoVăn bản, Hình ảnh
Loại đầu raVăn bản, Hình ảnh (tạo xem trước)
Cửa sổ ngữ cảnhTối đa 1M token (tiêu chuẩn tầng Flash Gemini 3.x)
Tầng độ trễĐộ trễ thấp, thông lượng cao
Hỗ trợ streamingCó
Gọi công cụCó (khung công cụ Gemini API)
Phiên bản3.1

Nano Banana 2 là gì

Nano Banana 2 là biệt danh phổ biến do báo chí và cộng đồng nhà phát triển dùng để gọi mô hình Gemini-3.1-Flash-Image mới phát hành. Google định vị đây là động cơ hình ảnh thuộc “tầng Flash” mang lại độ trung thực thị giác gần mức Pro với độ trễ và chi phí thấp hơn nhiều — phù hợp cho tạo nội dung khối lượng lớn, chỉnh sửa lặp nhanh và các quy trình sản phẩm tích hợp trong các dịch vụ của Google. Nó kế thừa khả năng suy luận đa phương thức của Gemini 3.1 và bổ sung các khả năng tập trung vào hình ảnh (chữ trong ảnh dễ đọc, phối ghép đa ảnh, hỗ trợ tỷ lệ khung hình rộng, 4K gốc).

Tính năng chính

  • Tạo tốc độ cao, đa độ phân giải: Tốc độ tầng Flash với tùy chọn đầu ra 0.5K / 1K / 2K / 4K và các tỷ lệ cực đoan mới (1:4, 4:1, 1:8, 8:1).
  • Neo thông tin web theo thời gian thực: Tích hợp kết quả tìm kiếm văn bản và hình ảnh để neo nội dung tạo ra vào thông tin web hiện thời khi bật “Thinking” hoặc neo dựa trên tìm kiếm. Hữu ích cho tham chiếu cập nhật và đồ họa thông tin dựa trên sự thật.
  • Cải thiện hiển thị chữ: Kết xuất chữ ngắn và đồ họa chữ (phông, kích cỡ) tốt hơn so với các mô hình Flash trước đó; vẫn chưa hoàn hảo với đoạn dài/chữ nhỏ.
  • Chỉnh sửa đa đầu vào và quy trình đa lượt: Hỗ trợ mạnh việc kết hợp nhiều ảnh làm đầu vào và các lần chỉnh sửa lặp qua nhiều lượt.

📊 Hiệu năng Benchmark — Tạo & Chỉnh sửa Hình ảnh (điểm Elo)

Năng lựcGemini 3.1 Flash Image (Nano Banana 2)Gemini 2.5 Flash Image (Nano Banana)Gemini 3 Pro Image (Nano Banana Pro)GPT-Image 1.5Seedream 5.0 LiteGrok Imagine Image Pro
Văn bản → Ảnh — Ưu tiên tổng thể1079.0 ± 7.01073.0 ± 5.0942.0 ± 6.01021.0 ± 5.01047.0 ± 5.0928.0 ± 8.0
Văn bản → Ảnh — Chất lượng thị giác1140.0 ± 6.01129.0 ± 6.0929.0 ± 6.01043.0 ± 5.0975.0 ± 5.0759.0 ± 10.0
Văn bản → Ảnh — Đồ họa thông tin (tính xác thực)1114.0 ± 14.01074.0 ± 12.0881.0 ± 13.01102.0 ± 13.0985.0 ± 12.0890.0 ± 22.0
Chỉnh sửa — Tổng quát1065.0 ± 9.01047.0 ± 9.0913.0 ± 9.01051.0 ± 10.0995.0 ± 8.0937.0 ± 9.0
Chỉnh sửa — Nhân vật1056.0 ± 7.01049.0 ± 7.0952.0 ± 7.01050.0 ± 8.01025.0 ± 7.0894.0 ± 8.0
Chỉnh sửa — Sáng tạo1023.0 ± 7.01031.0 ± 7.0976.0 ± 7.01004.0 ± 7.01017.0 ± 7.0938.0 ± 7.0
Chỉnh sửa — Đối tượng/Môi trường1029.0 ± 8.01018.0 ± 8.0945.0 ± 8.01042.0 ± 10.0976.0 ± 8.0946.0 ± 9.0
Chỉnh sửa — Đa đầu vào1037.0 ± 8.01016.0 ± 8.0919.0 ± 9.01056.0 ± 12.01014.0 ± 9.0N/A
Chỉnh sửa — Phong cách hóa1045.0 ± 7.01031.0 ± 7.0862.0 ± 8.01045.0 ± 9.0996.0 ± 7.0984.0 ± 7.0

Điểm chính rút ra từ bảng benchmark này:

  • Trong các hạng mục tạo ảnh từ văn bản và chỉnh sửa ảnh, Gemini 3.1 Flash Image liên tục dẫn đầu hoặc ngang bằng điểm cao nhất trong nhóm tầng Flash và nhiều mô hình ảnh cạnh tranh khác.
  • Mô hình thể hiện đặc biệt mạnh ở các benchmark Chất lượng thị giác và Đồ họa thông tin (tính xác thực) — cho thấy nó vượt trội không chỉ về thẩm mỹ mà còn trong việc kết xuất nội dung có cấu trúc chính xác.
  • Ở hạng mục chỉnh sửa đa đầu vào, Nano Banana 2 cũng cho thấy khả năng khái quát mạnh mẽ, với điểm số cao hơn thế hệ Flash trước.

Các đánh giá này được thực hiện thông qua so sánh Elo song song do con người trên một bộ benchmark đa dạng, phản ánh cả mức độ ưa thích và độ trung thực trong các tác vụ tạo/chỉnh sửa ảnh thường dùng.

Nano Banana 2 so với Nano Banana và Nano Banana Pro

Mô hìnhĐịnh vịBenchmark/ghi chú tiêu biểu
Gemini 3.1 Flash Image (Nano Banana 2)Tầng Flash: tốc độ + chất lượng thị giác cao (2K–4K)Ưu tiên tổng thể 1079.0 ± 7.0; chất lượng thị giác 1140 ± 6.0 (GenAI-Bench nội bộ).
Gemini 2.5 Flash Image (Nano Banana)Bản phát hành Flash trước (độ trung thực thấp hơn)Điểm ưu tiên/chất lượng thị giác thấp hơn một chút so với 3.1.
Gemini 3 Pro Image (Nano Banana Pro)Tầng Pro: độ trung thực cảm nhận cao hơn cho tác vụ phức tạp, chi phí/độ trễ cao hơnThỏa hiệp khác nhau; một số chỉ số cho thấy xếp hạng tương đối khác trong các tác vụ chuyên biệt.
GPT-Image 1.5 / các mô hình thương mại khácĐối thủ (mã nguồn mở/đóng)Trong benchmark nội bộ của Google, GPT-Image và các mô hình khác có điểm thấp hơn Gemini 3.1 về chất lượng thị giác và ưu tiên tổng thể trong đánh giá được báo cáo. So sánh độc lập từ bên thứ ba có thể khác nhau.

Khi nào nên chọn Flash Image Preview:

  • Xem trước hình ảnh theo thời gian thực trong ứng dụng
  • Tạo ảnh quy mô lớn nhạy chi phí
  • Trợ lý thiết kế tương tác

Cách truy cập và tích hợp Nano Banana 2

Bước 1: Đăng ký khóa API

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy khóa API (thông tin xác thực truy cập) của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến API Nano Banana 2

Chọn endpoint “gemini-3.1-flash-image-preview8” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp Apifox để bạn thử nghiệm. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực của bạn từ tài khoản. Nơi gọi: Gemini tạo ảnh

Nano Banana 2 hỗ trợ chỉnh sửa ảnh, tạo ảnh và quy trình đa ảnh. Đối với chỉnh sửa ảnh, bạn cần tải lên URL ảnh. Với các tham số khác, vui lòng tham khảo tài liệu.

Bước 3: Nhận và xác minh kết quả

Xử lý phản hồi API để lấy kết quả tạo ra. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra. Bạn có thể tải trực tiếp ảnh về máy cục bộ trong playground (thường ở định dạng PNG). Một URL ảnh được tạo trong quá trình API; vui lòng tải xuống kịp thời.

Câu hỏi thường gặp

What exactly is Nano Banana 2 and what does it do?

Nano Banana 2 là mô hình tạo và chỉnh sửa hình ảnh bằng AI mới nhất của Google, được xây dựng trên công nghệ hình ảnh Gemini Flash để mang đến khả năng tạo hình ảnh nhanh, chất lượng cao và tuân thủ hướng dẫn chính xác trên các đầu vào văn bản và hình ảnh.

How does Nano Banana 2 relate to Gemini 3.1 Flash Image?

Về bản chất, Nano Banana 2 là thương hiệu hướng tới người dùng cho mô hình Gemini 3.1 Flash Image của Google, kết hợp các khả năng nâng cao từ các phiên bản Nano Banana trước đó với tốc độ của các mô hình Flash.

What improvements does Nano Banana 2 add over earlier Nano Banana models?

Nano Banana 2 mang lại tốc độ tạo nhanh hơn, chi tiết sắc nét hơn, độ trung thực với hướng dẫn tốt hơn, khả năng kết xuất văn bản/dịch bản địa hóa được cải thiện và quyền kiểm soát sáng tạo rộng hơn, đồng thời đưa nhiều tính năng cấp độ chuyên nghiệp xuống gói cơ bản.

What kinds of images and resolutions can Nano Banana 2 generate?

Mô hình hỗ trợ đầu ra linh hoạt với nhiều tỷ lệ khung hình và độ phân giải lên đến 4K, phù hợp cho mạng xã hội, quảng cáo, màn hình hiển thị và nội dung chuyên nghiệp.

Can Nano Banana 2 maintain consistency in complex compositions?

Có — nó duy trì tính nhất quán trên nhiều chủ thể và đối tượng (ví dụ, tối đa năm nhân vật và 14 đối tượng trong một quy trình lời nhắc duy nhất), hỗ trợ các cảnh mang tính tường thuật và các tác vụ kiểu bảng phân cảnh.

What image generation use cases is Gemini 3.1 Flash Image best suited for?

Rất phù hợp cho việc tạo và chỉnh sửa hình ảnh ở cấp độ chuyên nghiệp, đồ họa thông tin, đảm bảo nhất quán giữa nhiều ảnh, kết xuất văn bản và đầu ra đa ngôn ngữ được bản địa hóa, đặc biệt khi quy trình công việc cần kiểm soát chính xác và lặp lại nhiều lần.

Does Nano Banana 2 use real-time information or world knowledge?

Nano Banana 2 kết hợp kiến thức về thế giới thực và tích hợp tìm kiếm hình ảnh để giúp tạo ra các đối tượng, đồ họa thông tin và hình ảnh nhận biết vị trí chính xác hơn.

Can Gemini 3.1 Flash Image generate detailed text within images or diagrams?

Có — nó có thể tạo và kết xuất văn bản rõ ràng trong hình ảnh, nhưng văn bản cực nhỏ hoặc nhiều đoạn dày đặc đôi khi vẫn là một thách thức.

Tính năng cho Nano Banana 2

Khám phá các tính năng chính của Nano Banana 2, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Nano Banana 2

Khám phá mức giá cạnh tranh cho Nano Banana 2, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Nano Banana 2 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

nano-banana-2(image)

variant / aliasPrice
gemini-3.1-flash-image (0.5K)≈ $0.03600
gemini-3.1-flash-image (1K)≈ $0.05360
gemini-3.1-flash-image (2K)≈ $0.08080
gemini-3.1-flash-image (4K)≈ $0.12080
gemini-3.1-flash-image-preview (0.5K)≈ $0.03600
gemini-3.1-flash-image-preview (1K)≈ $0.05360
gemini-3.1-flash-image-preview (2K)≈ $0.08080
gemini-3.1-flash-image-preview (4K)≈ $0.12080

Mã mẫu và API cho Nano Banana 2

Truy cập mã mẫu toàn diện và tài nguyên API cho Nano Banana 2 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Nano Banana 2 trong các dự án của mình.
POST
/v1beta/models/{model}:generateContent
Python
JavaScript
Curl
from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

Python Code Example

from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

JavaScript Code Example

import fs from "fs";
import path from "path";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-image-preview";

const prompt =
  "A woman leaning on a wooden railing of a traditional Chinese building. " +
  "She is wearing a blue cheongsam with pink and red floral motifs and a headdress " +
  "made of colorful flowers, including roses and lilacs. Realistic painting style, " +
  "focusing on the textural details of the clothing patterns and wooden buildings.";

const response = await fetch(`${base_url}/models/${model}:generateContent`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        role: "user",
        parts: [{ text: prompt }],
      },
    ],
    generationConfig: {
      responseModalities: ["IMAGE"],
      imageConfig: {
        aspectRatio: "9:16",
      },
    },
  }),
});

const data = await response.json();

const outputDir = "./output";
if (!fs.existsSync(outputDir)) {
  fs.mkdirSync(outputDir, { recursive: true });
}

for (const candidate of data.candidates) {
  for (const part of candidate.content.parts) {
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageBuffer = Buffer.from(part.inlineData.data, "base64");
      const outputPath = path.join(outputDir, "gemini-3.1-flash-image-preview.png");
      fs.writeFileSync(outputPath, imageBuffer);
      console.log(`Image saved to ${outputPath}`);
    }
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

Các phiên bản của Nano Banana 2

Lý do Nano Banana 2 có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
ID mô hìnhMô tảKhả dụngYêu cầu
gemini-3.1-flash-imageĐược khuyến nghị, trỏ đến mô hình mới nhất✅Gemini tạo hình ảnh
gemini-3.1-flash-image-previewBản xem trước chính thức✅Gemini tạo hình ảnh

Thêm mô hình

D

Doubao Seedream 5

Theo Yêu cầu:$0.028
Seedream 5.0 Lite là một mô hình tạo sinh hình ảnh đa phương thức hợp nhất, được trang bị khả năng tư duy sâu và tìm kiếm trực tuyến, mang đến nâng cấp toàn diện về khả năng hiểu, suy luận và tạo sinh.
F

FLUX 2 MAX

Theo Yêu cầu:$0.008
FLUX.2 [max] là mô hình trí tuệ thị giác hàng đầu từ Black Forest Labs (BFL) được thiết kế cho các luồng công việc sản xuất: marketing, nhiếp ảnh sản phẩm, thương mại điện tử, chuỗi quy trình sáng tạo, và mọi ứng dụng cần nhận diện nhân vật/sản phẩm nhất quán, kết xuất văn bản chính xác, và chi tiết ảnh chân thực ở độ phân giải nhiều megapixel. Kiến trúc được thiết kế cho khả năng bám sát lời nhắc mạnh mẽ, hợp nhất đa tham chiếu (tối đa mười ảnh đầu vào), và tạo sinh có căn cứ (khả năng kết hợp bối cảnh web cập nhật khi tạo ảnh).
X

Black Forest Labs/FLUX 2 MAX

Theo Yêu cầu:$0.056
FLUX.2 [max] là biến thể đầu bảng, chất lượng cao nhất thuộc họ FLUX.2 của Black Forest Labs (BFL). Nó được định vị là một mô hình tạo sinh văn bản→hình ảnh và chỉnh sửa hình ảnh cấp độ chuyên nghiệp, tập trung vào độ trung thực tối đa, mức độ bám sát prompt và tính nhất quán khi chỉnh sửa trên nhân vật, đối tượng, ánh sáng và màu sắc. BFL và các registry đối tác mô tả FLUX.2 [max] là biến thể FLUX.2 cao cấp nhất với các tính năng hỗ trợ chỉnh sửa đa tham chiếu và tạo sinh có căn cứ.
O

GPT Image 1.5

Đầu vào:$6.4/M
Đầu ra:$25.6/M
GPT-Image-1.5 là mô hình hình ảnh của OpenAI trong GPT Image family . Đây là một mô hình GPT đa phương thức gốc, được thiết kế để tạo hình ảnh từ lời nhắc bằng văn bản và thực hiện các chỉnh sửa hình ảnh đầu vào với độ trung thực cao, đồng thời tuân thủ chặt chẽ hướng dẫn của người dùng.
D

Doubao Seedream 4.5

Theo Yêu cầu:$0.032
Seedream 4.5 là mô hình hình ảnh đa phương thức (văn bản→hình ảnh + chỉnh sửa hình ảnh) của ByteDance/Seed, tập trung vào độ trung thực hình ảnh ở cấp độ sản xuất, bám sát prompt tốt hơn và tính nhất quán khi chỉnh sửa được cải thiện đáng kể (bảo toàn chủ thể, kết xuất văn bản/typography và độ chân thực khuôn mặt).
R

Black Forest Labs/FLUX 2 PRO

R

Black Forest Labs/FLUX 2 PRO

Theo Yêu cầu:$0.06
FLUX 2 PRO là mẫu thương mại đầu bảng trong dòng FLUX 2, mang lại khả năng tạo sinh hình ảnh tối tân với chất lượng và độ chi tiết chưa từng có. Được xây dựng cho các ứng dụng chuyên nghiệp và doanh nghiệp, mẫu này cung cấp khả năng bám sát prompt vượt trội, hình ảnh chân thực như thật và khả năng nghệ thuật xuất sắc. Mẫu này đại diện cho trình độ tiên tiến nhất của công nghệ tổng hợp hình ảnh bằng AI.

Blog liên quan

OpenClaw có giá bao nhiêu vào năm 2026? Phân tích chi tiết bảng giá
Apr 13, 2026
openclaw

OpenClaw có giá bao nhiêu vào năm 2026? Phân tích chi tiết bảng giá

Phần mềm lõi của OpenClaw miễn phí 100% (giấy phép MIT). Chi phí hàng tháng trong thực tế dao động từ $0–$13 cho mức sử dụng cá nhân nhẹ** (gói hosting miễn phí + mô hình giá rẻ) đến **$25–$100 cho các nhóm nhỏ và $100–$200+ cho khối lượng tự động hóa lớn. Gói OpenClaw Cloud được quản lý chính thức có mức giá cố định $59/tháng ($29.50 tháng đầu tiên). Token API là biến số lớn nhất—tối ưu hóa thông minh có thể cắt giảm chúng tới 90%.
GPT Image 1.5 so với Seedream 4.5: cái nào tốt hơn vào năm 2026?
Apr 12, 2026
gpt-image-1-5
seedream-4-5

GPT Image 1.5 so với Seedream 4.5: cái nào tốt hơn vào năm 2026?

GPT Image 1.5 (OpenAI, Thg 12 2025) dẫn đầu với khả năng tạo nhanh gấp 4 lần (5–15 giây), điểm ELO hàng đầu trên LM Arena (~1,264–1,285), và khả năng tuân thủ hướng dẫn vượt trội cho chỉnh sửa. Seedream 4.5 (ByteDance, Thg 12 2025) xuất sắc về typography, độ phân giải 4K, tính nhất quán đa hình ảnh (tối đa 14 tham chiếu), và mức giá cố định $0.04/image. Chọn GPT Image 1.5 cho tốc độ và tính đa dụng; Seedream 4.5 cho công việc thương mại nặng về thiết kế. Cả hai đều có thể truy cập với chi phí phải chăng qua nền tảng hợp nhất của **CometAPI**, mang lại tiết kiệm 20%+ và tích hợp bằng một khóa duy nhất.
Năm 2026, ChatGPT mất bao lâu để tạo ra một hình ảnh?
Apr 9, 2026
chat-gpt

Năm 2026, ChatGPT mất bao lâu để tạo ra một hình ảnh?

Năm 2026, ChatGPT thường tạo ảnh trong **5–20 giây** nhờ mô hình GPT-Image 1.5 mới nhất (phiên bản kế nhiệm DALL·E 3). Prompt đơn giản có thể hoàn thành chỉ trong 3–8 giây, trong khi các yêu cầu phức tạp hoặc độ chi tiết cao có thể mất 20–60 giây trong giờ cao điểm. Người dùng miễn phí thường phải chờ lâu hơn (30–60+ giây), trong khi người đăng ký Plus/Pro được ưu tiên xử lý. Những mốc thời gian này là một cải thiện lớn so với mức trung bình 15–30 giây của DALL·E 3 giai đoạn 2024–2025, nhờ bản nâng cấp GPT-Image 1.5 của OpenAI vào tháng 12 năm 2025, mang lại tốc độ suy luận nhanh hơn tới 4×.
Alibaba Wan2.7-Image Đánh giá 2026: Mô hình AI hình ảnh hợp nhất mang tính cách mạng
Apr 3, 2026

Alibaba Wan2.7-Image Đánh giá 2026: Mô hình AI hình ảnh hợp nhất mang tính cách mạng

Wan2.7-Image là mô hình hình ảnh hợp nhất mới ra mắt của Alibaba Cloud, được công bố vào ngày 1 tháng 4 năm 2026. Mô hình này kết hợp khả năng tạo sinh hình ảnh, chỉnh sửa hình ảnh và hiểu thị giác trong một quy trình làm việc duy nhất, hỗ trợ đầu vào nhiều ảnh và được thiết kế để tạo sinh nhanh hơn biến thể Pro. Alibaba cho biết mô hình có thể xử lý chuyển văn bản thành hình ảnh, chỉnh sửa hình ảnh, tạo bộ ảnh và nhiều ảnh tham chiếu, trong khi Wan2.7-Image-Pro bổ sung đầu ra 4K và bố cục ổn định hơn.
Mô hình hình ảnh Luma AI Unit-1 (2026): Phân tích & So sánh toàn diện
Mar 24, 2026

Mô hình hình ảnh Luma AI Unit-1 (2026): Phân tích & So sánh toàn diện

Uni-1 của Luma AI là một mô hình hình ảnh đa phương thức tự hồi quy thế hệ mới, hợp nhất tạo sinh ảnh và hiểu thị giác trong một kiến trúc duy nhất. Khác với các mô hình khuếch tán, nó xử lý các token văn bản và hình ảnh trong một chuỗi chung, từ đó cho phép suy luận, chỉnh sửa và quy trình sáng tạo đa lượt vượt trội. Uni-1 vượt trội hơn các đối thủ như GPT Image 1.5 và Nano Banana 2 trên các bộ đánh giá dựa trên logic như RISEBench.