Bagaimana untuk Menggunakan API Nano Banana Pro(Gemini 3 Pro) API?

CometAPI
AnnaDec 10, 2025
Bagaimana untuk Menggunakan API Nano Banana Pro(Gemini 3 Pro) API?

Nano Banana Pro — secara rasmi Imej Gemini 3 Pro — ialah model penjanaan dan pengeditan imej gred studio baharu Google/DeepMind yang menggabungkan penaakulan pelbagai mod lanjutan, pemaparan teks ketepatan tinggi, gubahan berbilang imej dan kawalan kreatif peringkat studio.

Apakah Nano Banana Pro dan mengapa anda perlu mengambil berat?

Nano Banana Pro ialah model penjanaan imej dan penyuntingan imej terbaharu Google — keluaran “Gemini 3 Pro Image” — direka untuk menghasilkan kesetiaan tinggi, imej peka konteks dan teks pada imej dengan kualiti studio sehingga 4K. Ia merupakan pengganti kepada model Nano Banana yang terdahulu (Gemini 2.5 Flash Image / “Nano Banana”) dengan penaakulan yang dipertingkatkan, asas Carian (fakta dunia sebenar), pemaparan teks yang lebih kukuh dan kawalan suntingan tempatan yang lebih berkuasa. Model ini tersedia dalam apl Gemini untuk pengguna interaktif dan akses Nano Banana Pro melalui API Gemini standard, tetapi anda memilih pengecam model tertentu (gemini-3-pro-image-preview atau penggantinya yang stabil). untuk akses program.

Mengapa ini penting: Nano Banana Pro dibina bukan sahaja untuk membuat imej yang cantik tetapi untuk memvisualisasikan maklumat — maklumat grafik, syot kilat dipacu data (cuaca, sukan), poster berat teks, mockup produk dan gabungan berbilang imej (sehingga 14 imej input dan mengekalkan konsistensi aksara merentas sehingga 5 orang). Untuk pereka bentuk, pasukan produk dan pembangun, gabungan ketepatan, teks pada imej dan akses program membuka aliran kerja pengeluaran yang sukar untuk diautomatikkan sebelum ini

Apakah fungsi yang didedahkan melalui API?

Keupayaan API biasa yang terdedah kepada pembangun termasuk:

  • Teks → Penjanaan imej (komposisi "berfikir" satu langkah atau berbilang langkah mengalir).
  • Pengeditan imej (topeng tempatan, inpainting, pelarasan gaya).
  • Gabungan berbilang imej (gabungkan imej rujukan).
  • Kawalan permintaan lanjutan: peleraian, nisbah bidang, langkah pasca pemprosesan dan jejak "pemikiran komposisi" untuk nyahpepijat/pemeriksaan dalam mod pratonton.

Inovasi Teras dan Fungsi Nano Banana Pro

Penaakulan kandungan yang lebih bijak

Menggunakan timbunan penaakulan Gemini 3 Pro untuk mentafsir arahan visual yang kompleks dan berbilang langkah (cth, "buat maklumat grafik 5 langkah daripada set data ini dan tambahkan kapsyen dwibahasa"). API mendedahkan mekanisme "Pemikiran" yang boleh menghasilkan ujian komposisi interim untuk memperhalusi output akhir.

Mengapa ia perkara: Daripada pas tunggal yang memetakan gesaan → piksel, model melakukan proses "pemikiran" dalaman yang memperhalusi komposisi dan boleh memanggil alatan luaran (cth, Carian Google) untuk pembumian fakta (cth, label rajah tepat atau papan tanda yang betul setempat). Ini menghasilkan imej yang bukan sahaja lebih cantik tetapi lebih tepat dari segi semantik untuk tugasan seperti maklumat grafik, rajah atau mockup produk.

Bagaimana untuk mencapai: "Pemikiran" Nano Banana Pro ialah pas penaakulan/komposisi dalaman terkawal di mana model menjana visual perantaraan dan jejak penaakulan sebelum menghasilkan imej akhir. API mendedahkan bahawa model boleh mencipta sehingga dua bingkai sementara dan imej akhir ialah peringkat terakhir rantaian itu. Dalam pengeluaran ini membantu dengan komposisi, peletakan teks dan keputusan reka letak.

Penyampaian teks yang lebih tepat

Teks yang boleh dibaca dan disetempatkan dengan ketara dalam imej (menu, poster, gambar rajah).Nano Banana Pro mencapai tahap baharu dalam pemaparan teks imej:

  • Teks dalam imej jelas, boleh dibaca dan dieja dengan tepat;
  • Menyokong generasi berbilang bahasa (termasuk Cina, Jepun, Korea, Arab, dll.);
  • Membenarkan pengguna menulis perenggan panjang atau teks deskriptif berbilang baris terus ke dalam imej;
  • Terjemahan automatik dan penyetempatan tersedia.

Mengapa ia perkara: Secara tradisinya, model imej bergelut untuk menghasilkan teks yang boleh dibaca dan dijajar dengan baik. Nano Banana Pro dioptimumkan secara eksplisit untuk pemaparan dan penyetempatan teks yang boleh dipercayai (cth, menterjemah dan mengekalkan reka letak), yang membuka kunci kes penggunaan kreatif sebenar seperti poster, pembungkusan atau iklan berbilang bahasa.

Bagaimana untuk mencapai: Penambahbaikan pemaparan teks datang daripada seni bina multimodal asas dan latihan pada set data yang menekankan contoh teks dalam imej, digabungkan dengan set penilaian disasarkan (penilaian manusia dan set regresi). Model ini belajar menjajarkan bentuk glif, fon dan kekangan reka letak untuk menghasilkan teks yang boleh dibaca dan disetempatkan di dalam imej — walaupun teks kecil dan perenggan yang sangat padat masih boleh terdedah kepada ralat.

Konsistensi dan kesetiaan visual yang lebih kukuh

Kawalan studio (pencahayaan, fokus, sudut kamera, penggredan warna) dan komposisi berbilang imej (sehingga 14 imej rujukan, dengan elaun khas untuk berbilang subjek manusia) membantu mengekalkan konsistensi watak (mengekalkan orang/watak yang sama merentas suntingan) dan identiti jenama merentas aset yang dijana. Model ini menyokong output 1K/2K/4K asli.

Mengapa ia perkara: Aliran kerja pemasaran dan hiburan memerlukan watak yang konsisten merentas syot dan suntingan. Model boleh mengekalkan persamaan sehingga 5 orang dan bercampur sehingga 14 rujuk imej ke dalam satu gubahan semasa menghasilkan Lakaran → Render 3D. Ini berguna untuk kreatif iklan, pembungkusan atau bercerita berbilang syot.

Bagaimana untuk mencapai: Input model menerima berbilang imej dengan tugasan peranan yang jelas (cth, "Imej A: pose", "Imej B: rujukan muka", "Imej C: tekstur latar belakang"). Seni bina menetapkan penjanaan pada imej tersebut untuk mengekalkan identiti/pose/gaya semasa menggunakan transformasi (pencahayaan, kamera).

Penanda Aras Prestasi Nano Banana Pro

Nano Banana Pro (Imej Gemini 3 Pro) "cemerlang pada Teks → Penanda aras Imej AI" dan ia menunjukkan penaakulan dan asas kontekstual yang lebih baik berbanding model Nano Banana sebelumnya. Ia menekankan kesetiaan yang lebih tinggi dan pemaparan teks yang lebih baik berbanding keluaran sebelumnya.

Bagaimana untuk Menggunakan API Nano Banana Pro(Gemini 3 Pro) API?

Panduan prestasi praktikal

Jangkakan kependaman yang lebih tinggi dan kos untuk pemaparan kesetiaan tinggi 2K/4K berbanding model 1K atau "Flash" yang dioptimumkan untuk kelajuan. Jika daya tampung/kependaman adalah kritikal, gunakan varian denyar (cth, Gemini 2.5 Flash / Nano Banana) untuk volum tinggi; gunakan Nano Banana Pro / gemini-3-pro-image untuk tugasan penaakulan yang berkualiti dan kompleks.

Bagaimanakah Pembangun Boleh Mengakses Nano Banana Pro?

Titik akhir dan model yang hendak dipilih

Pengecam model (pratonton / pro): gemini-3-pro-image-preview (pratonton) — gunakan ini apabila anda mahukan keupayaan Nano Banana Pro. Untuk kerja yang lebih cepat, kos yang lebih rendah, gemini-2.5-flash-image (Pisang Nano) masih ada.

Permukaan untuk digunakan

  • API Gemini (titik akhir bahasa generatif): Anda boleh menggunakan kunci CometAPI untuk mengakses xx. CometAPI menawarkan API yang sama pada harga yang lebih menguntungkan daripada laman web rasmi. Panggilan HTTP / SDK terus ke generateContent untuk penjanaan imej (contoh di bawah).
  • Google AI Studio: Permukaan web untuk percubaan pantas dan mengadun semula apl demo.
  • Vertex AI (perusahaan): Daya pemprosesan yang diperuntukkan, pilihan pengebilan (peringkat bayar semasa anda pergi / perusahaan) dan penapis keselamatan untuk pengeluaran berskala besar. Gunakan Vertex apabila menyepadukan ke dalam saluran paip besar atau kerja pemaparan kelompok.

Peringkat percuma mempunyai had penggunaan terhad; melebihi had akan kembali kepada Nano Banana. Peringkat Plus/Pro/Ultra menawarkan had yang lebih tinggi dan keluaran tanpa tera air, tetapi Ultra boleh digunakan dalam alatan video Aliran dan IDE Antigraviti dalam mod 4K.

Bagaimanakah cara saya menjana imej dengan Nano Banana Pro (langkah demi langkah)?

1) Resipi interaktif pantas tu guna aplikasi Gemini

  1. Buka Gemini → Alat → Cipta imej.
  2. pilih Berfikir (Nano Banana Pro) sebagai model.
  3. Masukkan gesaan: terangkan subjek, tindakan, mood, pencahayaan, kamera, nisbah bidang dan sebarang teks untuk dipaparkan pada imej. Contoh:
    “Buat poster 4K bengkel robotik: pasukan yang pelbagai di sekeliling meja, tindanan pelan tindakan, tajuk tebal 'Robots in Action' dalam sans serif, cahaya tungsten hangat, kedalaman medan cetek, sinematik 16:9."
  4. (Pilihan) Muat naik sehingga 14 imej untuk digabungkan atau digunakan sebagai rujukan. Gunakan alat pemilihan/topeng untuk mengedit kawasan setempat.
  5. Hasilkan, lelaran dengan bahasa semula jadi (cth, "jadikan tajuk biru dan sejajar di tengah atas; tingkatkan kontras pada pelan tindakan"), kemudian eksport

2) Gunakan HTTP untuk Menghantar ke titik akhir imej Gemini

Anda perlu log masuk ke CometAPI untuk mendapatkan kunci.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Sampel ini menulis muatan imej base64 ke fail PNG. The generationConfig.imageConfig.resolution parameter meminta output 4K (tersedia untuk model 3 Pro Image)

3) Panggilan SDK terus ke generateContent untuk penjanaan imej

Memerlukan memasang SDK Google dan mendapatkan pengesahan Google. Contoh Python (teks + imej rujukan + pembumian):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Contoh ini menunjukkan memuat naik imej rujukan sebaris dan meminta gubahan 4K semasa mendayakan google_search sebagai alat. SDK Python akan mengendalikan butiran REST peringkat rendah.

Gabungan berbilang imej & konsistensi watak

Untuk menghasilkan komposit yang mengekalkan orang yang sama merentasi adegan, lulus pelbagai inline_data bahagian (dipilih daripada set foto anda), dan nyatakan arahan kreatif bahawa model harus "memelihara identiti merentas output."

Contoh praktikal ringkas — aliran segera dan dijangka sebenar

meminta:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Saluran paip yang dijangkakan: apl → templat gesaan + data CSV → gantikan ruang letak dalam gesaan → panggilan API dengan image_size=2048x1152 → terima base64 PNG → simpan aset + metadata asal → tindih fon tepat secara pilihan melalui penggubah jika perlu.

Bagaimanakah saya harus mereka bentuk saluran paip pengeluaran dan mengendalikan keselamatan / asal?

Seni bina pengeluaran yang disyorkan

  1. Pas gesaan + draf (model pantas): Penggunaan gemini-2.5-flash-image (Nano Banana) untuk menghasilkan banyak variasi resolusi kecil dengan murah.
  2. Pemilihan & penghalusan: pilih calon terbaik, perhalusi gesaan, gunakan suntingan dalam lukisan/topeng untuk ketepatan.
  3. Paparan akhir kesetiaan tinggi: memanggil gemini-3-pro-image-preview (Nano Banana Pro) untuk pemaparan 2K/4K akhir dan pascapemprosesan (pensampelan tinggi, gred warna).
  4. Asal & metadata: simpan maklumat gesaan, versi model, cap masa dan SynthID dalam stor metadata aset anda — model itu melampirkan tera air SynthID dan output boleh dikesan kembali untuk pematuhan dan audit kandungan.

Keselamatan, hak dan kesederhanaan

  • Hak cipta & pelepasan hak: jangan muat naik atau jana kandungan yang melanggar hak. Gunakan pengesahan pengguna eksplisit untuk imej atau gesaan yang dibekalkan pengguna yang boleh mencipta keserupaan yang boleh dikenali. Dasar Penggunaan Larangan Google dan penapis keselamatan model mesti dihormati.
  • Penapisan & semakan automatik: jalankan imej yang dijana melalui saluran paip penyederhanaan kandungan dalaman (NSFW, simbol kebencian, pengesanan kandungan politik/mengikat) sebelum penggunaan hiliran atau paparan awam.

Bagaimanakah cara saya melakukan penyuntingan imej (mengecat), komposisi berbilang imej dan pemaparan teks?

Nano Banana Pro menyokong aliran kerja penyuntingan berbilang mod: sediakan satu atau lebih imej input dan arahan teks yang menerangkan pengeditan (alih keluar objek, tukar langit, tambah teks). API menerima imej + teks dalam permintaan yang sama; model boleh menghasilkan teks dan imej berjalin sebagai respons. Corak contoh termasuk suntingan bertopeng dan gabungan berbilang imej (pemindahan gaya / gubahan). Lihat dokumen untuk contents tatasusunan menggabungkan gumpalan teks dan imej binari.

Contoh: Edit (Python pseudo-flow)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Pengeditan perbualan ini membolehkan anda melaraskan hasil secara berulang sehingga anda mencapai aset sedia pengeluaran.

Contoh Node.js — pengeditan imej dengan topeng dan berbilang rujukan

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API kadangkala menerima URI Storan Awan atau muatan imej base64; semak dokumen API Gemini untuk mendapatkan format input yang tepat.)

Untuk maklumat tentang menjana dan mengedit imej menggunakan CometAPI, sila rujuk Panduan untuk memanggil gemini-3-pro-image .

Kesimpulan

Nano Banana Pro (Gemini 3 Pro Image) ialah lonjakan gred pengeluaran dalam penjanaan imej: alat untuk menggambarkan data, menghasilkan suntingan setempat dan menjana aliran kerja pembangun. Gunakan apl Gemini untuk prototaip pantas, API untuk penyepaduan pengeluaran dan ikut pengesyoran di atas untuk mengawal kos, memastikan keselamatan dan mengekalkan kualiti jenama. Sentiasa uji aliran kerja pengguna sebenar dan simpan metadata asal untuk memenuhi keperluan ketelusan dan audit.

Gunakan Nano Banana Pro apabila anda perlukan kualiti studio aset, kawalan tepat ke atas komposisi, pemaparan teks yang dipertingkatkan dalam imej dan keupayaan untuk menggabungkan berbilang rujukan menjadi satu output yang koheren.

Pembangun boleh mengakses API Imej Gemini 3 Pro( Nano Banana Pro). melalui CometAPI. Untuk memulakan, terokai keupayaan model bagiCometAPI dalam Taman Permainan dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. cometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.

Bersedia untuk Pergi?→ Daftar untuk CometAPI hari ini !

Jika anda ingin mengetahui lebih banyak petua, panduan dan berita tentang AI, ikuti kami VKX and Perpecahan!

SHARE THIS BLOG

500+ Model dalam Satu API

Sehingga 20% Diskaun