Bagaimana cara menggunakan API Nano Banana Pro (Gambar Gemini 3 Pro)?

CometAPI
AnnaDec 10, 2025
Bagaimana cara menggunakan API Nano Banana Pro (Gambar Gemini 3 Pro)?

Nano Banana Pro — secara resmi Gambar Gemini 3 Pro — adalah model pembuatan dan penyuntingan gambar tingkat studio baru dari Google/DeepMind yang menggabungkan penalaran multimoda tingkat lanjut, rendering teks fidelitas tinggi, komposisi multi-gambar, dan kontrol kreatif tingkat studio.

Apa itu Nano Banana Pro dan mengapa Anda harus peduli?

Nano Banana Pro adalah model terbaru Google untuk pembuatan dan penyuntingan gambar — rilis "Gemini 3 Pro Image" — yang dirancang untuk menghasilkan gambar dengan fidelitas tinggi, peka konteks, dan teks pada gambar dengan kualitas studio hingga 4K. Model ini merupakan penerus model Nano Banana sebelumnya (Gemini 2.5 Flash Image / "Nano Banana") dengan penalaran yang lebih baik, landasan Pencarian (fakta dunia nyata), rendering teks yang lebih kuat, dan kontrol edit lokal yang lebih canggih. Model ini tersedia di dalam aplikasi Gemini untuk pengguna interaktif dan mengakses Nano Banana Pro melalui API Gemini standar, tetapi Anda memilih pengenal model spesifik (gemini-3-pro-image-preview atau penerusnya yang stabil). untuk akses terprogram.

Mengapa ini penting: Nano Banana Pro dibuat tidak hanya untuk membuat gambar yang cantik tetapi juga memvisualisasikan informasi — infografis, snapshot berbasis data (cuaca, olahraga), poster yang sarat teks, mockup produk, dan fusi multi-gambar (hingga 14 gambar input dan mempertahankan konsistensi karakter hingga 5 orang). Bagi para desainer, tim produk, dan pengembang, kombinasi akurasi, teks pada gambar, dan akses terprogram ini membuka alur kerja produksi yang sebelumnya sulit diotomatisasi.

Fungsi apa saja yang diekspos melalui API?

Kemampuan API umum yang diekspos kepada pengembang meliputi:

  • Teks → Pembuatan Gambar (alur komposisi “berpikir” satu langkah atau multi-langkah).
  • Pengeditan gambar (topeng lokal, pengecatan ulang, penyesuaian gaya).
  • Fusi multi-gambar (gabungkan gambar referensi).
  • Kontrol permintaan lanjutan: resolusi, rasio aspek, langkah pasca-pemrosesan, dan jejak “pemikiran komposisi” untuk debug/inspektabilitas dalam mode pratinjau.

Inovasi Inti dan Fungsi Nano Banana Pro

Penalaran konten yang lebih cerdas

Menggunakan tumpukan penalaran Gemini 3 Pro untuk menginterpretasikan instruksi visual yang kompleks dan bertahap (misalnya, "buat infografis 5 langkah dari set data ini dan tambahkan keterangan dwibahasa"). API ini mengekspos mekanisme "Berpikir" yang dapat menghasilkan uji komposisi sementara untuk menyempurnakan hasil akhir.

Mengapa hal ini penting: Alih-alih satu lintasan yang memetakan prompt → piksel, model ini melakukan proses "berpikir" internal yang menyempurnakan komposisi dan dapat memanggil alat eksternal (misalnya, Google Penelusuran) untuk landasan faktual (misalnya, label diagram yang akurat atau signage yang sesuai dengan lokasi). Hal ini menghasilkan gambar yang tidak hanya lebih indah tetapi juga lebih akurat secara semantik untuk tugas-tugas seperti infografis, diagram, atau maket produk.

Cara mencapainya: "Thinking" Nano Banana Pro adalah proses penalaran/komposisi internal yang terkontrol di mana model menghasilkan visual perantara dan jejak penalaran sebelum menghasilkan gambar akhir. API menunjukkan bahwa model dapat membuat hingga dua frame perantara dan bahwa gambar akhir merupakan tahap terakhir dari rantai tersebut. Dalam proses produksi, hal ini membantu dalam pengambilan keputusan komposisi, penempatan teks, dan tata letak.

Rendering teks yang lebih akurat

Teks terbaca dan terlokalisasi di dalam gambar (menu, poster, diagram) telah ditingkatkan secara signifikan. Nano Banana Pro mencapai tingkat baru dalam rendering teks gambar:

  • Teks pada gambar jelas, terbaca, dan dieja dengan akurat;
  • Mendukung pembuatan multibahasa (termasuk bahasa Mandarin, Jepang, Korea, Arab, dll.);
  • Memungkinkan pengguna untuk menulis paragraf panjang atau teks deskriptif multi-baris langsung ke dalam gambar;
  • Terjemahan dan lokalisasi otomatis tersedia.

Mengapa hal ini penting: Secara tradisional, model gambar kesulitan untuk merender teks yang mudah dibaca dan selaras. Nano Banana Pro dioptimalkan secara eksplisit untuk rendering dan pelokalan teks yang andal (misalnya, menerjemahkan dan mempertahankan tata letak), yang membuka kasus penggunaan kreatif nyata seperti poster, kemasan, atau iklan multibahasa.

Cara mencapainya: Peningkatan rendering teks berasal dari arsitektur multimoda yang mendasarinya dan pelatihan pada set data yang menekankan contoh teks dalam gambar, dikombinasikan dengan set evaluasi yang ditargetkan (evaluasi manusia dan set regresi). Model ini belajar menyelaraskan bentuk glif, font, dan batasan tata letak untuk menghasilkan teks yang terbaca dan terlokalisasi di dalam gambar — meskipun teks kecil dan paragraf yang sangat padat masih rentan terhadap kesalahan.

Konsistensi dan kesetiaan visual yang lebih kuat

Kontrol studio (pencahayaan, fokus, sudut kamera, gradasi warna) dan komposisi multi-gambar (hingga 14 gambar referensi, dengan kelonggaran khusus untuk beberapa subjek manusia) membantu menjaga konsistensi karakter (mempertahankan orang/karakter yang sama di semua hasil edit) dan identitas merek di seluruh aset yang dihasilkan. Model ini mendukung output asli 1K/2K/4K.

Mengapa hal ini penting: Alur kerja pemasaran dan hiburan membutuhkan karakter yang konsisten di seluruh pengambilan gambar dan pengeditan. Model dapat mempertahankan kemiripan hingga lima orang-orang dan berbaur dengan 14 Menggabungkan gambar referensi ke dalam satu komposisi saat membuat Sketsa → Render 3D. Ini berguna untuk materi iklan, pengemasan, atau penceritaan multi-shot.

Cara mencapainya: Input model menerima beberapa gambar dengan alokasi peran yang eksplisit (misalnya, "Gambar A: pose", "Gambar B: referensi wajah", "Gambar C: tekstur latar belakang"). Arsitektur mengondisikan pembuatan gambar-gambar tersebut untuk mempertahankan identitas/pose/gaya sambil menerapkan transformasi (pencahayaan, kamera).

Tolok Ukur Kinerja Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “unggul dalam benchmark AI Teks→Gambar” dan menunjukkan penalaran serta landasan kontekstual yang lebih baik dibandingkan model Nano Banana sebelumnya. Hal ini menekankan fidelitas yang lebih tinggi dan rendering teks yang lebih baik dibandingkan rilis sebelumnya.

Bagaimana cara menggunakan API Nano Banana Pro (Gambar Gemini 3 Pro)?

Panduan kinerja praktis

Mengharapkan latensi lebih tinggi dan biaya untuk render fidelitas tinggi 2K/4K lebih rendah daripada untuk model 1K atau "Flash" yang dioptimalkan untuk kecepatan. Jika throughput/latensi penting, gunakan varian flash (misalnya, Gemini 2.5 Flash / Nano Banana) untuk volume tinggi; gunakan Nano Banana Pro / gemini-3-pro-image untuk tugas-tugas berkualitas dan penalaran yang kompleks.

Bagaimana Pengembang Dapat Mengakses Nano Banana Pro?

Titik akhir dan model mana yang harus dipilih

Pengidentifikasi model (pratinjau / pro): gemini-3-pro-image-preview (pratinjau) — gunakan ini jika Anda menginginkan kemampuan Nano Banana Pro. Untuk pekerjaan yang lebih cepat dan hemat biaya, gemini-2.5-flash-image (Nano Banana) tetap tersedia.

Permukaan yang dapat digunakan

  • API Gemini (titik akhir bahasa generatif): Anda dapat menggunakan kunci CometAPI untuk mengakses xx. CometAPI menawarkan API yang sama dengan harga yang lebih terjangkau daripada situs web resmi. Panggilan HTTP/SDK langsung ke generateContent untuk pembuatan gambar (contoh di bawah).
  • Google AI Studio: Permukaan web untuk eksperimen cepat dan remix aplikasi demo.
  • Vertex AI (perusahaan): Throughput yang disediakan, pilihan penagihan (bayar sesuai pemakaian/tingkatan perusahaan), dan filter keamanan untuk produksi skala besar. Gunakan Vertex saat berintegrasi dengan pipeline besar atau pekerjaan rendering batch.

Versi gratis memiliki batas penggunaan terbatas; melebihi batas tersebut akan kembali ke Nano Banana. Versi Plus/Pro/Ultra menawarkan batas yang lebih tinggi dan keluaran bebas watermark, tetapi versi Ultra dapat digunakan di perangkat video Flow dan IDE Antigravity dalam mode 4K.

Bagaimana cara membuat gambar dengan Nano Banana Pro (langkah demi langkah)?

1) Resep interaktif cepat untuk menggunakan aplikasi Gemini

  1. Buka Gemini → Alat → Buat gambar.
  2. Pilih Berpikir (Nano Banana Pro) sebagai model.
  3. Masukkan prompt: jelaskan subjek, aksi, suasana hati, pencahayaan, kamera, rasio aspek, dan teks apa pun yang akan muncul pada gambar. Contoh:
    “Buat poster 4K lokakarya robotika: tim yang beragam di sekitar meja, hamparan cetak biru, judul tebal 'Robot Beraksi' dalam sans serif, cahaya tungsten hangat, kedalaman bidang dangkal, sinematik 16:9.”
  4. (Opsional) Unggah hingga 14 gambar untuk digabungkan atau digunakan sebagai referensi. Gunakan alat seleksi/masker untuk mengedit area secara lokal.
  5. Hasilkan, ulangi dengan bahasa alami (misalnya, “jadikan judul berwarna biru dan sejajar di tengah atas; tingkatkan kontras pada cetak biru”), lalu ekspor

2) Gunakan HTTP untuk Mengirim ke titik akhir gambar Gemini

Anda perlu masuk ke CometAPI untuk memperoleh kuncinya.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Contoh ini menulis muatan gambar base64 ke file PNG. generationConfig.imageConfig.resolution permintaan parameter keluaran 4K (tersedia untuk model Gambar 3 Pro)

3) Panggilan SDK langsung ke generateContent untuk pembuatan gambar

Memerlukan penginstalan Google SDK dan autentikasi Google. Contoh Python (teks + gambar referensi + landasan):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Contoh ini menunjukkan mengunggah gambar referensi sebaris dan meminta komposisi 4K sambil mengaktifkan google_search sebagai alat. SDK Python akan menangani detail REST tingkat rendah.

Fusi multi-gambar & konsistensi karakter

Untuk menghasilkan komposit yang mempertahankan orang yang sama di seluruh adegan, lewati beberapa inline_data bagian (dipilih dari set foto Anda), dan tentukan instruksi kreatif bahwa model harus “mempertahankan identitas di seluruh keluaran.”

Contoh praktis singkat — aliran yang nyata dan diharapkan

Cepat:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipa yang diharapkan: aplikasi → templat prompt + data CSV → ganti placeholder di prompt → panggilan API dengan image_size=2048x1152 → terima PNG base64 → simpan aset + metadata asal → secara opsional melapisi font yang tepat melalui kompositor jika diperlukan.

Bagaimana saya harus merancang jalur produksi dan menangani keselamatan/asal usul?

Arsitektur produksi yang direkomendasikan

  1. Prompt + draft pass (model cepat): penggunaan gemini-2.5-flash-image (Nano Banana) untuk menghasilkan banyak variasi resolusi kecil dengan biaya murah.
  2. Pemilihan & penyempurnaan: pilih kandidat terbaik, perbaiki perintah, terapkan suntingan inpainting/mask untuk presisi.
  3. Render akhir fidelitas tinggi: panggilan gemini-3-pro-image-preview (Nano Banana Pro) untuk render 2K/4K akhir dan pascaproses (upsampling, gradasi warna).
  4. Asal & metadata: simpan perintah, versi model, stempel waktu, dan info SynthID di penyimpanan metadata aset Anda — model melampirkan tanda air SynthID dan output dapat dilacak kembali untuk kepatuhan dan audit konten.

Keamanan, hak, dan moderasi

  • Hak cipta & izin hak: Jangan mengunggah atau membuat konten yang melanggar hak. Gunakan konfirmasi pengguna yang eksplisit untuk gambar atau perintah yang diberikan pengguna yang dapat menciptakan kemiripan yang dapat dikenali. Kebijakan Penggunaan Terlarang Google dan filter keamanan model harus dipatuhi.
  • Penyaringan & pemeriksaan otomatis: menjalankan gambar yang dihasilkan melalui jalur moderasi konten internal (NSFW, simbol kebencian, deteksi konten politik/mengikat) sebelum konsumsi hilir atau tampilan publik.

Bagaimana cara melakukan penyuntingan gambar (inpainting), komposisi multi-gambar dan rendering teks?

Nano Banana Pro mendukung alur kerja pengeditan multimoda: menyediakan satu atau beberapa gambar input dan instruksi tekstual yang menjelaskan pengeditan (menghapus objek, mengubah langit, menambahkan teks). API menerima gambar + teks dalam permintaan yang sama; model dapat menghasilkan teks dan gambar yang disisipkan sebagai respons. Contoh pola meliputi pengeditan bertopeng dan perpaduan multi-gambar (transfer gaya/komposisi). Lihat dokumen untuk contents array yang menggabungkan gumpalan teks dan gambar biner.

Contoh: Edit (alur semu Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Pengeditan percakapan ini memungkinkan Anda menyesuaikan hasil secara berulang hingga Anda mencapai aset yang siap produksi.

Contoh Node.js — edit gambar dengan topeng dan beberapa referensi

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API terkadang menerima URI Cloud Storage atau muatan gambar base64; periksa dokumen API Gemini untuk format masukan yang tepat.)

Untuk informasi tentang pembuatan dan pengeditan gambar menggunakan CometAPI, silakan lihat Panduan untuk memanggil gemini-3-pro-image .

Kesimpulan

Nano Banana Pro (Gemini 3 Pro Image) adalah lompatan ke tingkat produksi dalam pembuatan gambar: alat untuk memvisualisasikan data, menghasilkan suntingan lokal, dan mendukung alur kerja pengembang. Gunakan aplikasi Gemini untuk pembuatan prototipe cepat, API untuk integrasi produksi, dan ikuti rekomendasi di atas untuk mengendalikan biaya, memastikan keamanan, dan menjaga kualitas merek. Selalu uji alur kerja pengguna asli dan simpan metadata asal untuk memenuhi kebutuhan transparansi dan audit.

Gunakan Nano Banana Pro saat Anda membutuhkannya kualitas studio aset, kontrol komposisi yang tepat, peningkatan rendering teks di dalam gambar, dan kemampuan untuk menggabungkan beberapa referensi menjadi satu keluaran yang koheren.

Pengembang dapat mengakses API Gambar Gemini 3 Pro (Nano Banana Pro) melalui CometAPI. Untuk memulai, jelajahi kemampuan modelAPI Komet dalam tempat bermain dan lihat panduan API untuk instruksi detail. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan mendapatkan kunci API. cometAPI menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VKX dan Discord!

SHARE THIS BLOG

500+ Model dalam Satu API

Diskon hingga 20%