Bagaimana cara menggunakan API Nano Banana Pro(Gemini 3 Pro Image) ?

CometAPI
AnnaNov 20, 2025
Bagaimana cara menggunakan API Nano Banana Pro(Gemini 3 Pro Image) ?

Nano Banana Pro — secara resmi Gemini 3 Pro Image — adalah model pembuatan dan penyuntingan gambar berkelas studio terbaru dari Google/DeepMind yang menggabungkan penalaran multimodal tingkat lanjut, perenderan teks berfidelitas tinggi, komposisi multi-gambar, dan kontrol kreatif setara studio.

Apa itu Nano Banana Pro dan mengapa Anda perlu peduli?

Nano Banana Pro adalah model pembuatan dan penyuntingan gambar terbaru dari Google — rilis “Gemini 3 Pro Image” — yang dirancang untuk menghasilkan gambar dan teks di dalam gambar dengan fidelitas tinggi, sadar konteks, dan kualitas setara studio hingga 4K. Ini merupakan penerus model Nano Banana sebelumnya (Gemini 2.5 Flash Image / “Nano Banana”) dengan penalaran yang ditingkatkan, grounding melalui Search (fakta dunia nyata), perenderan teks yang lebih kuat, serta kontrol penyuntingan lokal yang lebih bertenaga. Model ini tersedia di dalam aplikasi Gemini untuk pengguna interaktif dan dapat diakses melalui Gemini API standar, tetapi Anda perlu memilih pengenal model spesifik (gemini-3-pro-image-preview atau penerus stabilnya) untuk akses terprogram.

Mengapa ini penting: Nano Banana Pro dibuat bukan hanya untuk menghasilkan gambar yang indah, tetapi untuk memvisualisasikan informasi — infografik, cuplikan berbasis data (cuaca, olahraga), poster dengan teks padat, mockup produk, dan fusi multi-gambar (hingga 14 gambar input serta menjaga konsistensi karakter untuk hingga 5 orang). Bagi desainer, tim produk, dan developer, kombinasi akurasi, teks di dalam gambar, dan akses terprogram membuka alur produksi yang sebelumnya sulit diotomatisasi

Fungsi apa saja yang tersedia melalui API?

Kemampuan API yang umum tersedia untuk developer mencakup:

  • Pembuatan gambar dari teks (alur komposisi satu langkah atau multi-langkah “thinking”).
  • Penyuntingan gambar (mask lokal, inpainting, penyesuaian gaya).
  • Fusi multi-gambar (menggabungkan gambar referensi).
  • Kontrol permintaan lanjutan: resolusi, rasio aspek, langkah pascapemrosesan, dan jejak “composition thought” untuk debug/inspeksi dalam mode pratinjau.

Inovasi Inti dan Fungsi Nano Banana Pro

Penalaran konten yang lebih cerdas

Memanfaatkan tumpukan penalaran Gemini 3 Pro untuk menafsirkan instruksi visual yang kompleks dan bertahap (misalnya, “buat infografik 5 langkah dari dataset ini dan tambahkan caption dwibahasa”). API menyediakan mekanisme “Thinking” yang dapat menghasilkan uji komposisi sementara untuk menyempurnakan output final.

Mengapa ini penting: Alih-alih satu kali proses yang memetakan prompt → piksel, model melakukan proses “thinking” internal yang menyempurnakan komposisi dan dapat memanggil alat eksternal (misalnya, Google Search) untuk grounding faktual (misalnya, label diagram yang akurat atau signage yang sesuai lokal). Ini menghasilkan gambar yang tidak hanya lebih indah tetapi juga lebih benar secara semantik untuk tugas seperti infografik, diagram, atau mockup produk.

Cara mencapainya: “Thinking” Nano Banana Pro adalah lintasan penalaran/komposisi internal terkontrol di mana model menghasilkan visual dan jejak penalaran intermediate sebelum menghasilkan gambar final. API menyatakan bahwa model dapat membuat hingga dua frame sementara dan bahwa gambar final adalah tahap terakhir dari rantai tersebut. Dalam produksi, ini membantu komposisi, penempatan teks, dan keputusan tata letak.

Perenderan teks yang lebih akurat

Peningkatan signifikan pada teks di dalam gambar yang mudah dibaca dan terlokalisasi (menu, poster, diagram). Nano Banana Pro mencapai tingkat baru dalam perenderan teks di gambar:

  • Teks dalam gambar jelas, mudah dibaca, dan ejaannya akurat;
  • Mendukung generasi multibahasa (termasuk bahasa Mandarin, Jepang, Korea, Arab, dll.);
  • Memungkinkan pengguna menulis paragraf panjang atau teks deskriptif multi-baris langsung di dalam gambar;
  • Tersedia terjemahan dan lokalisasi otomatis.

Mengapa ini penting: Secara tradisional, model gambar kesulitan merender teks yang dapat dibaca dan selaras dengan baik. Nano Banana Pro dioptimalkan secara eksplisit untuk perenderan teks dan lokalisasi yang andal (misalnya, menerjemahkan sambil mempertahankan tata letak), yang membuka use case kreatif nyata seperti poster, kemasan, atau iklan multi-bahasa.

Cara mencapainya: Peningkatan perenderan teks berasal dari arsitektur multimodal yang mendasari dan pelatihan pada dataset yang menekankan contoh teks-di-gambar, dikombinasikan dengan set evaluasi terarah (evaluasi manusia dan set regresi). Model belajar menyelaraskan bentuk glif, font, dan batasan tata letak untuk menghasilkan teks yang mudah dibaca dan terlokalisasi di dalam gambar — meski teks sangat kecil dan paragraf yang sangat padat tetap rawan kesalahan.

Konsistensi visual dan fidelitas yang lebih kuat

Kontrol setara studio (pencahayaan, fokus, sudut kamera, color grading) dan komposisi multi-gambar (hingga 14 gambar referensi, dengan perlakuan khusus untuk beberapa subjek manusia) membantu menjaga konsistensi karakter (mempertahankan orang/karakter yang sama di seluruh edit) dan identitas merek di seluruh aset yang dihasilkan. Model mendukung output native 1K/2K/4K.

Mengapa ini penting: Alur kerja pemasaran dan hiburan memerlukan karakter yang konsisten di berbagai pengambilan gambar dan edit. Model dapat mempertahankan kemiripan hingga lima orang dan menggabungkan hingga 14 gambar referensi ke dalam satu komposisi sambil menghasilkan Sketch → 3D Render. Ini berguna untuk kreatif iklan, kemasan, atau penceritaan multi-shot.

Cara mencapainya: Input model menerima beberapa gambar dengan penugasan peran eksplisit (misalnya, “Gambar A: pose”, “Gambar B: referensi wajah”, “Gambar C: tekstur latar”). Arsitektur mengondisikan generasi pada gambar-gambar tersebut untuk mempertahankan identitas/pose/gaya sambil menerapkan transformasi (pencahayaan, kamera).

Tolok Ukur Kinerja Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “unggul pada tolok ukur AI Teks→Gambar” dan menunjukkan penalaran serta grounding kontekstual yang lebih baik dibandingkan model Nano Banana sebelumnya. Penekanan pada fidelitas yang lebih tinggi dan perenderan teks yang meningkat dibandingkan rilis terdahulu.

Bagaimana cara menggunakan API Nano Banana Pro(Gemini 3 Pro Image) ?

Panduan kinerja praktis

Harapkan latensi dan biaya yang lebih tinggi untuk render fidelitas tinggi 2K/4K dibandingkan 1K atau model “Flash” yang dioptimalkan untuk kecepatan. Jika throughput/latensi kritis, gunakan varian flash (misalnya, Gemini 2.5 Flash / Nano Banana) untuk volume tinggi; gunakan Nano Banana Pro / gemini-3-pro-image untuk kualitas dan tugas penalaran kompleks.

Bagaimana Developer Dapat Mengakses Nano Banana Pro?

Endpoint dan model mana yang dipilih

Pengenal model (preview / pro): gemini-3-pro-image-preview (preview) — gunakan ini saat Anda menginginkan kapabilitas Nano Banana Pro. Untuk pekerjaan lebih cepat dan murah, gemini-2.5-flash-image (Nano Banana) tetap tersedia.

Permukaan yang digunakan

  • Gemini API (endpoint generativelanguage): Anda dapat menggunakan kunci CometAPI untuk mengakses xx. CometAPI menawarkan API yang sama dengan harga lebih menarik daripada situs resmi. Panggilan HTTP / SDK langsung ke generateContent untuk pembuatan gambar (contoh di bawah).
  • Google AI Studio: Antarmuka web untuk eksperimen cepat dan remix aplikasi demo.
  • Vertex AI (enterprise): Throughput terprovisi, pilihan penagihan (pay-as-you-go / tingkat enterprise), dan filter keselamatan untuk produksi skala besar. Gunakan Vertex saat mengintegrasikan ke pipeline besar atau pekerjaan rendering batch.

Tingkat gratis memiliki batas penggunaan terbatas; melebihi batas akan kembali ke Nano Banana. Tingkat Plus/Pro/Ultra menawarkan batas yang lebih tinggi dan output tanpa watermark, namun Ultra dapat digunakan di alat video Flow dan Antigravity IDE dalam mode 4K.

Bagaimana cara membuat gambar dengan Nano Banana Pro (langkah demi langkah)?

1) Resep interaktif cepat untuk menggunakan aplikasi Gemini

  1. Buka Gemini → Tools → Create images.
  2. Pilih Thinking (Nano Banana Pro) sebagai model.
  3. Masukkan prompt: jelaskan subjek, aksi, suasana, pencahayaan, kamera, rasio aspek, dan teks apa pun yang akan muncul pada gambar. Contoh:
    “Buat poster 4K tentang lokakarya robotika: tim beragam di sekitar meja, overlay blueprint, headline tebal ‘Robots in Action’ dengan sans serif, cahaya tungsten hangat, kedalaman bidang dangkal, sinematik 16:9.”
  4. (Opsional) Unggah hingga 14 gambar untuk difusi atau digunakan sebagai referensi. Gunakan alat selection/mask untuk penyuntingan lokal area.
  5. Hasilkan, iterasi dengan bahasa natural (mis., “buat headline berwarna biru dan rata tengah atas; tingkatkan kontras pada blueprint”), lalu ekspor

2) Gunakan HTTP untuk mengirim ke endpoint gambar Gemini

Anda perlu masuk ke CometAPI untuk memperoleh kunci.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Contoh ini menulis payload gambar base64 ke file PNG. Parameter generationConfig.imageConfig.resolution meminta output 4K (tersedia untuk model 3 Pro Image)

3) Panggilan SDK langsung ke generateContent untuk pembuatan gambar

Mengharuskan pemasangan Google SDK dan memperoleh autentikasi Google. Contoh Python (teks + gambar referensi + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Contoh ini menunjukkan pengunggahan gambar referensi inline dan permintaan komposisi 4K sambil mengaktifkan google_search sebagai alat. Python SDK akan menangani detail REST tingkat rendah.

Fusi multi-gambar & konsistensi karakter

Untuk menghasilkan komposit yang mempertahankan orang yang sama di berbagai adegan, kirim beberapa bagian inline_data (dipilih dari set foto Anda), dan tentukan instruksi kreatif bahwa model harus “preserve identity across outputs.”

Contoh praktis singkat — prompt nyata dan alur yang diharapkan

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline yang diharapkan: aplikasi → templat prompt + data CSV → ganti placeholder dalam prompt → panggilan API dengan image_size=2048x1152 → terima PNG base64 → simpan aset + metadata provenance → opsional menimpa font yang tepat melalui compositor jika diperlukan.

Bagaimana saya harus merancang pipeline produksi dan menangani keselamatan / provenance?

Arsitektur produksi yang direkomendasikan

  1. Prompt + tahap draf (model cepat): Gunakan gemini-2.5-flash-image (Nano Banana) untuk menghasilkan banyak variasi beresolusi kecil secara hemat biaya.
  2. Seleksi & penyempurnaan: pilih kandidat terbaik, perhalus prompt, terapkan edit inpainting/mask untuk presisi.
  3. Render final berfidelitas tinggi: panggil gemini-3-pro-image-preview (Nano Banana Pro) untuk render final 2K/4K dan pascapemrosesan (upsampling, color grade).
  4. Provenance & metadata: simpan prompt, versi model, cap waktu, dan info SynthID di penyimpanan metadata aset Anda — model menautkan watermark SynthID dan output dapat ditelusuri kembali untuk kepatuhan dan audit konten.

Keselamatan, hak, dan moderasi

  • Hak cipta & perizinan hak: jangan mengunggah atau menghasilkan konten yang melanggar hak. Gunakan konfirmasi pengguna eksplisit untuk gambar atau prompt yang disuplai pengguna yang dapat menciptakan kemiripan yang dapat dikenali. Kebijakan Penggunaan Terlarang Google dan filter keselamatan model harus dihormati.
  • Penyaringan & pemeriksaan otomatis: jalankan gambar yang dihasilkan melalui pipeline moderasi konten internal (NSFW, simbol kebencian, deteksi konten politik/mengikat) sebelum konsumsi downstream atau penayangan publik.

Bagaimana melakukan penyuntingan gambar (inpainting), komposisi multi-gambar, dan perenderan teks?

Nano Banana Pro mendukung alur penyuntingan multimodal: berikan satu atau lebih gambar input dan instruksi tekstual yang menjelaskan edit (menghapus objek, mengganti langit, menambahkan teks). API menerima gambar + teks dalam permintaan yang sama; model dapat menghasilkan teks dan gambar yang saling berselang sebagai respons. Pola contoh mencakup edit bertopeng dan pencampuran multi-gambar (style transfer / komposisi). Lihat dokumentasi untuk array contents yang menggabungkan blob teks dan gambar biner.

Contoh: Edit (aliran pseudo Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Penyuntingan percakapan ini memungkinkan Anda menyesuaikan hasil secara iteratif hingga memperoleh aset siap produksi.

Contoh Node.js — edit gambar dengan mask dan beberapa referensi

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API terkadang menerima URI Cloud Storage atau payload gambar base64; periksa dokumentasi Gemini API untuk format input yang tepat.)

Untuk informasi tentang pembuatan dan penyuntingan gambar menggunakan CometAPI, silakan merujuk ke Panduan memanggil gemini-3-pro-image .

Kesimpulan

Nano Banana Pro (Gemini 3 Pro Image) adalah lompatan berkelas produksi dalam pembuatan gambar: alat untuk memvisualisasikan data, menghasilkan edit terlokalisasi, dan menggerakkan alur kerja developer. Gunakan aplikasi Gemini untuk prototyping cepat, API untuk integrasi produksi, dan ikuti rekomendasi di atas untuk mengendalikan biaya, memastikan keselamatan, dan menjaga kualitas merek. Selalu uji alur kerja pengguna nyata dan simpan metadata provenance untuk memenuhi kebutuhan transparansi dan audit.

Gunakan Nano Banana Pro saat Anda membutuhkan aset berkualitas studio, kontrol komposisi yang presisi, perenderan teks yang meningkat di dalam gambar, dan kemampuan untuk menggabungkan banyak referensi menjadi satu output yang koheren.

Developer dapat mengakses Gemini 3 Pro Image( Nano Banana Pro) API melalui CometAPI. Untuk memulai, jelajahi kapabilitas model dari CometAPI di Playground dan konsultasikan panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.

Siap memulai?→ Daftar CometAPI hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X, dan Discord!

Akses Model Terbaik dengan Biaya Rendah

Baca Selengkapnya