Pada akhir Agustus 2025, Google (DeepMind) merilis Gambar Flash Gemini 2.5 — dijuluki secara luas “nano-pisang” — model pembuatan + pengeditan gambar berkualitas tinggi dengan latensi rendah yang telah terintegrasi ke dalam aplikasi Gemini, Google AI Studio, Gemini API, dan CometAPI. Model ini dirancang untuk menghasilkan gambar fotorealistik, menjaga konsistensi karakter di seluruh pengeditan, menggabungkan beberapa gambar input, dan melakukan pengeditan halus dan terlokalisasi melalui perintah bahasa alami. Model ini tersedia dalam pratinjau/GA awal dan telah memuncaki papan peringkat gambar (LMArena) sekaligus dilengkapi dengan mekanisme keamanan (tanda air SynthID dan filter tingkat produk).

Apa itu Gemini 2.5 Flash Image (alias “Nano Banana”)?

Gemini 2.5 Flash Image — dijuluki dengan nama yang lucu Nano Banana — adalah model pembuatan dan pengeditan gambar terbaru Google DeepMind dalam keluarga Gemini. Diumumkan pada akhir Agustus 2025, model ini diposisikan sebagai rilis pratinjau yang menghadirkan pengeditan dengan fidelitas lebih tinggi, fusi multi-gambar, konsistensi karakter yang lebih baik (menjaga orang/hewan peliharaan/objek yang sama tetap dikenali di beberapa pengeditan), dan pembuatan gambar latensi rendah ke dalam perangkat multimoda Gemini. Model ini tersedia melalui Gemini API, Google AI Studio, aplikasi seluler/web Gemini, dan Vertex AI untuk pelanggan perusahaan.

Asal dan penamaan

Julukan "nano banana" menjadi viral di media sosial dan papan peringkat komunitas setelah penguji awal dan entri LMArena menggunakan label bertema buah; Google mengonfirmasi hubungan tersebut dan menggunakan nama pengguna yang jenaka tersebut secara publik dalam postingan pengembang dan produk mereka. Nama resmi produk ini adalah Gambar Flash Gemini 2.5 dan Anda biasanya akan melihat pengenal model yang digunakan dalam kode dan panggilan API (untuk penggunaan pratinjau muncul sebagai misalnya gemini-2.5-flash-image-preview).

Apa saja fitur utama Gemini 2.5 Flash Image?

Apa sebenarnya arti “konsistensi karakter”?

Salah satu kemampuan unggulannya adalah konsistensi karakterAnda dapat meminta model untuk menggunakan kembali subjek yang sama (orang, hewan peliharaan, maskot, atau produk) di banyak suntingan atau adegan baru sambil mempertahankan fitur visual yang mengidentifikasi (wajah/bentuk, palet warna, tanda pembeda). Hal ini mengatasi kelemahan umum pada model gambar sebelumnya di mana suntingan selanjutnya akan menghasilkan orang/objek yang tampak masuk akal secara visual tetapi terasa berbeda. Oleh karena itu, pengembang dapat membangun alur kerja untuk katalog produk, penceritaan episodik, atau pembuatan aset merek dengan lebih sedikit koreksi manual.

Kontrol pengeditan apa lagi yang disertakan?

Gemini 2.5 Flash Image mendukung:

Pengeditan lokal yang ditargetkan melalui perintah dalam bahasa sederhana (hapus objek, ganti pakaian, perbaiki kulit, hapus elemen latar belakang).
Fusi multi-gambar: menggabungkan hingga tiga gambar masukan menjadi satu komposisi yang koheren (misalnya, menempatkan produk dari gambar A ke dalam pemandangan B sambil mempertahankan pencahayaan).
Kontrol gaya dan format: instruksi fotorealistik, atribut kamera dan lensa, rasio aspek, dan keluaran bergaya (ilustrasi, stiker, dll.).
Pengetahuan dunia asli:Model ini memanfaatkan pengetahuan keluarga Gemini yang lebih luas untuk melakukan penyuntingan yang sadar semantik (misalnya, memahami apa yang tersirat dalam “pencahayaan Renaisans” atau “penyeberangan pejalan kaki Tokyo”).

Bagaimana dengan kecepatan, biaya, dan ketersediaan?

Gemini 2.5 Flash Image merupakan bagian dari paket Flash Gemini 2.5—dioptimalkan untuk latensi rendah dan biaya rendah, sekaligus mempertahankan kualitas yang kuat. Google telah mempratinjau harga token keluaran gambar dan menyediakan ketersediaan melalui API dan AI Studio; pelanggan perusahaan dapat mengaksesnya melalui Vertex AI. Saat pengumuman, harga yang dipublikasikan untuk paket Gemini 2.5 Flash Image adalah $30 per 1 juta token keluaran, dengan contoh biaya per gambar yang dilaporkan sebagai 1290 token keluaran ≈ $0.039 per gambar.

Bagaimana cara kerja Gemini 2.5 Flash Image?

Arsitektur dan pendekatan pelatihan

Gemini 2.5 Flash Image mewarisi arsitektur keluarga Gemini 2.5: tulang punggung bergaya campuran pakar (MoE) yang jarang dengan pelatihan multimoda yang menggabungkan teks, gambar, audio, dan data lainnya. Google melatih Flash Image pada korpus multimoda yang sangat besar dan terfilter, serta menyempurnakan model untuk tugas-tugas gambar (pembuatan, penyuntingan, penggabungan) dan perilaku keamanan. Pelatihan dijalankan pada jaringan TPU Google dan dievaluasi dengan metrik penilaian otomatis dan manusia.

Pengeditan berbasis percakapan

Pada tingkat tinggi, model ini menggunakan pengkondisian kontekstual: ketika Anda memberikan satu gambar (atau beberapa gambar) plus perintah teks, model mengodekan identitas visual subjek ke dalam representasi internalnya. Selama pengeditan berikutnya atau adegan baru, model mengondisikan pembuatan representasi tersebut sehingga atribut visual yang diinginkan (geometri wajah, pakaian utama atau pengenal produk, palet warna) tetap terjaga. Secara praktis, hal ini diimplementasikan sebagai bagian dari alur konten multimoda yang diekspos oleh Gemini API: Anda mengirimkan gambar referensi beserta instruksi pengeditan dan model akan mengembalikan keluaran gambar yang telah diedit (atau beberapa gambar kandidat) dalam satu respons.

Tanda air dan asal usul

Google mengintegrasikan filter keamanan dan kebijakan konten ke dalam Gemini 2.5 Flash Image. Rilis ini menekankan evaluasi dan red-teaming, langkah-langkah penyaringan otomatis, penyempurnaan terawasi, dan pembelajaran penguatan untuk mengikuti instruksi sekaligus meminimalkan keluaran yang merugikan. Keluarannya mencakup tanda air SynthID yang tidak terlihat sehingga gambar yang dihasilkan atau diedit oleh model dapat diidentifikasi nantinya sebagai hasil AI.

Seberapa baik kinerjanya? (Data acuan)

Gemini 2.5 Flash Image (dipasarkan sebagai “nano-banana” dalam beberapa konteks benchmarking) mencapai #1 di papan peringkat Edit Gambar dan Teks-ke-Gambar LMArena per akhir Agustus 2025, dengan keunggulan Elo/preferensi yang besar atas pesaing dalam perbandingan yang dilaporkan. Saya merujuk pada hasil evaluasi manusia LMArena dan GenAI-Bench yang menunjukkan skor preferensi tertinggi untuk tugas konversi teks ke gambar dan penyuntingan gambar.

Perbandingan Teks-ke-Gambar

Tolok Ukur Kemampuan	Gambar Gemini Flash 2.5	Imagen 4 Ultra 06-06	ChatGPT 4o / Gambar GPT 1 (Tinggi)	FLUX.1 Konteks	Gambar Gemini Flash 2.0
Preferensi Keseluruhan (LMArena)	1147	1135	1129	1075	988
Kualitas Visual (GenAI-Bench)	1103	1094	1013	864	926
Penyelarasan Teks ke Gambar (GenAI-Bench)	1042	1053	1046	937	922

Pengeditan Gambar

Tolok Ukur Kemampuan	Gambar Gemini Flash 2.5	ChatGPT 4o / Gambar GPT 1 (Tinggi)	FLUX.1 Konteks	Edit Gambar Qwen	Gambar Gemini Flash 2.0
Preferensi Keseluruhan (LMArena)	1362	1170	1191	1145	1093
Karakter	1170	1059	1010	911	850
Kreatif	1112	1057	968	983	879
Infografis	1067	1029	967	1012	925
Objek / Lingkungan	1064	1023	1002	1010	901
Rekontekstualisasi Produk	1128	1032	943	1009	888
Penyesuaian dgn mode	1062	1165	949	1091	733

Gambar Flash Gemini 2.5 (Nano Banana): Fitur, Tolok Ukur, dan Penggunaan

Apa arti tolok ukur ini dalam praktik?

Benchmark memberi tahu kita dua hal: (1) model ini kompetitif dalam menghasilkan fotorealistik dan (2) menonjol dalam mengedit Tugas-tugas yang membutuhkan konsistensi karakter dan kepatuhan terhadap perintah. Peringkat preferensi manusia menunjukkan bahwa pengguna yang melihat keluaran memberikan nilai tinggi pada keluaran Gemini untuk realisme dan keselarasan dengan instruksi dalam banyak perintah yang dievaluasi. Namun, perlu dijelaskan secara eksplisit tentang batasan yang diketahui (risiko halusinasi pada detail faktual yang halus, teks panjang yang ditampilkan di dalam gambar, kasus-kasus khusus transfer gaya) — jadi tolok ukur hanyalah panduan, bukan jaminan.

Apa yang dapat Anda lakukan dengan Gemini 2.5 Flash Image (kasus penggunaan)?

Gemini 2.5 Flash Image secara khusus dirancang untuk skenario kreatif, produktivitas, dan pencitraan terapan. Beberapa kasus penggunaan umum dan yang sedang berkembang meliputi:

Mockup produk cepat dan e-commerce

Seret foto produk ke dalam scene, hasilkan citra katalog yang konsisten di berbagai lingkungan, atau tukar warna/kain di seluruh lini produk — semuanya sambil mempertahankan identitas produk. Fitur fusi multi-gambar dan konsistensi karakter/produk menjadikannya menarik untuk alur kerja katalog.

Retouching foto dan pengeditan yang ditargetkan

Hapus objek, perbaiki noda, ganti pakaian/aksesori, atau sesuaikan pencahayaan dengan perintah bahasa alami. Kemampuan edit lokal memungkinkan pengguna awam melakukan retouching ala profesional menggunakan perintah percakapan.

Pembuatan papan cerita dan penceritaan visual

Tempatkan karakter yang sama di berbagai adegan dan pertahankan konsistensi tampilannya (berguna untuk komik, papan cerita, atau presentasi singkat). Pengeditan berulang memungkinkan kreator menyempurnakan suasana hati, pembingkaian, dan kesinambungan narasi tanpa harus membangun ulang aset dari awal.

Pendidikan, diagram, dan desain prototipe

Karena dapat menggabungkan perintah teks dan gambar serta memiliki "pengetahuan dunia", model ini dapat membantu menghasilkan diagram beranotasi, visual edukatif, atau mockup cepat untuk presentasi. Google bahkan menyoroti templat di AI Studio untuk kasus penggunaan seperti mockup real estat dan desain produk.

Bagaimana Anda menggunakan Nano Banana API?

Berikut ini adalah cuplikan praktis yang diadaptasi dari Dokumen API CometAPI dan dokumen API Google. Dokumen-dokumen tersebut menunjukkan alur umum: teks-ke-gambar dan gambar + teks ke gambar (pengeditan) menggunakan GenAI SDK atau titik akhir REST resmi.

Catatan: dalam dokumen CometAPI, nama model pratinjau muncul sebagai gemini-2.5-flash-image-previewContoh di bawah ini mencerminkan contoh SDK resmi (Python dan JavaScript) dan contoh REST curl; sesuaikan kunci dan jalur file dengan lingkungan Anda.

Contoh ikal REST dari CometAPI

Gunakan Gemini resmi generateContent titik akhir untuk pembuatan teks ke gambar. Tempatkan perintah teks di contents.parts[].text.Contoh (shell Windows, menggunakan ^ (untuk kelanjutan baris):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

Respons berisi byte gambar base64; alur kerja di atas mengekstrak "data" string dan mendekodenya menjadi gemini-generated.png.

Titik akhir ini mendukung pembuatan “gambar-ke-gambar”: mengunggah gambar input (sebagai Base64) dan menerima gambar baru yang dimodifikasi (juga dalam format Base64).Contoh:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**Deskripsi:**Pertama, ubah file gambar sumber Anda menjadi string Base64 dan letakkan di inline_data.dataJangan sertakan awalan seperti data:image/jpeg;base64,Outputnya juga terletak di candidates.content.parts dan termasuk: Bagian teks opsional (deskripsi atau perintah). Bagian gambar sebagai inline_data (dimana data adalah Base64 dari gambar keluaran). Untuk beberapa gambar, Anda dapat menambahkannya secara langsung, misalnya:

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

Berikut adalah contoh pengembang yang diadaptasi dari dokumen dan blog resmi Google. Ganti kredensial dan jalur file dengan milik Anda sendiri.

Python (gaya SDK resmi)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Ini adalah cuplikan Python kanonik dari dokumen Google (ID model pratinjau ditampilkan). Pola panggilan SDK yang sama mendukung pengeditan gambar + perintah (meneruskan gambar sebagai salah satu contents).Detail lebih lanjut lihat gemini dok.

Kesimpulan

Jika produk Anda memerlukan pembuatan gambar yang kuat dan latensi rendah dan, khususnya, pengeditan yang andal dengan konsistensi subjekGemini 2.5 Flash Image kini menjadi opsi kelas produksi yang layak dievaluasi: ia menggabungkan kualitas gambar mutakhir dengan API yang dirancang untuk integrasi pengembang (AI Studio, Gemini API, dan Vertex AI). Pertimbangkan dengan cermat keterbatasan model saat ini (teks yang halus pada gambar, beberapa kasus tepi stilisasi) dan terapkan perlindungan penggunaan yang bertanggung jawab.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses Gambar Flash Gemini 2.5(Daftar API Nano Banana Comet gemini-2.5-flash-image-preview/gemini-2.5-flash-image entri gaya dalam katalog mereka.) melalui CometAPI, versi model terbaru yang tercantum adalah per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.