Pada akhir Ogos 2025 Google (DeepMind) dikeluarkan Imej Flash Gemini 2.5 - digelar secara meluas “pisang nano” — model penjanaan imej berkualiti tinggi + kependaman rendah yang telah disepadukan ke dalam apl Gemini, Google AI Studio, API Gemini dan CometAPI. Ia direka bentuk untuk menghasilkan imej fotorealistik, mengekalkan ketekalan aksara merentas suntingan, menggabungkan berbilang imej input dan melakukan suntingan setempat yang halus melalui gesaan bahasa semula jadi. Model ini tersedia dalam pratonton / GA awal dan sudah pun mengungguli papan pendahulu imej (LMArena) sambil dihantar dengan mekanisme keselamatan (penanda air SynthID dan penapis peringkat produk).
Apakah Gemini 2.5 Flash Image (aka “Nano Banana”)?
Imej Flash Gemini 2.5 — digelar secara main-main Pisang Nano — ialah model penjanaan imej dan penyuntingan terbaharu Google DeepMind dalam keluarga Gemini. Diumumkan pada penghujung Ogos 2025, model ini diletakkan sebagai keluaran pratonton yang membawa suntingan kesetiaan lebih tinggi, gabungan berbilang imej, konsistensi watak yang lebih baik (mengekalkan orang/haiwan peliharaan/objek yang sama dikenali merentas berbilang suntingan) dan penjanaan imej kependaman rendah ke dalam set alat multimodal Gemini. Ia tersedia melalui API Gemini, Google AI Studio, aplikasi mudah alih/web Gemini dan Vertex AI untuk pelanggan perusahaan.
Asal dan penamaan
Nama panggilan "pisang nano" menjadi singkatan viral pada suapan sosial dan papan pendahulu komuniti selepas penguji awal dan penyertaan LMArena menggunakan label bertemakan buah-buahan; Google mengesahkan sambungan itu dan menerima pegangan main-main secara terbuka dalam siaran pembangun dan produk mereka. Nama produk rasmi ialah Imej Flash Gemini 2.5 dan anda biasanya akan melihat pengecam model yang digunakan dalam kod dan panggilan API (untuk penggunaan pratonton ia muncul sebagai cth gemini-2.5-flash-image-preview).
Apakah ciri tajuk utama Gemini 2.5 Flash Image?
Apakah maksud "konsistensi watak" sebenarnya?
Salah satu keupayaan marquee ialah konsistensi watak: anda boleh meminta model menggunakan semula subjek yang sama (seseorang, haiwan peliharaan, maskot atau produk) merentasi banyak suntingan atau adegan baharu sambil mengekalkan ciri visual yang mengenal pasti (muka/bentuk, palet warna, tanda membezakan). Ini menangani kelemahan biasa dalam model imej terdahulu di mana pengeditan berikutnya akan menghasilkan orang/objek yang munasabah secara visual tetapi nyata berbeza. Oleh itu, pembangun boleh membina aliran kerja untuk katalog produk, penceritaan episod atau penjanaan aset jenama dengan kurang pembetulan manual.
Apakah kawalan pengeditan lain yang disertakan?
Imej Flash Gemini 2.5 menyokong:
- Suntingan tempatan yang disasarkan melalui gesaan bahasa biasa (alih keluar objek, tukar pakaian, ubah kulit, alih keluar elemen latar belakang).
- Gabungan berbilang imej: menggabungkan sehingga tiga imej input ke dalam komposisi koheren tunggal (cth, letakkan produk daripada imej A ke dalam adegan B sambil mengekalkan pencahayaan).
- Kawalan gaya dan format: arahan fotorealistik, atribut kamera dan kanta, nisbah bidang dan output yang digayakan (ilustrasi, pelekat, dsb.).
- Pengetahuan dunia asli: model itu memanfaatkan pengetahuan keluarga Gemini yang lebih luas untuk melakukan suntingan yang sedar secara semantik (cth, fahami maksud "pencahayaan Renaissance" atau "pejalan kaki Tokyo").
Bagaimana pula dengan kelajuan, kos dan ketersediaan?
Imej Flash Gemini 2.5 ialah sebahagian daripada peringkat Flash Gemini 2.5—dioptimumkan untuk kependaman dan kos rendah sambil mengekalkan kualiti yang kukuh. Google telah pratonton harga untuk token output imej dan menyediakan ketersediaan melalui API dan AI Studio; pelanggan perusahaan boleh mengaksesnya melalui Vertex AI. Pada pengumuman harga yang diterbitkan untuk peringkat Gemini 2.5 Flash Image ialah $30 setiap token keluaran 1M, dengan contoh kos setiap imej yang dilaporkan sebagai 1290 token keluaran ≈ $0.039 setiap imej.
Bagaimanakah Imej Flash Gemini 2.5 berfungsi di bawah tudung?
Pendekatan seni bina dan latihan
Imej Flash Gemini 2.5 mewarisi seni bina keluarga Gemini 2.5: tulang belakang gaya campuran pakar (MoE) yang jarang dengan latihan pelbagai mod yang menggabungkan teks, imej, audio dan data lain. Google melatih Imej Flash pada korpora multimodal yang sangat besar, ditapis dan memperhalusi model untuk tugas imej (penjanaan, pengeditan, gabungan) dan tingkah laku keselamatan. Latihan dijalankan pada fabrik TPU Google dan dinilai dengan kedua-dua metrik penilaian automatik dan manusia.
Pengeditan dipacu perbualan
Pada tahap yang tinggi, model menggunakan pelaziman kontekstual: apabila anda menyediakan imej (atau berbilang imej) serta gesaan teks, model mengekodkan identiti visual subjek ke dalam perwakilan dalamannya. Semasa pengeditan berikutnya atau adegan baharu, ia menetapkan penjanaan pada perwakilan itu supaya atribut visual yang diingini (geometri muka, pakaian utama atau pengecam produk, palet warna) dipelihara. Dari segi praktikal, ini dilaksanakan sebagai sebahagian daripada saluran kandungan berbilang mod yang didedahkan oleh API Gemini: anda menghantar imej rujukan bersama-sama dengan arahan pengeditan dan model mengembalikan output imej yang diedit (atau berbilang imej calon) dalam satu respons.
Penanda air & asal
Google menyepadukan penapis keselamatan dan dasar kandungan ke dalam Gemini 2.5 Flash Image. Keluaran ini menekankan penilaian dan penggabungan merah, langkah penapisan automatik, penalaan halus yang diselia dan pembelajaran pengukuhan untuk arahan yang diikuti sambil meminimumkan output yang berbahaya. Output termasuk tera air SynthID yang tidak kelihatan supaya imej yang dihasilkan atau diedit oleh model boleh dikenal pasti kemudiannya sebagai dijana AI.
Sejauh mana prestasinya? (Data penanda aras)
Imej Flash Gemini 2.5 (dipasarkan sebagai "banana-nano" dalam beberapa konteks penanda aras) dicapai #1 pada papan pendahulu Edit Imej dan Teks-ke-Imej LMArena pada akhir Ogos 2025, dengan Elo / keutamaan yang besar mendahului pesaing dalam perbandingan yang dilaporkan. Saya merujuk hasil penilaian manusia LMArena dan GenAI-Bench yang menunjukkan skor keutamaan teratas untuk kedua-dua tugasan teks-ke-imej dan pengeditan imej.
Perbandingan Teks-ke-Imej
| Penanda Aras Keupayaan | Imej Gemini Flash 2.5 | Imej 4 Ultra 06-06 | ChatGPT 4o / GPT Imej 1 (Tinggi) | FLUX.1 Konteks | Imej Gemini Flash 2.0 |
|---|---|---|---|---|---|
| Keutamaan Keseluruhan (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| Kualiti Visual (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| Penjajaran Teks-ke-Imej (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
Pengeditan Imej
| Penanda Aras Keupayaan | Imej Gemini Flash 2.5 | ChatGPT 4o / GPT Imej 1 (Tinggi) | FLUX.1 Konteks | Suntingan Imej Qwen | Imej Gemini Flash 2.0 |
|---|---|---|---|---|---|
| Keutamaan Keseluruhan (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| Watak | 1170 | 1059 | 1010 | 911 | 850 |
| Kreatif | 1112 | 1057 | 968 | 983 | 879 |
| maklumat grafik | 1067 | 1029 | 967 | 1012 | 925 |
| Objek / Persekitaran | 1064 | 1023 | 1002 | 1010 | 901 |
| Kontekstualisasi semula produk | 1128 | 1032 | 943 | 1009 | 888 |
| Penggayaan | 1062 | 1165 | 949 | 1091 | 733 |

Apakah maksud penanda aras ini dalam amalan?
Penanda aras memberitahu kita dua perkara: (1) model berdaya saing pada penjanaan fotorealistik dan (2) ia menonjol dalam menyunting tugas di mana konsistensi watak dan pematuhan segera penting. Kedudukan keutamaan manusia menunjukkan bahawa pengguna yang melihat output menilai output Gemini sangat tinggi untuk realisme dan penjajaran dengan arahan dalam banyak gesaan yang dinilai. Walau bagaimanapun, eksplisit tentang pengehadan yang diketahui (risiko halusinasi pada butiran fakta halus, pemaparan teks dalam bentuk panjang dalam imej, sarung tepi pemindahan gaya) — jadi penanda aras adalah panduan, bukan jaminan.
Apakah yang boleh anda lakukan dengan Gemini 2.5 Flash Image (kes penggunaan)?
Imej Flash Gemini 2.5 dibina secara eksplisit untuk senario kreatif, produktiviti dan pengimejan terpakai. Kes penggunaan biasa dan timbul termasuk:
Mockup produk pantas dan e-dagang
Seret foto produk ke dalam pemandangan, hasilkan imejan katalog yang konsisten merentas persekitaran atau tukar warna/fabrik merentas barisan produk — semuanya sambil mengekalkan identiti produk. Ciri gabungan berbilang imej dan konsistensi watak/produk menjadikannya menarik untuk aliran kerja katalog.
Pengubahsuaian foto dan pengeditan disasarkan
Alih keluar objek, baiki cela, tukar pakaian/aksesori atau ubah suai pencahayaan dengan gesaan bahasa semula jadi. Keupayaan suntingan setempat membolehkan bukan pakar melakukan ubah suai gaya profesional menggunakan arahan perbualan.
Papan cerita dan penceritaan visual
Letakkan watak yang sama pada adegan yang berbeza dan pastikan penampilan mereka konsisten (berguna untuk komik, papan cerita atau dek padang). Pengeditan berulang membolehkan pencipta memperhalusi mood, pembingkaian dan kesinambungan naratif tanpa membina semula aset dari awal.
Pendidikan, gambar rajah, dan prototaip reka bentuk
Kerana ia boleh menggabungkan gesaan teks dan imej serta mempunyai "pengetahuan dunia", model ini boleh membantu menjana gambar rajah beranotasi, visual pendidikan atau mockup pantas untuk pembentangan. Google juga menyerlahkan templat dalam AI Studio untuk kes penggunaan seperti mockup hartanah dan reka bentuk produk.
Bagaimanakah anda menggunakan Nano Banana API?
Di bawah ialah coretan praktikal yang diadaptasi daripada Dokumen API CometAPI dan dokumen API Google. Mereka menunjukkan aliran biasa: teks ke imej and imej + teks ke imej (editing) menggunakan GenAI SDK atau titik akhir REST rasmi.
Nota: dalam dokumen CometAPI nama model pratonton muncul sebagai
gemini-2.5-flash-image-preview. Contoh di bawah menggemakan contoh SDK rasmi (Python dan JavaScript) dan contoh curl REST; menyesuaikan kunci dan laluan fail dengan persekitaran anda.
Contoh curl REST daripada CometAPI
Gunakan rasmi Gemini generateContent titik akhir untuk penjanaan teks ke imej. Letakkan gesaan teks contents.parts[].text.Contoh (Windows shell, menggunakan ^ untuk sambungan talian):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
Respons mengandungi bait imej base64; saluran paip di atas mengekstrak "data" rentetan dan menyahkodnya ke dalam gemini-generated.png.
Titik akhir ini menyokong penjanaan "imej-ke-imej": muat naik imej input (sebagai Base64) dan terima imej baharu yang diubah suai (juga dalam format Base64).Contoh:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**Penerangan:**Mula-mula, tukar fail imej sumber anda kepada rentetan Base64 dan letakkannya inline_data.data. Jangan sertakan awalan seperti data:image/jpeg;base64,.Output juga terletak di candidates.content.parts dan termasuk:Bahagian teks pilihan (huraian atau gesaan).Bahagian imej sebagai inline_data (di mana data ialah Base64 bagi imej output).Untuk berbilang imej, anda boleh menambahkannya secara terus, contohnya:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
Di bawah ialah contoh pembangun yang disesuaikan daripada dokumen dan blog rasmi Google. Gantikan kelayakan dan laluan fail dengan anda sendiri.
Python (gaya SDK rasmi)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Ini ialah coretan Python kanonik daripada dokumen Google (ID model pratonton ditunjukkan). Corak panggilan SDK yang sama menyokong pengeditan imej + segera (luluskan imej sebagai salah satu contents). Butiran lanjut rujuk Gemini doc.
Kesimpulan
Jika produk anda memerlukan penjanaan imej kependaman yang teguh dan, terutamanya, penyuntingan yang boleh dipercayai dengan konsistensi subjek, Gemini 2.5 Flash Image kini merupakan pilihan gred pengeluaran yang patut dinilai: ia menggabungkan kualiti imej terkini dengan API yang direka untuk penyepaduan pembangun (AI Studio, Gemini API dan Vertex AI). Timbang dengan teliti had semasa model (teks halus dalam imej, beberapa kes tepi penggayaan) dan laksanakan perlindungan penggunaan yang bertanggungjawab.
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Pembangun boleh mengakses Imej Flash Gemini 2.5(senarai Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image entri gaya dalam katalog mereka.) melalui CometAPI, versi model terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
