Nano Banana ialah nama panggilan komuniti (dan trengkas dalaman) untuk Google Imej Flash Gemini 2.5 — penjanaan imej multimodal + model pengeditan berkualiti tinggi dan rendah kependaman. Panduan bentuk panjang ini (dengan kod, corak, langkah penggunaan dan contoh CometAPI) menunjukkan tiga kaedah panggilan praktikal yang boleh anda gunakan dalam pengeluaran: (1) antara muka Sembang serasi OpenAI (teks → imej), (2) rasmi Google generateContent teks → antara muka imej, dan (3) rasmi Google generateContent imej→ antara muka imej menggunakan input/output Base64. Sepanjang perjalanan anda akan mendapat nasihat pengedaran/pengerahan langkah demi langkah, persediaan persekitaran, cara mendapatkan operasi API daripada CometAPI, harga & nota tera air dan petua terbaik untuk hasil yang boleh dipercayai dan menjimatkan kos.
Apakah Nano Banana (Gemini 2.5 Flash Image)?
Nano Banana ialah nama tidak rasmi yang diberikan kepada Gemini 2.5 Flash Image, model imej terbaru Google dalam keluarga Gemini. Ia direka untuk penjanaan imej fotorealistik dan pengeditan imej yang tepat (suntingan tempatan, gabungan berbilang imej, pemeliharaan aksara yang konsisten merentas suntingan), dan tersedia melalui API Gemini Google, Google AI Studio dan Vertex AI. Model dihantar dengan tera air SynthID yang tidak kelihatan untuk asal.
Mengapa ini penting kepada pembangun: Nano Banana memberikan anda satu model berbilang modal berkualiti tinggi yang boleh mengendalikan:
- Teks → Imej (buat imej baharu daripada gesaan teks)
- Imej → Imej (edit/ubah gambar yang disediakan)
- Pengadunan berbilang imej (gabungkan berbilang gambar menjadi satu komposit)
Semua ini boleh diakses sama ada melalui rasmi GooglegenerateContenttitik akhir (Vertex AI / Gemini API) atau melalui titik akhir serasi OpenAI yang ditawarkan oleh get laluan API pihak ketiga seperti CometAPI dan OpenRouter. Ini bermakna anda boleh menyepadukan Imej Flash Gemini 2.5 ke dalam pangkalan kod serasi OpenAI sedia ada atau menghubungi SDK rasmi Google secara terus.
Kecemerlangannya
- Suntingan tempatan yang disasarkan (tukar warna baju, alih keluar objek, tweak pose).
- Mengekalkan konsistensi subjek/watak merentasi suntingan semula.
- Menggabungkan/menggabungkan berbilang imej menjadi komposit yang koheren.
- Kependaman rendah dan inferens cekap kos berbanding model penyelidikan yang lebih berat (Google meletakkan model "Flash" sebagai pilihan pemprosesan tinggi).
Bagaimanakah saya perlu menyediakan persekitaran pembangunan saya untuk memanggil Nano Banana melalui API?
Di bawah ialah senarai semak langkah demi langkah yang boleh anda anggap sebagai garis dasar untuk mana-mana tiga kaedah panggilan yang diterangkan kemudian.
Prasyarat (akaun, kunci, kuota)
- Akaun Google + projek Awan — Jika anda bercadang untuk menghubungi Gemini secara terus melalui Google (Gemini API / Vertex AI), buat projek Google Cloud dan dayakan Vertex AI / Gemini API. Anda memerlukan pengebilan dan peranan yang betul (cth,
Vertex AI AdminorService Accountdengan hak inferens). - Capaian API Gemini — Beberapa model imej Gemini adalah pratonton/ketersediaan terhad; anda mungkin perlu meminta akses atau menggunakan model melalui Google AI Studio atau Vertex AI bergantung pada akaun anda.
- CometAPI (pintu masuk pilihan) — Jika anda lebih suka API vendor-agnostik tunggal yang boleh memproksi model berbeza (termasuk Gemini), daftar di CometAPI untuk mendapatkan kunci API dan semak senarai model mereka (mereka mendedahkan varian Gemini 2.5 Flash dan titik akhir yang serasi dengan OpenAI). CometAPI boleh memudahkan pembangunan dan membolehkan anda menukar penyedia tanpa menukar kod apl anda.
Perkakas tempatan
- Waktu jalan bahasa: Node.js 18+, Python 3.10+ disyorkan.
- Pelanggan HTTP:
fetch/axiosuntuk JS;requests/httpxuntuk Python (atau SDK rasmi). - Pembantu imej:
Pillow(Python) atausharp(Nod) untuk mengubah saiz, penukaran format dan pengekodan/penyahkod Base64. - Keselamatan: simpan kunci dalam pembolehubah persekitaran atau peti besi rahsia (HashiCorp Vault, Pengurus Rahsia AWS, Pengurus Rahsia Google). Jangan sekali-kali melakukan kunci API.
Pasang Google/SDK yang serasi (pilihan)
Google menyediakan SDK dan openai keserasian perpustakaan bersinar — anda boleh menggunakan perpustakaan klien OpenAI terhadap Gemini dengan menukar beberapa baris (URL asas + kunci API), tetapi pelanggan Gemini/Google asli disyorkan untuk ciri multimodal penuh. Jika menggunakan CometAPI atau get laluan serasi OpenAI, menggunakan klien OpenAI boleh mempercepatkan pembangunan,contoh:
Laluan rasmi Google (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
Pelanggan serasi CometAPI / OpenAI (Python):
pip install openai requests
Bagaimanakah cara saya memilih antara tiga kaedah panggilan untuk Pisang Nano?
Memilih kaedah panggilan bergantung pada seni bina, keperluan kependaman/kos anda dan sama ada anda mahu bergantung pada titik akhir rasmi Google atau get laluan serasi OpenAI pihak ketiga. Tiga corak biasa ialah:
1) Antara muka Sembang serasi OpenAI (teks-ke-imej)
Gunakan ini apabila anda sudah mempunyai kod atau SDK gaya OpenAI dan ingin menukar model dengan perubahan yang minimum. Banyak gerbang (CometAPI, OpenRouter) mendedahkan model Gemini di bawah permukaan REST yang serasi OpenAI supaya anda chat or completions panggilan berfungsi dengan hanya berbeza base_url dan nama model. Ini selalunya laluan terpantas ke pengeluaran jika anda tidak mahu mengurus pengesahan Awan Google.
2) Gemini rasmi generateContent — teks ke imej
Gunakan rasmi Google generateContent melalui genai Pelanggan (Google) atau Vertex AI jika anda mahukan SDK rasmi yang disokong sepenuhnya dan akses kepada ciri terkini (parameter penjanaan terperinci, penstriman, API fail untuk aset besar), serta pengebilan/pemantauan Google Cloud. Ini disyorkan apabila anda memerlukan sokongan pengeluaran dan kawalan gred perusahaan.
3) Gemini rasmi generateContent — imej-ke-imej (input/output Base64)
Gunakan ini apabila anda mesti menyerahkan imej binari sebaris (Base64) atau mahu penyuntingan imej / saluran paip imej-ke-imej. milik Google generateContent menyokong imej sebaris (base64) dan API Fail untuk aset yang lebih besar atau boleh digunakan semula. Respons untuk imej yang dijana/diedit biasanya dikembalikan sebagai rentetan Base64 yang anda nyahkod dan simpan. Ini memberikan kawalan multimodal yang paling jelas.
Bagaimanakah saya boleh memanggil Nano Banana melalui antara muka Sembang yang serasi dengan OpenAI (teks-ke-imej)?
Titik akhir sembang serasi OpenAI menerima urutan {role, content} mesej; anda menerangkan imej yang anda inginkan dalam mesej pengguna dan get laluan (CometAPI atau shim keserasian OpenAI) menterjemahkannya ke dalam panggilan kepada model Gemini yang mendasari. Ini mudah jika apl anda sudah menggunakan aliran sembang atau anda ingin menggabungkan penjanaan teks + penjanaan imej dalam satu pertukaran.
Langkah
1.Daftar untuk CometAPI dan dapatkan kunci API: Daftar di CometAPI, buat projek, salin kunci API anda. CometAPI mendedahkan banyak model di belakang satu base_url. ()
-
Pasang klien yang serasi dengan OpenAI: Ular sawa:
pip install openaiatau gunakan yang lebih baruopenai/OpenAIPembalut SDK digunakan oleh banyak get laluan. -
Halakan SDK ke CometAPI dan panggil titik akhir penyelesaian sembang:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Nota:
-
aliran mestilah benar; respons akan dikembalikan sebagai aliran;
-
Struktur tindak balas dibalut oleh CometAPI untuk keserasian OpenAI.
-
Tanggapan termasuk imej Base64; nyahkod dan simpan pada klien mengikut keperluan:
Bagaimana saya boleh memanggil Nano Banana menggunakan pegawai Gemini generateContent antara muka teks ke imej?
Google menyediakan a API Pembangun Gemini (API Gemini) dan juga mendedahkan model Gemini melalui Verteks AI. Untuk akses terprogram kepada Gemini 2.5 Flash Image (Nano Banana) dengan cara yang disokong, rasmi generateContent kaedah ialah titik masuk kanonik untuk penjanaan teks sahaja atau multimodal. Gunakan Google GenAI SDK (Python: google-genai) atau hubungi terus titik akhir REST. Ia memberikan akses terus kepada parameter dan modaliti model, dan merupakan cara yang disyorkan untuk menggunakan ciri lanjutan (pengeditan tepat, gabungan berbilang imej) apabila memanggil titik akhir Google.
1.Gunakan Google GenAI SDK (Python: google-genai)
Langkah pengedaran / panggilan (gambaran keseluruhan):
- Dapatkan kunci API daripada Google AI Studio atau sediakan akaun perkhidmatan Vertex AI (bergantung pada platform).
- Pasang SDK (
pip install --upgrade google-genai) dan sahkan (kunci API atau Bukti Kelayakan Lalai Aplikasi Google). - Pilih model:
gemini-2.5-flash-imageatau slug pratonton yang ditunjukkan dalam dokumen (slug tepat bergantung pada keadaan GA/pratonton). - Hubungi
client.models.generate_content(...)dengan gesaan teks biasa (teks-ke-imej). - Decode imej yang dikembalikan (jika dikembalikan Base64) dan simpan/simpan.
Contoh Python (pelanggan rasmi) — text→image:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Nota: semak API pelanggan rasmi untuk nama parameter yang tepat — contoh di atas mengikut corak dalam dokumen Google.)
2. Panggilan Banan Nano melalui titik akhir REST
Titik akhir EST (contoh teks-ke-imej): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Pilihan pengesahan: pengepala bekalan x-goog-api-key: $CometAPI_API_KEY. (Buat kunci dalam CometAPI.)
Ini menyiarkan gesaan teks dan menyimpan imej base64 yang dikembalikan:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Nota: Perduaan imej dikembalikan sebagai base64 in
candidates.content.parts.inline_data.data. Contoh di atas menggunakanjquntuk memilih data sebaris dan menyahkodnya. Dokumen rasmi menunjukkan aliran yang sama.
Bagaimana saya boleh memanggil Nano Banana menggunakan pegawai Gemini generateContent antara muka imej-ke-imej (Base64 masuk/keluar)?
Bilakah anda harus menggunakan imej-ke-imej (base64 masuk/keluar)?
Gunakan imej ke imej apabila anda perlu:
- Edit foto sedia ada (lukisan, pemindahan gaya, penggantian objek).
- Gabungkan berbilang imej sumber menjadi satu gubahan.
- Kekalkan identiti subjek merentas suntingan (salah satu kelebihan Nano Banana).
Gemini generateContent menyokong data imej sebaris melalui Base64 (atau sebagai URI fail) dan mengembalikan imej yang dijana atau diedit sebagai rentetan Base64. Dokumen memberikan contoh yang jelas untuk menyediakan inline_data bersama mime_type and data.
Langkah pengedaran / panggilan (imej-ke-imej)
- Sediakan imej input: baca bait fail, pengekodan Base64 atau hantar bait mentah melalui pembantu SDK.
- Bina a
contentstatasusunan di mana satu bahagian ialah imej sebaris (denganmimeTypeanddata) dan bahagian seterusnya termasuk arahan penyuntingan teks. - SELEPAS kepada
generateContent(SDK rasmi atau REST). - menerima respons: API mengembalikan imej yang dijana/diedit yang dikodkan sebagai rentetan Base64. Nyahkod dan simpannya secara setempat.
Contoh — Python (imej-ke-imej menggunakan bait sebaris melalui GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Contoh Python: imej → imej menggunakan Base64 melalui titik rehat
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Jika anda ingin mengaksesnya menggunakan port rehat CometAPI:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
Untuk sebaris: baca imej dan base64 mengekodnya. Untuk penggunaan berulang atau >20MB, muat naik melalui API Fail dan rujuk pemegang fail
generateContent.Terbaik untuk pengeditan dan aliran kerja yang tepat yang memerlukan imej input serta arahan pengeditan teks.
Apakah petua terbaik dalam bekerja dengan Nano Banana?
Kejuruteraan & kawalan segera
- Bersikap eksplisit: sertakan nisbah bidang yang diingini, rujukan gaya (nama artis hanya jika dibenarkan), lensa kamera, pencahayaan dan gubahan. Cth, “Fotorealistik, 3:2, kedalaman medan cetek, jam emas, kanta Nikon 50mm.”
- Gunakan penyuntingan berturut-turut: lebih suka suntingan tempatan yang lebih kecil dalam berbilang pas kepada gesaan satu tangkapan besar — ini mengekalkan ketekalan subjek. Kekuatan Nano Banana ialah penyuntingan berulang.
Kebersihan imej
- Input praproses: normalkan ruang warna, alih keluar EXIF terbenam jika privasi diperlukan, skalakan kepada resolusi yang wajar untuk menyimpan token.
- Output pascaproses: jalankan pengesanan muka, pembersihan artifak kecil melalui penapis ringan (Bantal / tajam) sebelum kembali kepada pengguna.
Dasar keselamatan, pematuhan & kandungan
- Laksanakan semakan keselamatan kandungan automatik (Model penyederhanaan penglihatan atau semakan senarai hitam) sebelum menyimpan/menyediakan imej.
- Jika memuat naik imej orang, ikuti undang-undang privasi yang berkenaan (GDPR/CCPA) dan dapatkan persetujuan yang diperlukan.
- Hormati dasar penggunaan model dan peraturan hak cipta apabila meminta aksara berhak cipta atau karya seni sedia ada.
Nota penutup
Pisang Nano (Imej Flash Gemini 2.5) mewakili langkah pragmatik, ketelitian tinggi untuk penjanaan dan pengeditan imej berbilang mod: ia direka bentuk untuk konsistensi merentas suntingan dan penaakulan pelbagai mod yang lebih kaya. Pisang Nano (Imej Flash Gemini 2.5) ialah langkah penting dalam penjanaan/penyuntingan imej — menawarkan ketekalan yang tinggi untuk pengeditan berbilang langkah dan penyepaduan AI yang serasi (berbilang pintu penyepaduan AI dan berbilang langkah. milik Google generateContent API). Untuk kelajuan penggunaan, get laluan seperti CometAPI membolehkan anda menggunakan semula kod gaya OpenAI. Sentiasa semak respons kewarasan, hormati dasar kandungan dan ciri asal (SynthID) dan pantau kos semasa lelaran.
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Pembangun boleh mengakses Imej Flash Gemini 2.5(senarai Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image entri gaya dalam katalog mereka.) melalui CometAPI, versi model terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.



