วิธีการใช้ Nano Banana ผ่าน API (Gemini-2-5-flash-image)

CometAPI
AnnaDec 10, 2025
วิธีการใช้ Nano Banana ผ่าน API (Gemini-2-5-flash-image)

Nano Banana เป็นชื่อเล่นของชุมชน (และคำย่อภายใน) ของ Google ภาพแฟลช Gemini 2.5 — แบบจำลองการสร้างและแก้ไขภาพแบบหลายโหมดคุณภาพสูงและมีความหน่วงต่ำ คู่มือฉบับยาวนี้ (พร้อมโค้ด รูปแบบ ขั้นตอนการปรับใช้ และตัวอย่าง CometAPI) แสดงวิธีการเรียกใช้งานจริงสามวิธีที่คุณสามารถนำไปใช้งานจริงได้: (1) อินเทอร์เฟซแชทที่เข้ากันได้กับ OpenAI (ข้อความ→รูปภาพ) (2) อินเทอร์เฟซอย่างเป็นทางการของ Google generateContent อินเทอร์เฟซข้อความ→รูปภาพ และ (3) อินเทอร์เฟซอย่างเป็นทางการของ Google generateContent อินเทอร์เฟซภาพ→ภาพ โดยใช้อินพุต/เอาต์พุต Base64 ระหว่างนี้คุณจะได้รับคำแนะนำทีละขั้นตอนเกี่ยวกับการแจกจ่าย/ปรับใช้ การตั้งค่าสภาพแวดล้อม วิธีรับการดำเนินการ API จาก CometAPI หมายเหตุเกี่ยวกับราคาและลายน้ำ และเคล็ดลับที่ดีที่สุดเพื่อผลลัพธ์ที่เชื่อถือได้และคุ้มค่า

Nano Banana (Gemini 2.5 Flash Image) คืออะไร?

Nano Banana เป็นชื่อเรียกอย่างไม่เป็นทางการของ Gemini 2.5 Flash Image ซึ่งเป็นโมเดลภาพล่าสุดของ Google ในตระกูล Gemini Nano Banana ออกแบบมาเพื่อการสร้างภาพเสมือนจริงและการแก้ไขภาพที่แม่นยำ (การแก้ไขเฉพาะที่, การรวมภาพหลายภาพ, การรักษาลักษณะตัวละครให้สอดคล้องกันในทุกการแก้ไข) และสามารถใช้งานได้ผ่าน Gemini API ของ Google, Google AI Studio และ Vertex AI โมเดลนี้มาพร้อมกับลายน้ำ SynthID ที่มองไม่เห็นเพื่อระบุแหล่งที่มา

เหตุใดสิ่งนี้จึงสำคัญสำหรับนักพัฒนา: Nano Banana มอบโมเดลมัลติโหมดคุณภาพสูงแบบเดี่ยวที่สามารถจัดการ:

  • ข้อความ → รูปภาพ (สร้างภาพใหม่จากข้อความแจ้งเตือน)
  • รูปภาพ → รูปภาพ (แก้ไข/แปลงรูปภาพที่ให้มา)
  • การผสมผสานภาพหลายภาพ (รวมภาพหลายภาพเข้าเป็นภาพเดียว)
    ทั้งหมดนี้สามารถเข้าถึงได้ผ่านทาง Google อย่างเป็นทางการ generateContent จุดสิ้นสุด (Vertex AI / Gemini API) หรือผ่านจุดสิ้นสุดที่เข้ากันได้กับ OpenAI ซึ่งนำเสนอโดยเกตเวย์ API ของบุคคลที่สาม เช่น CometAPI และ OpenRouter ซึ่งหมายความว่าคุณสามารถรวม Gemini 2.5 Flash Image เข้ากับฐานโค้ดที่เข้ากันได้กับ OpenAI ที่มีอยู่ หรือเรียกใช้ SDK อย่างเป็นทางการของ Google ได้โดยตรง

สิ่งที่มันโดดเด่น

  • การแก้ไขแบบกำหนดเป้าหมายในพื้นที่ (เปลี่ยนสีเสื้อ, ลบวัตถุ, ปรับแต่งท่าทาง)
  • รักษาความสอดคล้องของเรื่อง/ตัวละครตลอดการแก้ไขใหม่
  • การผสม/ผสานภาพหลายภาพให้เป็นภาพรวมที่มีความสอดคล้องกัน
  • การอนุมานที่มีเวลาแฝงต่ำและคุ้มต้นทุนเมื่อเทียบกับโมเดลการวิจัยที่หนักกว่า (Google วางตำแหน่งโมเดล "Flash" เป็นตัวเลือกที่มีปริมาณงานสูง)

ฉันควรตั้งค่าสภาพแวดล้อมการพัฒนาเพื่อเรียก Nano Banana ผ่าน API ได้อย่างไร

ด้านล่างนี้เป็นรายการตรวจสอบทีละขั้นตอนที่คุณสามารถใช้เป็นพื้นฐานสำหรับวิธีการโทรสามวิธีที่อธิบายในภายหลัง

ข้อกำหนดเบื้องต้น (บัญชี, คีย์, โควตา)

  1. บัญชี Google + โปรเจ็กต์ Cloud — หากคุณวางแผนที่จะเรียกใช้ Gemini โดยตรงผ่าน Google (Gemini API / Vertex AI) ให้สร้างโปรเจกต์ Google Cloud และเปิดใช้งาน Vertex AI / Gemini API คุณจะต้องมีการเรียกเก็บเงินและบทบาทที่เหมาะสม (เช่น Vertex AI Admin or Service Account โดยมีสิทธิในการอนุมาน)
  2. การเข้าถึง API ของ Gemini — โมเดลภาพ Gemini บางภาพมีให้ดูตัวอย่างหรือมีจำนวนจำกัด คุณอาจต้องขอสิทธิ์เข้าถึงหรือใช้โมเดลผ่าน Google AI Studio หรือ Vertex AI ทั้งนี้ขึ้นอยู่กับบัญชีของคุณ
  3. CometAPI (เกตเวย์เสริม) — หากคุณต้องการ API ที่ไม่ขึ้นกับผู้จำหน่ายรายเดียว ซึ่งสามารถพร็อกซีโมเดลต่างๆ ได้ (รวมถึง Gemini) ให้ลงทะเบียนที่ CometAPI เพื่อรับคีย์ API และตรวจสอบรายการโมเดล (ซึ่งเปิดเผย Gemini 2.5 Flash เวอร์ชันต่างๆ และจุดสิ้นสุดที่เข้ากันได้กับ OpenAI) CometAPI ช่วยลดความยุ่งยากในการพัฒนา และให้คุณเปลี่ยนผู้ให้บริการได้โดยไม่ต้องเปลี่ยนโค้ดแอป

เครื่องมือท้องถิ่น

  • รันไทม์ภาษา: Node.js 18+, แนะนำ Python 3.10+
  • ไคลเอนต์ HTTP: fetch/axios สำหรับ JS; requests/httpx สำหรับ Python (หรือ SDK อย่างเป็นทางการ)
  • ตัวช่วยสร้างภาพ: Pillow (Python)หรือ sharp (โหนด) สำหรับการปรับขนาด การแปลงรูปแบบ และการเข้ารหัส/ถอดรหัส Base64
  • ⁠ความปลอดภัย: เก็บคีย์ไว้ในตัวแปรสภาพแวดล้อมหรือห้องนิรภัยความลับ (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager) อย่าคอมมิตคีย์ API

ติดตั้ง SDK ที่เข้ากันได้ของ Google (ทางเลือก)

Google นำเสนอ SDK และ openai ชิมความเข้ากันได้ของไลบรารี — คุณสามารถใช้ไลบรารีไคลเอนต์ OpenAI กับ Gemini ได้โดยการเปลี่ยนแปลงบรรทัดเล็กๆ น้อยๆ (URL พื้นฐาน + คีย์ API) แต่แนะนำให้ใช้ไคลเอนต์ Gemini/Google ดั้งเดิมสำหรับฟีเจอร์มัลติโมดัลเต็มรูปแบบ หากใช้ CometAPI หรือเกตเวย์ที่เข้ากันได้กับ OpenAI การใช้ไคลเอนต์ OpenAI จะช่วยเร่งการพัฒนา ตัวอย่าง:

เส้นทางอย่างเป็นทางการของ Google (Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

ไคลเอนต์ที่เข้ากันได้กับ CometAPI / OpenAI (Python):

pip install openai requests

ฉันจะเลือกระหว่างสามวิธีโทรสำหรับ Nano Banana ได้อย่างไร?

การเลือกวิธีการโทรขึ้นอยู่กับสถาปัตยกรรม ข้อกำหนดด้านเวลาแฝง/ต้นทุน และว่าคุณต้องการใช้จุดเชื่อมต่ออย่างเป็นทางการของ Google หรือเกตเวย์ที่เข้ากันได้กับ OpenAI ของบุคคลที่สาม รูปแบบทั่วไปสามแบบมีดังนี้:

1) อินเทอร์เฟซแชทที่เข้ากันได้กับ OpenAI (ข้อความเป็นรูปภาพ)

ใช้สิ่งนี้เมื่อคุณมีโค้ดหรือ SDK แบบ OpenAI อยู่แล้วและต้องการเปลี่ยนโมเดลโดยมีการเปลี่ยนแปลงเพียงเล็กน้อย เกตเวย์จำนวนมาก (CometAPI, OpenRouter) เปิดเผยโมเดล Gemini ภายใต้พื้นผิว REST ที่เข้ากันได้กับ OpenAI ดังนั้นโมเดลที่มีอยู่ของคุณ chat or completions การโทรทำงานด้วยความแตกต่างเพียงอย่างเดียว base_url และชื่อรุ่น นี่มักจะเป็นเส้นทางที่เร็วที่สุดสู่การผลิต หากคุณไม่ต้องการจัดการการตรวจสอบสิทธิ์ Google Cloud

2) ราศีเมถุน อย่างเป็นทางการ generateContent — ข้อความเป็นรูปภาพ

ใช้ Google อย่างเป็นทางการ generateContent เมื่อ genai (Google) client หรือ Vertex AI หากคุณต้องการ SDK อย่างเป็นทางการที่รองรับอย่างเต็มรูปแบบ และสิทธิ์การเข้าถึงฟีเจอร์ล่าสุด (พารามิเตอร์การสร้างแบบละเอียด การสตรีม API ไฟล์สำหรับสินทรัพย์ขนาดใหญ่) รวมถึงระบบเรียกเก็บเงิน/ตรวจสอบของ Google Cloud ขอแนะนำเมื่อคุณต้องการการสนับสนุนการใช้งานจริงและการควบคุมระดับองค์กร

3) ราศีเมถุน อย่างเป็นทางการ generateContent — ภาพต่อภาพ (อินพุต/เอาต์พุต Base64)

ใช้สิ่งนี้เมื่อคุณต้องส่งภาพไบนารีแบบอินไลน์ (Base64) หรือต้องการแก้ไขภาพ / ไพพ์ไลน์ภาพต่อภาพ ของ Google generateContent รองรับรูปภาพแบบอินไลน์ (base64) และ File API สำหรับสินทรัพย์ขนาดใหญ่หรือสินทรัพย์ที่นำกลับมาใช้ซ้ำได้ โดยทั่วไปแล้ว การตอบสนองสำหรับรูปภาพที่สร้าง/แก้ไขจะถูกส่งกลับเป็นสตริง Base64 ที่คุณถอดรหัสและบันทึก วิธีนี้ช่วยให้สามารถควบคุมแบบหลายโหมดได้อย่างชัดเจนที่สุด

ฉันจะเรียก Nano Banana ผ่านอินเทอร์เฟซแชทที่รองรับ OpenAI (ข้อความเป็นรูปภาพ) ได้อย่างไร

จุดสิ้นสุดการสนทนาที่เข้ากันได้กับ OpenAI ยอมรับลำดับของ {role, content} ข้อความ; คุณอธิบายภาพที่คุณต้องการในข้อความผู้ใช้ และเกตเวย์ (CometAPI หรือ OpenAI-compatibility shim) จะแปลงภาพนั้นเป็นการเรียกใช้งานโมเดล Gemini พื้นฐาน วิธีนี้สะดวกหากแอปของคุณใช้การแชทโฟลว์อยู่แล้ว หรือคุณต้องการรวมการสร้างข้อความและการสร้างภาพไว้ในการแลกเปลี่ยนข้อมูลเดียว

ขั้นตอน

1.สมัคร CometAPI และรับรหัส API:ลงทะเบียนที่ CometAPI สร้างโปรเจ็กต์ คัดลอกคีย์ API ของคุณ CometAPI เปิดเผยโมเดลมากมายเบื้องหลัง base_url. ()

  1. ติดตั้งไคลเอนต์ที่เข้ากันได้กับ OpenAI: ไพธอน: pip install openai หรือใช้ใหม่กว่า openai/OpenAI SDK wrapper ที่ใช้โดยเกตเวย์จำนวนมาก

  2. ชี้ SDK ไปที่ CometAPI และเรียกจุดสิ้นสุดการเสร็จสิ้นการแชท:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

หมายเหตุ:

  1. สตรีมจะต้องเป็นจริง การตอบสนองจะถูกส่งกลับเป็นสตรีม

  2. โครงสร้างการตอบสนองถูกห่อหุ้มด้วย CometAPI เพื่อความเข้ากันได้กับ OpenAI

  3. การตอบสนองรวมถึงภาพ Base64 ถอดรหัสและบันทึกลงในไคลเอนต์ตามต้องการ

ฉันจะเรียก Nano Banana โดยใช้ Gemini อย่างเป็นทางการได้อย่างไร generateContent อินเทอร์เฟซข้อความเป็นรูปภาพ?

Google ให้บริการ API สำหรับนักพัฒนา Gemini (API ของ Gemini) และยังเปิดเผยโมเดล Gemini ผ่านทาง เวอร์เท็กซ์ AIสำหรับการเข้าถึงโปรแกรม Gemini 2.5 Flash Image (Nano Banana) ในรูปแบบที่รองรับ อย่างเป็นทางการ generateContent วิธีการนี้เป็นจุดเข้าแบบมาตรฐานสำหรับการสร้างข้อความอย่างเดียวหรือแบบหลายโหมด ใช้ Google SDK ของ GenAI (ไพธอน: google-genai) หรือเรียกจุดสิ้นสุด REST โดยตรง ซึ่งจะให้การเข้าถึงพารามิเตอร์และโหมดต่างๆ ของโมเดลโดยตรง และเป็นวิธีที่แนะนำสำหรับการใช้ฟีเจอร์ขั้นสูง (การแก้ไขที่แม่นยำ การผสานภาพหลายภาพ) เมื่อเรียกจุดสิ้นสุดของ Google

1.ใช้ Google SDK ของ GenAI (ไพธอน: google-genai)

ขั้นตอนการกระจาย/การโทร (ภาพรวม):

  1. รับคีย์ API จาก Google AI Studio หรือตั้งค่าบัญชีบริการ Vertex AI (ขึ้นอยู่กับแพลตฟอร์ม)
  2. ติดตั้ง SDK (pip install --upgrade google-genai) และตรวจสอบความถูกต้อง (รหัส API หรือข้อมูลประจำตัวเริ่มต้นของแอปพลิเคชัน Google)
  3. Choose นางแบบ: gemini-2.5-flash-image หรือสลักตัวอย่างที่แสดงในเอกสาร (สลักที่แน่นอนขึ้นอยู่กับ GA/สถานะตัวอย่าง)
  4. โทร client.models.generate_content(...) พร้อมคำแนะนำเป็นข้อความธรรมดา (ข้อความเป็นรูปภาพ)
  5. แปลความหมาย ส่งคืนรูปภาพ (ถ้าส่งคืน Base64) และบันทึก/จัดเก็บ

ตัวอย่าง Python (ไคลเอนต์อย่างเป็นทางการ) — ข้อความ→รูปภาพ:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(หมายเหตุ: ตรวจสอบ API ไคลเอนต์อย่างเป็นทางการเพื่อดูชื่อพารามิเตอร์ที่แน่นอน — ตัวอย่างด้านบนเป็นไปตามรูปแบบในเอกสารของ Google)

2 โทร นาโน บานัน ผ่านจุดสิ้นสุด REST

จุดสิ้นสุด EST (ตัวอย่างข้อความเป็นรูปภาพ): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

ตัวเลือกการตรวจสอบสิทธิ์: ระบุส่วนหัว x-goog-api-key: $CometAPI_API_KEY. (สร้างคีย์ใน CometAPI)

การดำเนินการนี้จะโพสต์ข้อความแจ้งเตือนและบันทึกภาพ base64 ที่ส่งกลับมา:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

หมายเหตุ: ไบนารีของรูปภาพจะถูกส่งคืนเป็น base64 ใน candidates.content.parts.inline_data.data. ตัวอย่างข้างต้นใช้ jq เพื่อเลือกข้อมูลอินไลน์และถอดรหัส เอกสารอย่างเป็นทางการแสดงขั้นตอนการทำงานแบบเดียวกัน

ฉันจะเรียก Nano Banana โดยใช้ Gemini อย่างเป็นทางการได้อย่างไร generateContent อินเทอร์เฟซภาพต่อภาพ (Base64 เข้า/ออก)

คุณควรใช้ image-to-image (base64 เข้า/ออก) เมื่อใด?

ใช้ภาพต่อภาพเมื่อคุณต้องการ:

  • แก้ไขรูปภาพที่มีอยู่ (การทาสีใหม่ การถ่ายโอนสไตล์ การแทนที่วัตถุ)
  • รวมภาพต้นฉบับหลายภาพเข้าเป็นองค์ประกอบเดียว
  • รักษาเอกลักษณ์ของเรื่องไว้ตลอดการแก้ไข (ซึ่งเป็นจุดแข็งอย่างหนึ่งของ Nano Banana)

ราศีเมถุน generateContent รองรับข้อมูลภาพแบบอินไลน์ผ่าน Base64 (หรือเป็น URI ของไฟล์) และส่งคืนภาพที่สร้างหรือแก้ไขเป็นสตริง Base64 เอกสารมีตัวอย่างที่ชัดเจนสำหรับการให้ inline_data สีสดสวย mime_type และ data.

ขั้นตอนการกระจาย/การโทร (ภาพต่อภาพ)

  1. เตรียมการ รูปภาพอินพุต: อ่านไบต์ไฟล์ เข้ารหัส Base64 หรือส่งไบต์ดิบผ่านตัวช่วย SDK
  2. สร้าง a contents อาร์เรย์ซึ่งส่วนหนึ่งเป็นภาพอินไลน์ (ด้วย mimeType และ data) และส่วนที่ตามมาประกอบด้วยคำแนะนำการแก้ไขข้อความ
  3. POST ไปยัง generateContent (SDK อย่างเป็นทางการหรือ REST)
  4. รับ การตอบสนอง: API ส่งคืนรูปภาพที่สร้าง/แก้ไขแล้วซึ่งเข้ารหัสเป็นสตริง Base64 ถอดรหัสและบันทึกไว้ในเครื่อง

ตัวอย่าง — Python (ภาพต่อภาพโดยใช้ไบต์อินไลน์ผ่าน GenAI SDK)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

ตัวอย่าง Python: image→image โดยใช้ Base64 ผ่านจุดพัก

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

หากคุณต้องการเข้าถึงโดยใช้พอร์ต REST ของ CometAPI:

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

สำหรับอินไลน์: อ่านรูปภาพและเข้ารหัสแบบ base64 สำหรับการใช้งานซ้ำหรือ >20MB ให้อัปโหลดผ่าน File API และอ้างอิงตัวจัดการไฟล์ใน generateContentเหมาะที่สุดสำหรับการแก้ไขที่แม่นยำและเวิร์กโฟลว์ที่ต้องใช้รูปภาพอินพุตพร้อมคำแนะนำการแก้ไขแบบข้อความ

เคล็ดลับดีๆ ในการใช้ Nano Banana มีอะไรบ้าง?

วิศวกรรมและการควบคุมที่รวดเร็ว

  1. มีความชัดเจน: รวมถึงอัตราส่วนภาพที่ต้องการ การอ้างอิงสไตล์ (ระบุชื่อศิลปินหากได้รับอนุญาต) เลนส์กล้อง แสง และองค์ประกอบภาพ เช่น “ภาพที่สมจริง 3:2 ระยะชัดตื้น ชั่วโมงทอง เลนส์ Nikon 50 มม.”
  2. ใช้การแก้ไขต่อเนื่อง: เลือกใช้การแก้ไขเฉพาะจุดขนาดเล็กที่ทำซ้ำหลายๆ ครั้ง แทนที่จะใช้การตัดต่อแบบช็อตเดียวขนาดใหญ่ ซึ่งจะช่วยรักษาความสม่ำเสมอของวัตถุ จุดแข็งของ Nano Banana คือการแก้ไขแบบวนซ้ำ

สุขอนามัยของภาพลักษณ์

  • อินพุตก่อนประมวลผล: ปรับมาตรฐานพื้นที่สี ลบ EXIF ​​ที่ฝังไว้หากต้องการความเป็นส่วนตัว ปรับขนาดเป็นความละเอียดที่เหมาะสมเพื่อบันทึกโทเค็น
  • ผลลัพธ์หลังการประมวลผล: รันการตรวจจับใบหน้า ล้างสิ่งแปลกปลอมเล็กๆ น้อยๆ ผ่านฟิลเตอร์น้ำหนักเบา (หมอน/คม) ก่อนส่งคืนให้กับผู้ใช้

นโยบายด้านความปลอดภัย การปฏิบัติตามข้อกำหนด และเนื้อหา

  • ดำเนินการตรวจสอบความปลอดภัยของเนื้อหาอัตโนมัติ (รูปแบบการควบคุมวิสัยทัศน์หรือการตรวจสอบบัญชีดำ) ก่อนที่จะจัดเก็บ/ให้บริการรูปภาพ
  • หากอัปโหลดรูปภาพของบุคคล โปรดปฏิบัติตามกฎหมายความเป็นส่วนตัวที่บังคับใช้ (GDPR/CCPA) และรับความยินยอมที่จำเป็น
  • เคารพนโยบายการใช้งานโมเดลและกฎลิขสิทธิ์เมื่อขอตัวละครที่มีลิขสิทธิ์หรือผลงานศิลปะที่มีอยู่

ปิดบันทึก

Nano Banana (Gemini 2.5 Flash Image) ถือเป็นขั้นตอนที่เน้นความเที่ยงตรงสูงและใช้งานได้จริงสำหรับการสร้างและแก้ไขภาพแบบหลายโหมด โดยได้รับการออกแบบมาเพื่อให้มีความสอดคล้องกันระหว่างการแก้ไขและการให้เหตุผลแบบหลายโหมดที่สมบูรณ์ยิ่งขึ้น Nano Banana (Gemini 2.5 Flash Image) เป็นขั้นตอนสำคัญในการสร้าง/แก้ไขภาพ โดยให้ความสอดคล้องกันสูงสำหรับการแก้ไขหลายขั้นตอนและพื้นผิวการรวมหลายแบบ (เกตเวย์ที่เข้ากันได้กับ OpenAI เช่น CometAPI และ Google generateContent API) เพื่อเพิ่มความเร็วในการนำไปใช้งาน เกตเวย์เช่น CometAPI ช่วยให้คุณใช้โค้ดสไตล์ OpenAI ซ้ำได้ ตรวจสอบความถูกต้องของคำตอบ ปฏิบัติตามนโยบายเนื้อหาและคุณลักษณะที่มา (SynthID) และตรวจสอบต้นทุนระหว่างการวนซ้ำอยู่เสมอ

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ ภาพแฟลช Gemini 2.5(รายการ Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image รายการสไตล์ในแคตตาล็อกของพวกเขา) ผ่าน CometAPI รุ่นล่าสุดที่ระบุไว้เป็นข้อมูล ณ วันที่เผยแพร่บทความ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

SHARE THIS BLOG

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%