วิธีการใช้ Nano Banana Pro (Gemini 3 Pro Image) API?

CometAPI
AnnaDec 10, 2025
วิธีการใช้ Nano Banana Pro (Gemini 3 Pro Image) API?

Nano Banana Pro — อย่างเป็นทางการ เจมินี่ 3 โปร อิมเมจ — คือโมเดลการสร้างและแก้ไขภาพระดับสตูดิโอใหม่ของ Google/DeepMind ที่ผสมผสานการใช้เหตุผลหลายโหมดขั้นสูง การเรนเดอร์ข้อความที่มีความเที่ยงตรงสูง การจัดองค์ประกอบภาพหลายภาพ และการควบคุมสร้างสรรค์ระดับสตูดิโอ

Nano Banana Pro คืออะไร และทำไมคุณจึงควรสนใจ?

Nano Banana Pro คือโมเดลการสร้างและแก้ไขภาพใหม่ล่าสุดของ Google — รุ่น “Gemini 3 Pro Image” — ออกแบบมาเพื่อสร้างภาพที่มีความเที่ยงตรงสูง รับรู้บริบท และข้อความบนภาพ ด้วยคุณภาพระดับสตูดิโอสูงสุด 4K Nano Banana Pro พัฒนาต่อยอดจากโมเดล Nano Banana รุ่นก่อนหน้า (Gemini 2.5 Flash Image / “Nano Banana”) ด้วยการใช้เหตุผลที่ดีขึ้น การค้นหาพื้นฐาน (ข้อเท็จจริงในโลกแห่งความเป็นจริง) การเรนเดอร์ข้อความที่แข็งแกร่งขึ้น และการควบคุมการแก้ไขเฉพาะจุดที่มีประสิทธิภาพยิ่งขึ้น โมเดลนี้พร้อมใช้งานภายในแอป Gemini สำหรับผู้ใช้แบบอินเทอร์แอคทีฟ และเข้าถึง Nano Banana Pro ได้ผ่าน Gemini API มาตรฐาน แต่คุณสามารถเลือกตัวระบุโมเดลเฉพาะได้ (gemini-3-pro-image-preview หรือผู้สืบทอดที่มั่นคง) สำหรับการเข้าถึงโปรแกรม

เหตุใดสิ่งนี้จึงสำคัญ: Nano Banana Pro ถูกสร้างขึ้นไม่เพียงเพื่อสร้างภาพที่สวยงามเท่านั้น แต่ยังเพื่อ เห็นภาพข้อมูล — อินโฟกราฟิก, สแนปช็อตที่ขับเคลื่อนด้วยข้อมูล (สภาพอากาศ กีฬา), โปสเตอร์ที่เน้นข้อความ, แบบจำลองผลิตภัณฑ์ และการรวมภาพหลายภาพ (ภาพอินพุตสูงสุด 14 ภาพ และรักษาความสอดคล้องของตัวละครได้สูงสุด 5 คน) สำหรับนักออกแบบ ทีมผลิตภัณฑ์ และนักพัฒนา การผสมผสานระหว่างความแม่นยำ ข้อความบนภาพ และการเข้าถึงโปรแกรม จะช่วยเปิดเวิร์กโฟลว์การผลิตที่ก่อนหน้านี้ยากต่อการทำให้เป็นระบบอัตโนมัติ

มีฟังก์ชั่นอะไรบ้างที่เปิดเผยผ่าน API?

ความสามารถทั่วไปของ API ที่เปิดให้นักพัฒนาได้แก่:

  • ข้อความ → การสร้างภาพ (กระบวนการเรียบเรียงแบบ “คิด” ขั้นตอนเดียวหรือหลายขั้นตอน)
  • แก้ไขภาพ (หน้ากากท้องถิ่น การทาสีใหม่ การปรับแต่งสไตล์)
  • การรวมภาพหลายภาพ (รวมภาพอ้างอิง)
  • การควบคุมคำขอขั้นสูง:ความละเอียด อัตราส่วนภาพ ขั้นตอนหลังการประมวลผล และร่องรอย "ความคิดในการจัดองค์ประกอบ" สำหรับการดีบัก/การตรวจสอบในโหมดการแสดงตัวอย่าง

นวัตกรรมหลักและฟังก์ชันของ Nano Banana Pro

การใช้เหตุผลเนื้อหาที่ชาญฉลาดยิ่งขึ้น

ใช้ชุดเหตุผลของ Gemini 3 Pro เพื่อตีความคำสั่งภาพที่ซับซ้อนและมีหลายขั้นตอน (เช่น "สร้างอินโฟกราฟิก 5 ขั้นตอนจากชุดข้อมูลนี้และเพิ่มคำบรรยายสองภาษา") API นำเสนอกลไก "การคิด" ที่สามารถสร้างการทดสอบองค์ประกอบระหว่างกาลเพื่อปรับแต่งผลลัพธ์สุดท้าย

ทำไมมันเรื่อง: แทนที่จะใช้การแมปแบบครั้งเดียวเพื่อระบุพิกเซล แบบจำลองจะดำเนินการ "คิด" ภายในเพื่อปรับแต่งองค์ประกอบ และสามารถเรียกใช้เครื่องมือภายนอก (เช่น Google Search) เพื่อระบุข้อเท็จจริง (เช่น ป้ายไดอะแกรมที่ถูกต้อง หรือป้ายบอกทางที่ถูกต้องตามตำแหน่ง) วิธีนี้ทำให้ได้ภาพที่ไม่เพียงสวยงามขึ้นเท่านั้น แต่ยังถูกต้องตามความหมายมากขึ้นสำหรับงานต่างๆ เช่น อินโฟกราฟิก ไดอะแกรม หรือแบบจำลองผลิตภัณฑ์

วิธีการบรรลุผล: “Thinking” ของ Nano Banana Pro คือกระบวนการคิดเชิงเหตุผล/การจัดองค์ประกอบภายในแบบควบคุม ซึ่งโมเดลจะสร้างภาพกลางและร่องรอยการให้เหตุผลก่อนสร้างภาพสุดท้าย API ระบุว่าโมเดลสามารถสร้างเฟรมกลางได้สูงสุดสองเฟรม และภาพสุดท้ายจะเป็นขั้นตอนสุดท้ายของเชนนั้น ในกระบวนการสร้าง สิ่งนี้จะช่วยในการจัดองค์ประกอบ การจัดวางข้อความ และการตัดสินใจเกี่ยวกับเค้าโครง

การแสดงผลข้อความที่แม่นยำยิ่งขึ้น

ปรับปรุงข้อความภายในภาพ (เมนู โปสเตอร์ แผนผัง) ให้อ่านง่ายและชัดเจนขึ้นอย่างเห็นได้ชัด Nano Banana Pro บรรลุระดับใหม่ในการแสดงผลข้อความในภาพ:

  • ข้อความในภาพมีความชัดเจน อ่านออก และสะกดถูกต้อง
  • รองรับการสร้างหลายภาษา (รวมถึงจีน ญี่ปุ่น เกาหลี อาหรับ ฯลฯ)
  • ช่วยให้ผู้ใช้สามารถเขียนย่อหน้ายาวๆ หรือข้อความบรรยายหลายบรรทัดลงในรูปภาพได้โดยตรง
  • มีการแปลและปรับท้องถิ่นอัตโนมัติ

ทำไมมันเรื่อง: โดยทั่วไปแล้ว โมเดลภาพมักจะมีปัญหาในการแสดงผลข้อความที่อ่านง่ายและจัดวางตำแหน่งได้ดี Nano Banana Pro ได้รับการปรับแต่งมาโดยเฉพาะเพื่อการเรนเดอร์และปรับตำแหน่งข้อความ (เช่น การแปลและรักษาเค้าโครง) ที่เชื่อถือได้ ซึ่งช่วยปลดล็อกกรณีการใช้งานที่สร้างสรรค์อย่างแท้จริง เช่น โปสเตอร์ บรรจุภัณฑ์ หรือโฆษณาหลายภาษา

วิธีการบรรลุผล: การปรับปรุงการแสดงผลข้อความมาจากสถาปัตยกรรมมัลติโมดัลพื้นฐานและการฝึกอบรมชุดข้อมูลที่เน้นตัวอย่างข้อความในภาพ ร่วมกับชุดการประเมินเป้าหมาย (การประเมินโดยมนุษย์และชุดการถดถอย) แบบจำลองจะเรียนรู้การจัดตำแหน่งรูปร่างสัญลักษณ์ ฟอนต์ และข้อจำกัดของเค้าโครง เพื่อสร้างข้อความที่อ่านง่ายและชัดเจนภายในภาพ แม้ว่าข้อความขนาดเล็กและย่อหน้าที่หนาแน่นมากอาจยังมีโอกาสเกิดข้อผิดพลาดได้

ความสม่ำเสมอและความเที่ยงตรงของภาพที่แข็งแกร่งยิ่งขึ้น

การควบคุมในสตูดิโอ (แสง โฟกัส มุมกล้อง การไล่ระดับสี) และการจัดองค์ประกอบภาพหลายภาพ (ภาพอ้างอิงสูงสุด 14 ภาพ พร้อมการอนุญาตพิเศษสำหรับวัตถุที่มีคนมากกว่าหนึ่งคน) ช่วยรักษาความสม่ำเสมอของตัวละคร (รักษาบุคคล/ตัวละครเดียวกันตลอดการตัดต่อ) และรักษาเอกลักษณ์ของแบรนด์ในองค์ประกอบที่สร้างขึ้น โมเดลนี้รองรับเอาต์พุตเนทีฟ 1K/2K/4K

ทำไมมันเรื่อง: เวิร์กโฟลว์การตลาดและความบันเทิงจำเป็นต้องมีตัวละครที่สอดคล้องกันในทุกช็อตและการตัดต่อ นางแบบสามารถรักษาความคล้ายคลึงได้นานถึง ห้า คนและผสมผสานเข้าด้วยกัน 14 การนำภาพอ้างอิงมาประกอบเป็นองค์ประกอบเดียวขณะสร้าง Sketch → 3D Render ซึ่งมีประโยชน์สำหรับการสร้างสรรค์โฆษณา บรรจุภัณฑ์ หรือการเล่าเรื่องแบบหลายช็อต

วิธีการบรรลุผล: อินพุตของโมเดลจะยอมรับรูปภาพหลายภาพที่มีการกำหนดบทบาทอย่างชัดเจน (เช่น "รูปภาพ A: ท่าทาง", "รูปภาพ B: การอ้างอิงใบหน้า", "รูปภาพ C: พื้นผิวพื้นหลัง") สถาปัตยกรรมกำหนดเงื่อนไขการสร้างภาพเหล่านั้นเพื่อรักษาเอกลักษณ์/ท่าทาง/สไตล์ พร้อมกับใช้การแปลง (แสง กล้อง)

เกณฑ์มาตรฐานประสิทธิภาพของ Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “โดดเด่นในด้าน Text→Image AI benchmarks” และแสดงให้เห็นถึงการใช้เหตุผลและการวิเคราะห์บริบทที่ดีขึ้นเมื่อเทียบกับ Nano Banana รุ่นก่อนหน้า เน้นย้ำถึงความเที่ยงตรงที่สูงขึ้นและการแสดงผลข้อความที่ดีขึ้นเมื่อเทียบกับรุ่นก่อนหน้า

วิธีการใช้ Nano Banana Pro (Gemini 3 Pro Image) API?

คำแนะนำการปฏิบัติงานจริง

คาดหวัง เวลาแฝงที่สูงขึ้น และมีค่าใช้จ่ายสำหรับการเรนเดอร์ความละเอียดสูง 2K/4K เมื่อเทียบกับ 1K หรือรุ่น "Flash" ที่ปรับแต่งให้เหมาะสมกับความเร็ว หากปริมาณงาน/ความหน่วงเป็นสิ่งสำคัญ ให้ใช้รุ่นแฟลช (เช่น Gemini 2.5 Flash / Nano Banana) สำหรับปริมาณงานสูง และใช้ Nano Banana Pro / gemini-3-pro-image สำหรับคุณภาพและงานวิเคราะห์เชิงเหตุผลที่ซับซ้อน

นักพัฒนาสามารถเข้าถึง Nano Banana Pro ได้อย่างไร?

จุดสิ้นสุดและโมเดลใดที่จะเลือก

รหัสรุ่น (ตัวอย่าง / โปร): gemini-3-pro-image-preview (ตัวอย่าง) — ใช้สิ่งนี้เมื่อคุณต้องการความสามารถของ Nano Banana Pro สำหรับงานที่รวดเร็วและต้นทุนต่ำ gemini-2.5-flash-image (กล้วยนาโน) ยังคงมีวางจำหน่าย

พื้นผิวที่จะใช้

  • Gemini API (จุดสิ้นสุดภาษากำเนิด): คุณสามารถใช้คีย์ CometAPI เพื่อเข้าถึง xx ได้ CometAPI นำเสนอ API เดียวกันในราคาที่ถูกกว่าเว็บไซต์อย่างเป็นทางการ เรียกใช้ HTTP / SDK โดยตรง generateContent เพื่อการสร้างภาพ (ตัวอย่างด้านล่าง)
  • Google AI สตูดิโอ: พื้นผิวเว็บสำหรับการทดลองอย่างรวดเร็วและรีมิกซ์แอพสาธิต
  • Vertex AI (องค์กร): ทรูพุตที่จัดเตรียมไว้ ตัวเลือกการเรียกเก็บเงิน (แบบจ่ายตามการใช้งาน/ระดับองค์กร) และตัวกรองความปลอดภัยสำหรับการผลิตขนาดใหญ่ ใช้ Vertex เมื่อผสานรวมเข้ากับกระบวนการขนาดใหญ่หรืองานเรนเดอร์แบบกลุ่ม

ระดับฟรีมีขีดจำกัดการใช้งานที่จำกัด หากเกินขีดจำกัดดังกล่าวจะกลับไปเป็น Nano Banana ระดับ Plus/Pro/Ultra มีขีดจำกัดที่สูงกว่าและเอาต์พุตแบบไม่มีลายน้ำ แต่ระดับ Ultra สามารถใช้กับเครื่องมือวิดีโอ Flow และ Antigravity IDE ในโหมด 4K ได้

ฉันจะสร้างภาพด้วย Nano Banana Pro ได้อย่างไร (ทีละขั้นตอน)

1) สูตรอาหารโต้ตอบรวดเร็วโดยใช้แอป Gemini

  1. เปิด Gemini → เครื่องมือ → สร้างภาพ.
  2. เลือก คิด (นาโน บานาน่า โปร) เป็นแบบจำลอง
  3. ป้อนคำสั่ง: อธิบายหัวเรื่อง การกระทำ อารมณ์ แสง กล้อง อัตราส่วนภาพ และข้อความใดๆ ที่ต้องการให้ปรากฏบนภาพ ตัวอย่าง:
    “สร้างโปสเตอร์ 4K ของเวิร์กช็อปหุ่นยนต์: ทีมงานที่มีความหลากหลายรอบโต๊ะ ซ้อนทับแบบแปลน หัวเรื่องที่โดดเด่น 'หุ่นยนต์ในปฏิบัติการ' ในแบบไม่มีเซอริฟ แสงทังสเตนที่อบอุ่น ระยะชัดตื้น อัตราส่วน 16:9 แบบภาพยนตร์”
  4. (ไม่บังคับ) อัปโหลดภาพได้สูงสุด 14 ภาพเพื่อรวมหรือใช้เป็นข้อมูลอ้างอิง ใช้เครื่องมือเลือก/มาสก์เพื่อแก้ไขเฉพาะพื้นที่
  5. สร้าง ทำซ้ำด้วยภาษาธรรมชาติ (เช่น "ทำให้หัวเรื่องเป็นสีน้ำเงินและจัดตำแหน่งให้ตรงกลางด้านบน เพิ่มความคมชัดบนบลูพริ้นท์") จากนั้นส่งออก

2) ใช้ HTTP เพื่อส่งไปยังจุดสิ้นสุดของภาพ Gemini

คุณต้องเข้าสู่ระบบ CometAPI เพื่อรับรหัส

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

ตัวอย่างนี้จะเขียนข้อมูลภาพ base64 ลงในไฟล์ PNG generationConfig.imageConfig.resolution พารามิเตอร์ร้องขอเอาต์พุต 4K (มีให้สำหรับรุ่น 3 Pro Image)

3) เรียก SDK โดยตรงไปที่ generateContent เพื่อการสร้างภาพ

ต้องติดตั้ง Google SDK และขอรับการรับรองความถูกต้องจาก Google ตัวอย่าง Python (ข้อความ + รูปภาพอ้างอิง + พื้นฐาน):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

ตัวอย่างนี้แสดงการอัปโหลดภาพอ้างอิงแบบอินไลน์และการร้องขอองค์ประกอบ 4K ขณะเปิดใช้งาน google_search เป็นเครื่องมือ Python SDK จะจัดการรายละเอียด REST ระดับต่ำ

การรวมภาพหลายภาพและความสอดคล้องของตัวละคร

ในการผลิตคอมโพสิตที่เก็บรักษาบุคคลเดียวกันไว้ในแต่ละฉาก ให้ผ่าน หลาย inline_data ส่วนต่างๆ (ที่เลือกจากชุดภาพถ่ายของคุณ) และระบุคำแนะนำสร้างสรรค์ที่ว่านางแบบควร "รักษาเอกลักษณ์ไว้ในผลลัพธ์ต่างๆ"

ตัวอย่างการปฏิบัติจริงสั้นๆ — การแจ้งเตือนและการไหลที่คาดหวัง

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

ท่อส่งที่คาดหวัง: แอป → เทมเพลตพร้อมท์ + ข้อมูล CSV → แทนที่ตัวแทนในพร้อมท์ → เรียก API ด้วย image_size=2048x1152 → รับ base64 PNG → บันทึกทรัพยากร + ข้อมูลเมตาที่มา → สามารถเลือกซ้อนแบบอักษรที่แน่นอนผ่านคอมโพสิเตอร์ได้หากจำเป็น

ฉันควรออกแบบท่อผลิตและจัดการด้านความปลอดภัย/แหล่งที่มาอย่างไร

สถาปัตยกรรมการผลิตที่แนะนำ

  1. แจ้งเตือน + ร่างผ่าน (รุ่นเร็ว): ใช้ gemini-2.5-flash-image (กล้วยนาโน) เพื่อผลิตตัวแปรความละเอียดเล็ก ๆ จำนวนมากในราคาถูก
  2. การคัดเลือกและการปรับปรุง: เลือกผู้สมัครที่ดีที่สุด ปรับแต่งคำเตือน ปรับแต่งการลงสี/แก้ไขหน้ากากเพื่อความแม่นยำ
  3. การเรนเดอร์ขั้นสุดท้ายที่มีความเที่ยงตรงสูง: โทรศัพท์ gemini-3-pro-image-preview (Nano Banana Pro) สำหรับการเรนเดอร์ 2K/4K ขั้นสุดท้ายและการประมวลผลหลังการถ่าย (การอัปแซมปลิง การปรับเกรดสี)
  4. ที่มาและข้อมูลเมตา: ข้อมูลพรอมต์ร้านค้า เวอร์ชันโมเดล ไทม์สแตมป์ และข้อมูล SynthID ในที่เก็บข้อมูลเมตาของสินทรัพย์ของคุณ — โมเดลจะแนบลายน้ำ SynthID และสามารถตรวจสอบผลลัพธ์ย้อนหลังได้เพื่อความสอดคล้องและการตรวจสอบเนื้อหา

ความปลอดภัย สิทธิ และความพอประมาณ

  • การอนุญาตลิขสิทธิ์และสิทธิ์: ห้ามอัปโหลดหรือสร้างเนื้อหาที่ละเมิดสิทธิ์ ใช้การยืนยันจากผู้ใช้อย่างชัดเจนสำหรับรูปภาพที่ผู้ใช้ให้มา หรือข้อความแจ้งเตือนที่อาจสร้างภาพเหมือนที่จดจำได้ ต้องปฏิบัติตามนโยบายห้ามใช้และตัวกรองความปลอดภัยของโมเดลของ Google
  • การกรองและการตรวจสอบอัตโนมัติ: เรียกใช้ภาพที่สร้างขึ้นผ่านกระบวนการกลั่นกรองเนื้อหาภายใน (NSFW, สัญลักษณ์แสดงความเกลียดชัง, การตรวจจับเนื้อหาทางการเมือง/การผูกมัด) ก่อนการใช้งานในภายหลังหรือการแสดงต่อสาธารณะ

ฉันจะแก้ไขรูปภาพ (การลงสีใหม่) การจัดองค์ประกอบหลายภาพ และการเรนเดอร์ข้อความได้อย่างไร

Nano Banana Pro รองรับเวิร์กโฟลว์การแก้ไขแบบหลายโหมด: ป้อนรูปภาพอินพุตอย่างน้อยหนึ่งรูปและคำสั่งข้อความอธิบายการแก้ไข (ลบวัตถุ เปลี่ยนท้องฟ้า เพิ่มข้อความ) API ยอมรับรูปภาพและข้อความในคำขอเดียวกัน โมเดลสามารถสร้างข้อความและรูปภาพแบบสลับกันเป็นคำตอบได้ ตัวอย่างแพทเทิร์นประกอบด้วยการแก้ไขแบบปิดบังและการผสมผสานรูปภาพหลายภาพ (การถ่ายโอนสไตล์/การจัดองค์ประกอบ) ดูเอกสารประกอบ contents อาร์เรย์ที่รวมข้อความแบบบล็อบและรูปภาพแบบไบนารี

ตัวอย่าง: แก้ไข (Python pseudo-flow)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

การแก้ไขแบบสนทนานี้ช่วยให้คุณปรับผลลัพธ์ซ้ำๆ จนกว่าจะถึงสินทรัพย์ที่พร้อมสำหรับการผลิต

ตัวอย่าง Node.js — การแก้ไขรูปภาพด้วยมาสก์และการอ้างอิงหลายรายการ

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(บางครั้ง API ยอมรับ URI ที่เก็บข้อมูลบน Cloud หรือเพย์โหลดภาพ base64 โปรดตรวจสอบเอกสาร API ของ Gemini เพื่อดูรูปแบบอินพุตที่แน่นอน)

สำหรับข้อมูลเกี่ยวกับการสร้างและแก้ไขรูปภาพโดยใช้ CometAPI โปรดดูที่ คู่มือการเรียกใช้งาน gemini-3-pro-image .

สรุป

Nano Banana Pro (Gemini 3 Pro Image) คือการพัฒนาขั้นสูงสุดของการสร้างภาพ: เครื่องมือสำหรับการแสดงข้อมูล การแก้ไขเฉพาะพื้นที่ และการขับเคลื่อนเวิร์กโฟลว์ของนักพัฒนา ใช้แอป Gemini สำหรับการสร้างต้นแบบอย่างรวดเร็ว ใช้ API สำหรับการผสานรวมระบบการผลิต และปฏิบัติตามคำแนะนำข้างต้นเพื่อควบคุมต้นทุน รับรองความปลอดภัย และรักษาคุณภาพของแบรนด์ ทดสอบเวิร์กโฟลว์ของผู้ใช้จริงอยู่เสมอ และจัดเก็บข้อมูลเมตาดาต้าแหล่งที่มาเพื่อให้เป็นไปตามข้อกำหนดด้านความโปร่งใสและการตรวจสอบ

ใช้ Nano Banana Pro เมื่อคุณต้องการ คุณภาพระดับสตูดิโอ สินทรัพย์ การควบคุมที่แม่นยำเหนือองค์ประกอบ การแสดงผลข้อความภายในภาพที่ได้รับการปรับปรุง และความสามารถในการรวมการอ้างอิงหลายรายการให้เป็นผลลัพธ์ที่สอดคล้องกัน

นักพัฒนาสามารถเข้าถึงได้ API ของ Gemini 3 Pro Image (Nano Banana Pro) ผ่าน CometAPI เริ่มต้นด้วยการสำรวจความสามารถของโมเดลโคเมทเอพีไอ ที่ สนามเด็กเล่น และดูคำแนะนำโดยละเอียดในคู่มือ API ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว ด้วยetAPI เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

พร้อมไปหรือยัง?→ ลงทะเบียน CometAPI วันนี้ !

หากคุณต้องการทราบเคล็ดลับ คำแนะนำ และข่าวสารเกี่ยวกับ AI เพิ่มเติม โปรดติดตามเราที่ VKX และ ไม่ลงรอยกัน!

SHARE THIS BLOG

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%