คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

CometAPI
AnnaDec 10, 2025
คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

การเปิดตัวล่าสุดของ Google ภาพแฟลช Gemini 2.5 — มีชื่อเล่นว่า “Nano-Banana” กลายเป็นเครื่องมือยอดนิยมสำหรับการแก้ไขภาพแบบสนทนาอย่างรวดเร็ว เพราะช่วยรักษาความเหมือนกันของภาพในการแก้ไขแต่ละครั้ง ผสานภาพหลายภาพเข้าด้วยกันอย่างแนบเนียน และรองรับการแก้ไขเฉพาะจุดแบบธรรมชาติ ต่อไปนี้ผมจะอธิบาย Nano Banana คืออะไร และวิธีใช้ผ่าน ราศีเมถุนของ Google และผ่านทาง **การเข้าถึงของบุคคลที่สาม (เช่น CometAPI)**ยกตัวอย่างคำแนะนำและโค้ดที่เป็นรูปธรรมที่คุณสามารถนำไปใช้ในโปรเจกต์ได้ และแบ่งปันเคล็ดลับสำหรับนักพัฒนาในการแก้ไขแบบหลายรอบ การอัปสเกล และคำแนะนำขั้นสูง ผมเขียนบทความนี้ในฐานะนักพัฒนาที่ใช้โมเดลภาพทุกวัน ลองคิดดูว่านี่เป็นคู่มือที่ใช้งานได้จริงและค่อนข้างมีอคติบ้าง

นาโนกล้วยคืออะไร?

“Gemini 2.5 Flash Image / Nano-Banana” จริงๆ แล้วหมายถึงอะไร?

นาโนกล้วย คือชื่อเล่น/ชื่อรหัสของชุมชน ภาพแฟลช Gemini 2.5โมเดลการสร้างและแก้ไขภาพล่าสุดของ Google DeepMind ได้รับการออกแบบมาเพื่อ แจ้งเตือนก่อน การแก้ไข (คุณให้คำแนะนำเป็นภาษาธรรมชาติ) โดยเน้นเป็นพิเศษที่ ความสม่ำเสมอของตัวละคร (ให้บุคคล/สัตว์เลี้ยง/วัตถุเดียวกันมองเห็นได้ชัดเจนในการแก้ไข) การรวมภาพหลายภาพ (การผสมผสานวัตถุต่างๆ ในภาพต้นฉบับ) และการใช้งานแบบโต้ตอบที่มีความล่าช้าต่ำในแอปต่างๆ เช่น Gemini และ Google AI Studio โดยโมเดลดังกล่าวมีให้ใช้งานผ่าน Gemini API ของ Google หรือ AI Studio และขณะนี้มีอยู่ใน CometAPI แล้ว

ในฐานะนักพัฒนา ให้คิดว่า Nano-Banana ไม่ใช่เป็นเพียงเครื่องสร้างภาพแบบ "เริ่มต้น" เท่านั้น แต่เป็นเครื่องที่มีความสามารถสูง ผู้ช่วยแก้ไขและจัดองค์ประกอบภาพ:ระบบจะเข้าใจเนื้อหาในภาพของคุณ จดจำวัตถุที่แก้ไขได้ตลอด และตอบสนองต่อคำสั่งภาษาธรรมชาติในรูปแบบที่สอดคล้องกับวงจรการออกแบบแบบวนซ้ำที่รวดเร็ว ซึ่งทำให้ระบบนี้มีประโยชน์อย่างยิ่งสำหรับการจำลองผลิตภัณฑ์ การถ่ายภาพตัวละครที่สอดคล้องกัน การทำซ้ำแนวคิดอย่างรวดเร็ว และการเล่นสร้างสรรค์ทางสังคม

บทสรุปสำหรับนักพัฒนา

  • ชื่อรุ่น: gemini-2.5-flash-image-preview / gemini-2.5-flash-image.
  • ความสม่ำเสมอและความต่อเนื่อง: Nano-Banana สามารถรักษารายละเอียดของตัวละครในการแก้ไขต่างๆ ได้อย่างน่าเชื่อถือมากกว่าคู่แข่งหลายๆ ราย ทำให้เหมาะกว่าสำหรับการแก้ไขแบบต่อเนื่องและการเล่าเรื่อง
  • ความเร็ว: ผู้ใช้รายงานว่าการสร้างอย่างรวดเร็ว—โดยมักจะใช้เวลาไม่เกิน 10 วินาทีสำหรับการแก้ไขหลายๆ ครั้ง—มีประโยชน์สำหรับเวิร์กโฟลว์แบบวนซ้ำ
  • การออกแบบแก้ไขก่อน: ในขณะที่โมเดลต่างๆ มากมายได้รับการปรับให้เหมาะสมสำหรับการสร้างแบบข้อความล้วนๆ UX และ API ของ Nano-Banana เน้นที่การแก้ไข (การแก้ไขแบบช็อตเดียว การรวมภาพหลายภาพ การถ่ายโอนสไตล์)

ฉันจะแก้ไขด้วย Nano-Banana บน CometAPI ได้อย่างไร

CometAPI เป็นตลาด/ตัวหุ้ม API ที่รวบรวมโมเดลต่างๆ มากมาย (รวมถึง Gemini 2.5 Flash Image API (Nano Banana)) อยู่เบื้องหลังจุดสิ้นสุดเดียวที่เข้ากันได้กับ OpenAI หากคุณต้องการสร้างต้นแบบอย่างรวดเร็วหรือหลีกเลี่ยงการจัดเตรียมบัญชี Google Cloud/Vertex สำหรับการทดสอบครั้งแรก CometAPI ก็เป็นสะพานที่ใช้งานได้จริง — คุณจะได้รับคีย์ API เลือก gemini-2.5-flash-image (หรือ gemini-2.5-flash-image-preview ) จากนั้นส่งคำขอคล้ายกับการแก้ไขภาพแบบแชท CometAPI ยังมีตัวอย่างและ ให้คำแนะนำ เพื่อทดลองใช้แบบจำลอง

เหตุใดจึงต้องใช้ CometAPI?

  • คีย์ API เดียวที่จะควบคุมทุกอย่างได้ — ทำให้การทดสอบผู้ให้บริการหลายรายเป็นเรื่องง่าย
  • สลับผู้ให้บริการในการผลิตหากราคาหรือ SLA เปลี่ยนแปลง
  • มีประโยชน์สำหรับทีมที่ต้องการควบคุมระดับบริการ (การจำกัดอัตรา การบันทึกแบบรวมศูนย์)

วิธีเรียกใช้ Nano-Banana (CometAPI) — ตัวอย่างการใช้งานจริง

ด้านล่างนี้เป็นตัวอย่างที่ตรงไปตรงมา แทนที่ YOUR_COMET_KEY และเส้นทางไฟล์ของคุณเอง

CURL — การแก้ไขพื้นฐาน (รูปภาพ + คำสั่ง → รูปภาพที่แก้ไขแล้ว)

ตัวอย่าง:

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "cat"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

**รายละเอียด:**ขั้นแรก ให้แปลงไฟล์ภาพต้นฉบับของคุณเป็นสตริง Base64 และวางไว้ใน inline_data.dataประการที่สอง อย่าใส่คำนำหน้าเช่น data:image/jpeg;base64, . เอาท์พุตยังอยู่ใน candidates.content.parts และรวมถึง:

  • ส่วนข้อความเสริม (คำอธิบายหรือคำเตือน)
  • ส่วนภาพเป็น inline_data (ในกรณีที่ data เป็น Base64 ของภาพเอาต์พุต)

หากคุณเพียงต้องการลองแก้ไขรูปภาพบน Nano-Banana ทาง CometAPI ก็มีเครดิตฟรีให้ผู้ใช้ใหม่ด้วย คุณสามารถทดลองใช้ Nano-Banana ได้ใน Playground หรือใช้ Gemini 2.5 Flash Image API ก็ได้ แต่หากต้องการใช้งานแบบไม่จำกัด คุณสามารถจ่าย 20% จากราคา Gemini ได้

Nano-Banana มีข้อได้เปรียบหลักหลายประการ ได้แก่ ความเหมือนกันที่สม่ำเสมอ การแก้ไขเฉพาะที่ที่ตรงเป้าหมายผ่านภาษาธรรมชาติ และการรวมภาพหลายภาพ

ต่อไป ฉันจะแสดงข้อดีของ Nano-Banana ผ่านกรณีการใช้งานต่างๆ และคุณจะเห็นความมหัศจรรย์ของมัน

ตัวอย่างที่ 1: รวมภาพหลายภาพเป็นภาพตัดปะเดียว

อัพโหลดรูปภาพ:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

ตัวอย่างคำอธิบายอินพุต: นางแบบกำลังโพสท่าและพิงรถ BMW สีชมพู เธอสวมอุปกรณ์ดังต่อไปนี้ ฉากนี้อยู่บนพื้นหลังสีเทาอ่อน เอเลี่ยนสีเขียวเป็นพวงกุญแจและติดอยู่กับกระเป๋าถือสีชมพู นางแบบยังมีนกแก้วสีชมพูอยู่บนไหล่ของเธอด้วย มีปั๊กนั่งอยู่ข้างเธอ สวมปลอกคอสีชมพูและหูฟังสีทอง

ส่งคืน Base64 ที่แปลงกลับเป็นรูปภาพ:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

รหัส:

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

หมายเหตุ: แปลงไฟล์ภาพต้นฉบับของคุณเป็นสตริง Base64 และแทรกเข้าไปใน inline_data.data (ไม่ต้องใส่คำนำหน้าเช่น data:image/jpeg;base64,).

การวิเคราะห์กรณีการใช้งาน: การใช้การผสมผสานภาพหลายภาพช่วยให้นักออกแบบสามารถสร้างสรรค์ผลงานได้มากขึ้น ยกตัวอย่างเช่น นักออกแบบบ้านสามารถรวมภาพเพื่อสร้างภาพเรนเดอร์คร่าวๆ ของเอฟเฟกต์ได้ ผู้บริโภคสามารถรวมภาพร่างกายเต็มตัวเข้ากับสิ่งของที่ต้องการซื้อ เพื่อช่วยในการตัดสินใจว่าจะซื้อหรือไม่ นอกจากนี้ยังสามารถใช้เป็นข้อมูลอ้างอิงสำหรับการผลิตแอนิเมชันและการ์ตูนได้อีกด้วย

ตัวอย่างที่ 2: แก้ไขรูปภาพเพื่อรักษาความคล้ายคลึงกัน

ด้านล่างนี้ฉันจะให้การแก้ไขหลายรอบเพื่อทดสอบนาโนบานาน่า

ขั้นแรกอัพโหลดรูปภาพ:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

ประการที่สอง Prompt: เพิ่มลูกสุนัขลงในสนามหญ้า

Output:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

ในที่สุด Prompt: ใช้ภาพอ้างอิงของตัวละครที่แนบมา เก็บรักษาสุนัขไว้ วางตัวละครไว้ในฉากถนนในเมืองนีออนที่มีฝนตกในตอนกลางคืน รักษาลักษณะใบหน้าให้ตรงกับภาพอ้างอิง

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

การวิเคราะห์กรณีการใช้งาน: จะเห็นได้ว่ามีการรักษาความสม่ำเสมอที่ค่อนข้างสูงในการแก้ไขภาพหลายรอบ

ตัวอย่างที่ 3: การถ่ายโอนสไตล์และการแก้ไขรายละเอียดใบหน้า

อัพโหลดรูปภาพ:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

Prompt: ปรับความคมชัดของใบหน้าเล็กน้อย เพิ่มเกรนฟิล์ม 6% ครอปเป็น 16:9 อย่าเปลี่ยนลักษณะใบหน้า เพิ่มแสงขอบอ่อนๆ ทางด้านขวา

เอาท์พุท:

คู่มือฉบับสมบูรณ์สำหรับ Nano-Banana: วิธีใช้และคำแนะนำสำหรับสิ่งที่ดีที่สุด

กรณีการใช้งานอื่น ๆ ของ Nano-Banana

1) ภาพถ่ายบุคคลขององค์กรและภาพถ่ายบุคคลระดับมืออาชีพ

วิธีใช้: สร้างภาพใบหน้าที่เป็นหนึ่งเดียวกันของแบรนด์ได้อย่างรวดเร็ว (การตลาด LinkedIn ประวัติบริษัท) Nano-Banana ช่วยรักษาความสมจริงของใบหน้าขณะเปลี่ยนชุด พื้นหลัง หรือแสง

คำเตือน — ชุด + แสง (แก้ไข)

Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.

แจ้งเตือน — สลับพื้นหลัง + รีทัช

Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.

2) อีคอมเมิร์ซและการแสดงภาพผลิตภัณฑ์

การใช้งาน: วางผลิตภัณฑ์ไว้ในฉากไลฟ์สไตล์ สร้างภาพผลิตภัณฑ์ที่สอดคล้องกันจากมุมที่แตกต่างกัน หรือแสดงสีที่แตกต่างกัน

การแจ้งเตือน — ผลิตภัณฑ์ในฉาก (การรวมภาพหลายภาพ)

Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.

คำเตือน — ตัวแปรสี (แก้ไข)

Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.

3) เนื้อหาโซเชียลและการตลาดแบบมีอิทธิพล

การใช้งาน: การแก้ไขสไตล์อย่างรวดเร็ว การเปลี่ยนชุด การวางซ้อนตามฤดูกาล หรือการครอบตัดหลายรูปแบบสำหรับแพลตฟอร์มโซเชียล

คำเตือน — การแก้ไขตามฤดูกาลสำหรับฟีดและเรื่องราว

Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.

คำเตือน — รูปแบบโปรโมชันที่ออกแบบอย่างมีสไตล์

Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.

4) ความสอดคล้องของสินทรัพย์ตัวละคร/แบรนด์ (มาสคอต ตัวละครที่กลับมาซ้ำ)

การใช้งาน: รักษาโลโก้ มาสคอต หรือตัวละครให้เหมือนกันในทุกฉาก แคมเปญ หรือตอนต่างๆ

คำเตือน — การบังคับใช้แผ่นข้อมูลตัวละคร

Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.

5) การซ่อมแซมและปรับสีภาพถ่ายประวัติศาสตร์

การใช้งาน: ฟื้นฟูหรือลงสีภาพเก็บถาวรโดยยังคงองค์ประกอบและรายละเอียดใบหน้าที่ละเอียดอ่อนไว้

แจ้งเตือน — ลงสี + ซ่อมแซม

Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.

เทคนิคการแจ้งเตือนขั้นสูงใดบ้างที่ช่วยเพิ่มความน่าเชื่อถือ?

ใช้ จุดยึดอ้างอิง และ ข้อจำกัดระดับไมโคร

หลักอ้างอิงคือข้อมูลสั้นๆ ที่ตรวจสอบได้ ซึ่งคุณเพิ่มเข้าไปเพื่อลดความกำกวม เช่น ชื่อเสื้อผ้าที่ตรงกัน ("เสื้อเบลเซอร์สีกรมท่า, กระดุมแถวเดียว, ปกแหลม") ข้อมูลอ้างอิงเกี่ยวกับแสง ("แสงแบบ Rembrandt") หรือคำศัพท์เฉพาะของกล้อง ("เลนส์พอร์ตเทรต 50 มม., f/2.8") ข้อจำกัดเล็กๆ น้อยๆ จะบอกนางแบบว่าห้ามเปลี่ยนแปลงอะไร (เช่น "ห้ามแก้ไขรอยสักที่ปลายแขนขวา") สิ่งเหล่านี้จะลดอิสระของนางแบบลงอย่างมีประสิทธิผล และโดยทั่วไปแล้วจะช่วยปรับปรุงความเที่ยงตรงของผลลัพธ์

วงจรการวนซ้ำ: ถาม ประเมิน ปรับปรุง

  1. รอบแรก: ใช้คำเตือนที่ชัดเจนแต่กระชับ
  2. ประเมินผล: จดบันทึกสิ่งที่โมเดลทำผิดพลาด (เช่น เปลี่ยนรูปหน้า ทำอุปกรณ์เสริมหาย)
  3. การแก้ไขแบบกำหนดเป้าหมาย: ส่งคำกระตุ้นสั้นๆ เพื่อติดตามผล โดยอ้างอิงผลลัพธ์ก่อนหน้า ("เก็บทุกอย่างจากผลลัพธ์ล่าสุดไว้ แต่คงต่างหูข้างซ้ายเดิมไว้ และทำให้คิ้วหนาขึ้น") จุดแข็งในการแก้ไขแบบสนทนาของ Nano-Banana ช่วยให้คุณฟื้นตัวได้อย่างรวดเร็ว

การแก้ไขแบบต่อเนื่องสำหรับการเปลี่ยนแปลงที่ซับซ้อน

สำหรับการแก้ไขขนาดใหญ่ ให้แบ่งงานออกเป็นชุดคำสั่งย่อยๆ หลายๆ ชุด แทนที่จะแยกเป็นชุดคำสั่งขนาดใหญ่ชุดเดียว ตัวอย่างชุดคำสั่ง: (1) เปลี่ยนพื้นหลัง → (2) อัปเดตชุด → (3) ปรับระดับสี → (4) รีทัชขั้นสุดท้าย วิธีนี้จะช่วยให้แต่ละคำสั่งทำงานได้อย่างมีประสิทธิภาพและลดผลกระทบที่ไม่คาดคิด

ฉันควรสร้างโครงสร้างคำกระตุ้นสำหรับ Nano-Banana อย่างไร (กายวิภาคของคำกระตุ้น)

การกระตุ้นด้วยภาพที่ดีควรมีโครงสร้างที่สอดคล้องกัน ใช้สิ่งต่อไปนี้ กายวิภาคแบบเร่งด่วน เพื่อให้ได้ผลลัพธ์ที่แม่นยำและทำซ้ำได้:

กายวิภาคแบบเร่งด่วน (ลำดับที่แนะนำ)

  1. การกระทำ / เป้าหมาย — คุณต้องการให้โมเดลเป็นอะไร do? (เช่น “แก้ไขเซลฟี่นี้เพื่อสร้างภาพถ่ายใบหน้าที่ดูเป็นมืออาชีพ” หรือ “สร้างภาพไลฟ์สไตล์ของผลิตภัณฑ์โดยรวมภาพทั้งสองภาพนี้เข้าด้วยกัน”)
  2. เรื่อง (s) — ใครหรืออะไรอยู่ในภาพ? ระบุตัวตน อายุ จำนวนคน สิ่งของ ฯลฯ ให้ชัดเจน
  3. คุณสมบัติ — ลักษณะทางสายตา: เสื้อผ้า การแสดงออกทางสีหน้า สีตา เส้นผม อุปกรณ์ประกอบฉาก
  4. สิ่งแวดล้อมและแสงสว่าง — สถานที่ เวลาของวัน แสงที่สร้างอารมณ์ ความยาวโฟกัส คำแนะนำเกี่ยวกับเลนส์ (“ภาพบุคคล 35 มม.”)
  5. สไตล์และการตกแต่ง — สไตล์การถ่ายภาพ (ภาพยนตร์ สตูดิโอ ฟิล์มเกรน ไฮเปอร์เรียล) หรือสไตล์ศิลปะ (ภาพวาดสีน้ำมัน เวกเตอร์ การ์ตูน)
  6. ข้อจำกัด / ความปลอดภัย — ทุกสิ่งอย่างที่ควรหลีกเลี่ยง (ไม่มีโลโก้ ไม่มีภาพเปลือย ไม่มีข้อความทางการแพทย์)
  7. โทเค็นความสอดคล้อง (ทางเลือก) — วลีสั้นๆ ที่คุณใช้ซ้ำเพื่อรักษาการจดจำตัวอักษรในหลายๆ ข้อความ (เช่น "ใช้การอ้างอิงตัวละคร 'ผ้าพันคอ Luna'")

คำแนะนำสำหรับความสอดคล้องของตัวละคร (ขั้นตอนปฏิบัติ)

  • ใช้ “วลีอ้างอิง”: ใส่วลีสั้นๆ ที่ไม่ซ้ำใครซึ่งเชื่อมโยงกับหัวข้อ (เช่น "โทเค็นตัวละคร: 'Maya-blue-jacket'") ในทุกพรอมต์ โมเดลจะเชื่อมโยงการแก้ไขกับตัวละครเดียวกันได้อย่างน่าเชื่อถือมากขึ้น หากคุณใช้วลีนี้ซ้ำ
  • รวมรายละเอียดที่ยึดไว้:ระบุคุณลักษณะที่โดดเด่นและไม่เปลี่ยนแปลง (เช่น “รอยแผลเป็นที่คิ้วซ้าย ปานสีเขียวที่แก้มขวา”) เพื่อให้โมเดลมีจุดยึดคงที่เพื่อรักษาไว้
  • รักษาท่าทางและการจัดองค์ประกอบเมื่อเป็นไปได้:หากคุณต้องการความต่อเนื่องที่แท้จริง ให้คงคำอธิบายมุมกล้อง/ท่าทางที่คล้ายกันในทุกข้อความ
  • เริ่มต้นจากภาพต้นฉบับเดียวกัน: สำหรับการแก้ไขเวิร์กโฟลว์ ให้ใส่ภาพต้นฉบับเดียวกันกับจุดยึดเสมอ เมื่อต้องเปลี่ยนรูปภาพ ให้ใส่ภาพต้นฉบับเป็นอินพุตเพิ่มเติมและอธิบายการแปลง

โหมดความล้มเหลวทั่วไปคืออะไร และฉันจะแก้ไขได้อย่างไร

ความล้มเหลว: การเปลี่ยนแปลงตัวตน (ผู้ทดลองดูแตกต่างออกไป)

สาเหตุ: โมเดลดังกล่าวมีการสรุปรูปแบบที่ร้องขอมากเกินไปหรือตีความข้อจำกัดไม่ถูกต้อง
แก้ไข: เพิ่มข้อกำหนด "รักษา" ไว้อย่างชัดเจน แนบรูปภาพต้นฉบับไว้เป็นข้อมูลอ้างอิง หรือดำเนินการแก้ไขในขั้นตอนย่อยๆ และตรวจสอบผลลัพธ์ระดับกลาง

ความล้มเหลว: อุปกรณ์หรือมือที่ไม่สม่ำเสมอ

สาเหตุ: มือและอุปกรณ์ขนาดเล็กมักจะสร้างความยุ่งยากให้กับนางแบบหลายๆ คน
แก้ไข: รวมข้อจำกัดระดับไมโคร (“เก็บนาฬิกาไว้ที่ข้อมือขวา”) ให้ข้อมูลอ้างอิงแบบใกล้ชิดโดยละเอียดสำหรับรายการเล็กๆ หรือดำเนินการขั้นตอนการแก้ไขที่ตรงเป้าหมายขั้นสุดท้ายโดยมุ่งเน้นเฉพาะองค์ประกอบที่มีปัญหาเท่านั้น

ความล้มเหลว: แสงหรือเงาดูไม่เป็นธรรมชาติ

สาเหตุ: การแก้ไขครั้งใหญ่ (การสลับพื้นหลังหรือการปรับแสงใหม่ทั้งหมด) อาจทำให้เกิดความไม่ตรงกันได้
แก้ไข: ขอให้โมเดลจับคู่ “แสงทิศทางจากมุมซ้ายบน เงาอ่อนๆ” หรือให้ภาพอ้างอิงแสงที่ต้องการ

สรุป

Nano-Banana (Gemini 2.5 Flash Image) คือก้าวสำคัญในการแก้ไขและสร้างภาพระดับผู้บริโภค ด้วยความเร็ว ความสม่ำเสมอ และผสานรวมกับระบบนิเวศ Gemini และเครื่องมือด้านความปลอดภัยของ Google ผลลัพธ์ที่ดีที่สุดมาจาก คำเตือนที่ชัดเจนและเน้นที่งานคำแนะนำในการเก็บรักษาที่ชัดเจนเมื่อคุณต้องการความสอดคล้องของข้อมูลประจำตัว และเวิร์กโฟลว์แบบแบ่งขั้นตอนที่แยกตัวอย่างด่วนออกจากการเรนเดอร์ขั้นสุดท้าย เมื่อโมเดลและระบบนิเวศพัฒนาไป วิศวกรที่พร้อมท์ควรทำการทดสอบ บันทึกผลลัพธ์ และสร้างตัวควบคุมที่ผู้ใช้เห็น ซึ่งทำให้การแก้ไขมีความโปร่งใสและย้อนกลับได้

SHARE THIS BLOG

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%