วิธีการสร้างและแก้ไขรูปภาพด้วย Gemini 2.0 Flash Preview

CometAPI
AnnaMay 9, 2025
วิธีการสร้างและแก้ไขรูปภาพด้วย Gemini 2.0 Flash Preview

ตั้งแต่เปิดตัวเมื่อวันที่ 7 พฤษภาคม 2025 ความสามารถด้านภาพของ Gemini 2.0 Flash ก็พร้อมใช้งานในรูปแบบพรีวิว ช่วยให้นักพัฒนาและมืออาชีพด้านความคิดสร้างสรรค์สามารถสร้างและปรับแต่งภาพผ่านการสนทนาในภาษาธรรมชาติได้ บทความนี้รวบรวมประกาศล่าสุด รายงานเชิงปฏิบัติ และเอกสารทางเทคนิคเพื่อแนะนำคุณตลอดขั้นตอนต่างๆ ตั้งแต่การสร้างคำสั่งภาพแรกไปจนถึงการแก้ไขที่แม่นยำบนทรัพยากรที่มีอยู่ หัวข้อรองแต่ละหัวข้อจะตั้งคำถามสำคัญเพื่อกำหนดทิศทางการสำรวจของคุณ โดยหัวข้อรองจะแบ่งรายละเอียดเฉพาะที่คุณต้องเริ่มสร้างในวันนี้

Gemini 2.0 Flash Preview สำหรับการสร้างและแก้ไขรูปภาพคืออะไร?

Gemini 2.0 Flash คือโมเดล AI ล่าสุดของ Google ที่ได้รับการปรับให้เหมาะสมสำหรับความเร็ว (“Flash”) และงานแบบมัลติโมดัล โดยขณะนี้มีการสร้างและแก้ไขภาพในการแสดงตัวอย่างผ่าน Google AI Studio และ Vertex AI โดย Kat Kampf ผู้จัดการผลิตภัณฑ์ของ Google AI Studio ประกาศเมื่อวันที่ 7 พฤษภาคม 2025 โดยการแสดงตัวอย่างจะเปิดเผยชื่อโมเดล gemini-2.0-flash-preview-image-generation ผ่านทาง GenAI API ช่วยให้มีอัตราการร้องขอที่สูงขึ้นและบูรณาการเข้ากับแอปพลิเคชันได้อย่างราบรื่น India Today Tech ยืนยันว่าทั้งผู้ใช้ฟรี (ผ่านแอป Gemini) และนักพัฒนา (ผ่าน AI Studio/Vertex AI) สามารถทดลองใช้เครื่องมือที่อัปเกรดแล้วเหล่านี้ได้โดยไม่มีค่าใช้จ่าย ซึ่งถือเป็นการประชาธิปไตยที่สำคัญของ AI ภาพขั้นสูง

อะไรคือสิ่งที่ทำให้ Gemini 2.0 Flash แตกต่างจากรุ่นสร้างภาพรุ่นก่อนๆ?

เมื่อเปรียบเทียบกับโมเดลภาพทดลองที่ฝังไว้ใน Gemini ก่อนหน้านี้ Flash จะนำเสนอ:

  • ปรับปรุงความเที่ยงตรงของภาพ:รายละเอียดที่คมชัดยิ่งขึ้น พื้นผิวที่สมจริงยิ่งขึ้น และการจัดการองค์ประกอบละเอียดต่างๆ เช่น เส้นผม ใบไม้ และแสงสะท้อนได้ดีขึ้น
  • การแสดงผลข้อความที่ได้รับการปรับปรุง:วางและจัดรูปแบบข้อความภายในรูปภาพอย่างแม่นยำ ลดตัวอักษรที่ผิดเพี้ยนและภาพสัญลักษณ์ที่ไม่ตรงกันซึ่งมักเกิดขึ้นในเวอร์ชันก่อนหน้า
  • อัตราการบล็อคตัวกรองที่ต่ำกว่า:ตัวกรองเนื้อหาที่ผ่อนคลายช่วยให้มีการแจ้งเตือนที่ไม่เป็นอันตรายผ่านเข้ามาได้มากขึ้น ในขณะที่ยังคงบังคับใช้นโยบายกับเนื้อหาที่ไม่อนุญาต ส่งผลให้เวิร์กโฟลว์มีประสิทธิภาพมากขึ้นสำหรับกรณีการใช้งานที่สอดคล้อง

นักพัฒนาสามารถสร้างรูปภาพโดยใช้ Gemini 2.0 Flash Preview ได้อย่างไร

การสร้างรูปภาพนั้นง่ายพอๆ กับการเรียก GenAI SDK หรือ REST API ด้วยคำกระตุ้นและระบุว่าคุณต้องการทั้งรูปแบบข้อความและรูปภาพ

ใช้ API ใน Google:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

ตัวอย่างนี้แสดงให้เห็นการตั้งค่าขั้นต่ำ: แทนที่ GEMINI_API_KEY ใช้กุญแจของคุณปรับ contents เชื่อมโยงกับวิสัยทัศน์สร้างสรรค์ของคุณ และรับ URL ไปยังภาพที่สร้างขึ้น

ใช้การสร้างภาพ Gemini 2.0 Flash ใน CometAPI

แนวทางปฏิบัติที่ดีที่สุดในการกระตุ้นให้เกิดภาพที่มีคุณภาพสูงสุดคืออะไร

  1. ระบุให้ชัดเจนเกี่ยวกับสไตล์และสื่อ:“ภาพวาดสีน้ำ”, “ฉากไซเบอร์พังค์นีออน” หรือ “ศิลปะเวกเตอร์แบบมินิมอล” ช่วยให้โมเดลยึดโยงเอาต์พุตได้
  2. รวมคำแนะนำในการแต่งเพลง:วลีเช่น “กฎสามส่วน” “แสงที่น่าตื่นตาตื่นใจจากด้านซ้าย” หรือ “วัตถุเบื้องหน้าอยู่ในโฟกัสที่คมชัด” เป็นแนวทางในการจัดองค์ประกอบภาพ
  3. ทำซ้ำด้วยคำเตือนติดตาม:ใช้การแก้ไขเชิงสนทนา (ดูหัวข้อถัดไป) เพื่อปรับสมดุลสี ปรับสัดส่วน หรือปรับแต่งรายละเอียดโดยไม่ต้องเริ่มจากศูนย์

คุณสามารถแก้ไขรูปภาพที่มีอยู่แบบสนทนาได้อย่างไร?

การแก้ไขทำได้โดยการอัปโหลดรูปภาพหรือเลือกสินทรัพย์ที่สร้างไว้ก่อนหน้านี้ จากนั้นออกคำสั่งภาษาธรรมชาติเพื่อเปลี่ยนแปลงพื้นที่หรือคุณลักษณะที่เจาะจง

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

รองรับคุณสมบัติการแก้ไขสนทนาอะไรบ้าง?

  • การแก้ไขแบบเลือก:เปลี่ยนเฉพาะบริเวณที่กำหนด (เช่น "ทำให้ดวงตาสดใส" "เพิ่มตัวอักษรประดิษฐ์บนป้ายบอกทาง") โดยไม่ส่งผลกระทบกับพิกเซลโดยรอบ
  • การวาดภาพร่วมกันแบบเรียลไทม์:ด้วยแอปตัวอย่าง Gemini Co-Drawing ผู้ทำงานร่วมกันหลายคนสามารถร่างภาพและใส่คำอธิบายประกอบได้โดยตรงใน AI Studio ช่วยเร่งเวิร์กโฟลว์แบบวนซ้ำให้เร็วขึ้น
  • การปรับบริบทใหม่:วางผลิตภัณฑ์หรือตัวละครลงในฉากใหม่ทั้งหมด เหมาะอย่างยิ่งสำหรับการจำลองการตลาดหรือการสร้างต้นแบบอย่างรวดเร็วของแนวคิดภาพ
  • ลบลายน้ำ:ผู้ใช้รุ่นแรกรายงานว่า Gemini 2.0 Flash สามารถลบลายน้ำที่มองเห็นได้และแทนที่ด้วยเครื่องหมาย SynthID ที่เป็นกลาง แม้จะมีการใช้แนวปฏิบัติด้านจริยธรรมในการใช้งานก็ตาม

เจมินี่ 2.0 แฟลช

อัตราจำกัดและราคาใดบ้างที่ใช้ในการดูตัวอย่าง?

Google ได้ยกเลิกข้อจำกัดหลายประการจากระยะทดลอง: นักพัฒนาได้รับประโยชน์จากโควตาต่อนาทีที่สูงขึ้นและอัตราการดูตัวอย่างที่ลดราคา

อัตราการจำกัดได้รับการปรับปรุงดีขึ้นอย่างไร?

  • เพิ่ม QPS:การร้องขอต่อวินาทีเพิ่มขึ้นเป็นสองเท่าเมื่อเทียบกับรูปแบบการทดลองก่อนหน้า รองรับภาระงานจำนวนมากและแอปพลิเคชันแบบเรียลไทม์
  • การแก้ไขเป็นกลุ่ม:ปัจจุบัน Gemini ยอมรับรูปภาพสูงสุด 10 รูปภาพในชุดเดียวสำหรับการแก้ไข ซึ่งทำให้เวิร์กโฟลว์ที่ต้องปรับเปลี่ยนรูปแบบให้สอดคล้องกันสำหรับทรัพยากรหลายรายการมีประสิทธิภาพมากขึ้น

ราคาการดูตัวอย่างจะมีลักษณะเป็นอย่างไร?

  • การสร้างภาพ:ประมาณ 0.039 เหรียญสหรัฐต่อภาพ (3.9 เซ็นต์) คิดเงินตามผลลัพธ์ที่ไม่ซ้ำกัน
  • การแก้ไขการดำเนินการ:มีราคาใกล้เคียงกับงานรุ่น โดยมีส่วนลดเพิ่มเติมวางแผนไว้เมื่อการแสดงตัวอย่างสิ้นสุดลง

คุณจะเข้าถึงและกำหนดค่าการแสดงตัวอย่างในวันนี้ได้อย่างไร?

  1. เข้าสู่ระบบ ไปยัง Google AI Studio หรือ Vertex AI ใน Google Cloud Console
  2. เปิดใช้งาน GenAI API และสร้างรหัส API ภายใต้ “ข้อมูลประจำตัว”
  3. เลือก นางแบบ gemini-2.0-flash-preview-image-generation ในโค้ดหรือการเรียก API ของคุณ
  4. อัพโหลด รูปภาพต้นฉบับ (หากมีการแก้ไข) ผ่านทาง Cloud Storage หรือโดยตรงใน Studio UI
  5. ขอร้อง แจ้งเตือนและตรวจสอบผลลัพธ์ของคุณในแดชบอร์ด Studio หรือทางโปรแกรม

เราจะคาดหวังการปรับปรุงอะไรในอนาคตได้บ้าง?

Google ได้ส่งสัญญาณถึงการปรับปรุงต่างๆ ที่กำลังจะเกิดขึ้นเมื่อ Gemini 2.0 Flash ก้าวข้ามจากเวอร์ชันตัวอย่างไปแล้ว:

เพิ่มขีดความสามารถ

  • เอาท์พุตความละเอียดสูงกว่า (สูงถึง 4K+) เหมาะสำหรับการพิมพ์และการแสดงผลขนาดใหญ่
  • การผสมผสานสไตล์ขั้นสูงโดยการรวมเอาการอ้างอิงศิลปะหลายๆ อย่างไว้ในภาพเดียว

การบูรณาการที่กว้างขึ้น

  • รองรับดั้งเดิมใน Chrome, Docs, Slidesและแอปพลิเคชัน G Suite อื่นๆ ช่วยให้สร้างและแก้ไขรูปภาพได้ด้วยการคลิกเพียงครั้งเดียว
  • ตัวแทนมัลติโหมดที่ได้รับการปรับปรุง (โครงการ Astra) บูรณาการงานภาพเข้ากับการสนทนาที่ยาวขึ้นโดยคำนึงถึงบริบท

การเปิดใช้การสร้างภาพและการแก้ไขที่แม่นยำผ่านอินเทอร์เฟซการสนทนาที่ใช้งานง่าย ทำให้การแสดงตัวอย่างของ Gemini 2.0 Flash ถือเป็นก้าวสำคัญในด้านความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI ที่เข้าถึงได้และปรับขนาดได้ ไม่ว่าคุณจะกำลังสร้างต้นแบบภาพผลิตภัณฑ์ ร่วมมือกันในทรัพยากรทางการตลาด หรือเพียงแค่สำรวจขอบเขตทางศิลปะใหม่ๆ การแสดงตัวอย่างของ Gemini XNUMX Flash จะให้เครื่องมือแก่คุณเพื่อทำซ้ำได้เร็วขึ้นและสมบูรณ์ยิ่งขึ้นกว่าที่เคย เมื่อการแสดงตัวอย่างของ Gemini พัฒนาไปสู่การเปิดตัวเต็มรูปแบบ คาดว่าจะมีการบูรณาการที่ลึกซึ้งยิ่งขึ้นในระบบนิเวศของ Google และความสามารถที่ซับซ้อนยิ่งขึ้นเรื่อยๆ ที่จะขับเคลื่อนการพัฒนาครั้งสำคัญครั้งต่อไปของคุณ

เริ่มต้นใช้งาน

นักพัฒนาสามารถเข้าถึงได้  API สำหรับสร้างภาพประสบการณ์แฟลช Gemini 2.0 ตลอด โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API (ชื่อรุ่น: gemini-2.0-flash-exp-image-generation) สำหรับคำแนะนำโดยละเอียด โปรดทราบว่านักพัฒนาบางคนอาจจำเป็นต้องตรวจสอบองค์กรของตนก่อนใช้โมเดลนี้ API ก่อนการสร้างรูปภาพ Gemini 2.0 Flash จะเปิดตัวเร็วๆ นี้

SHARE THIS BLOG

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%