ตั้งแต่เปิดตัวเมื่อวันที่ 7 พฤษภาคม 2025 ความสามารถด้านภาพของ Gemini 2.0 Flash ก็พร้อมใช้งานในรูปแบบพรีวิว ช่วยให้นักพัฒนาและมืออาชีพด้านความคิดสร้างสรรค์สามารถสร้างและปรับแต่งภาพผ่านการสนทนาในภาษาธรรมชาติได้ บทความนี้รวบรวมประกาศล่าสุด รายงานเชิงปฏิบัติ และเอกสารทางเทคนิคเพื่อแนะนำคุณตลอดขั้นตอนต่างๆ ตั้งแต่การสร้างคำสั่งภาพแรกไปจนถึงการแก้ไขที่แม่นยำบนทรัพยากรที่มีอยู่ หัวข้อรองแต่ละหัวข้อจะตั้งคำถามสำคัญเพื่อกำหนดทิศทางการสำรวจของคุณ โดยหัวข้อรองจะแบ่งรายละเอียดเฉพาะที่คุณต้องเริ่มสร้างในวันนี้
Gemini 2.0 Flash Preview สำหรับการสร้างและแก้ไขรูปภาพคืออะไร?
Gemini 2.0 Flash คือโมเดล AI ล่าสุดของ Google ที่ได้รับการปรับให้เหมาะสมสำหรับความเร็ว (“Flash”) และงานแบบมัลติโมดัล โดยขณะนี้มีการสร้างและแก้ไขภาพในการแสดงตัวอย่างผ่าน Google AI Studio และ Vertex AI โดย Kat Kampf ผู้จัดการผลิตภัณฑ์ของ Google AI Studio ประกาศเมื่อวันที่ 7 พฤษภาคม 2025 โดยการแสดงตัวอย่างจะเปิดเผยชื่อโมเดล gemini-2.0-flash-preview-image-generation ผ่านทาง GenAI API ช่วยให้มีอัตราการร้องขอที่สูงขึ้นและบูรณาการเข้ากับแอปพลิเคชันได้อย่างราบรื่น India Today Tech ยืนยันว่าทั้งผู้ใช้ฟรี (ผ่านแอป Gemini) และนักพัฒนา (ผ่าน AI Studio/Vertex AI) สามารถทดลองใช้เครื่องมือที่อัปเกรดแล้วเหล่านี้ได้โดยไม่มีค่าใช้จ่าย ซึ่งถือเป็นการประชาธิปไตยที่สำคัญของ AI ภาพขั้นสูง
อะไรคือสิ่งที่ทำให้ Gemini 2.0 Flash แตกต่างจากรุ่นสร้างภาพรุ่นก่อนๆ?
เมื่อเปรียบเทียบกับโมเดลภาพทดลองที่ฝังไว้ใน Gemini ก่อนหน้านี้ Flash จะนำเสนอ:
- ปรับปรุงความเที่ยงตรงของภาพ:รายละเอียดที่คมชัดยิ่งขึ้น พื้นผิวที่สมจริงยิ่งขึ้น และการจัดการองค์ประกอบละเอียดต่างๆ เช่น เส้นผม ใบไม้ และแสงสะท้อนได้ดีขึ้น
- การแสดงผลข้อความที่ได้รับการปรับปรุง:วางและจัดรูปแบบข้อความภายในรูปภาพอย่างแม่นยำ ลดตัวอักษรที่ผิดเพี้ยนและภาพสัญลักษณ์ที่ไม่ตรงกันซึ่งมักเกิดขึ้นในเวอร์ชันก่อนหน้า
- อัตราการบล็อคตัวกรองที่ต่ำกว่า:ตัวกรองเนื้อหาที่ผ่อนคลายช่วยให้มีการแจ้งเตือนที่ไม่เป็นอันตรายผ่านเข้ามาได้มากขึ้น ในขณะที่ยังคงบังคับใช้นโยบายกับเนื้อหาที่ไม่อนุญาต ส่งผลให้เวิร์กโฟลว์มีประสิทธิภาพมากขึ้นสำหรับกรณีการใช้งานที่สอดคล้อง
นักพัฒนาสามารถสร้างรูปภาพโดยใช้ Gemini 2.0 Flash Preview ได้อย่างไร
การสร้างรูปภาพนั้นง่ายพอๆ กับการเรียก GenAI SDK หรือ REST API ด้วยคำกระตุ้นและระบุว่าคุณต้องการทั้งรูปแบบข้อความและรูปภาพ
ใช้ API ใน Google:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
config=types.GenerateContentConfig(
response_modalities=
),
)
print(response.images.url)
ตัวอย่างนี้แสดงให้เห็นการตั้งค่าขั้นต่ำ: แทนที่ GEMINI_API_KEY ใช้กุญแจของคุณปรับ contents เชื่อมโยงกับวิสัยทัศน์สร้างสรรค์ของคุณ และรับ URL ไปยังภาพที่สร้างขึ้น
ใช้การสร้างภาพ Gemini 2.0 Flash ใน CometAPI
แนวทางปฏิบัติที่ดีที่สุดในการกระตุ้นให้เกิดภาพที่มีคุณภาพสูงสุดคืออะไร
- ระบุให้ชัดเจนเกี่ยวกับสไตล์และสื่อ:“ภาพวาดสีน้ำ”, “ฉากไซเบอร์พังค์นีออน” หรือ “ศิลปะเวกเตอร์แบบมินิมอล” ช่วยให้โมเดลยึดโยงเอาต์พุตได้
- รวมคำแนะนำในการแต่งเพลง:วลีเช่น “กฎสามส่วน” “แสงที่น่าตื่นตาตื่นใจจากด้านซ้าย” หรือ “วัตถุเบื้องหน้าอยู่ในโฟกัสที่คมชัด” เป็นแนวทางในการจัดองค์ประกอบภาพ
- ทำซ้ำด้วยคำเตือนติดตาม:ใช้การแก้ไขเชิงสนทนา (ดูหัวข้อถัดไป) เพื่อปรับสมดุลสี ปรับสัดส่วน หรือปรับแต่งรายละเอียดโดยไม่ต้องเริ่มจากศูนย์
คุณสามารถแก้ไขรูปภาพที่มีอยู่แบบสนทนาได้อย่างไร?
การแก้ไขทำได้โดยการอัปโหลดรูปภาพหรือเลือกสินทรัพย์ที่สร้างไว้ก่อนหน้านี้ จากนั้นออกคำสั่งภาษาธรรมชาติเพื่อเปลี่ยนแปลงพื้นที่หรือคุณลักษณะที่เจาะจง
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=(
"Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
),
config=types.GenerateContentConfig(
response_modalities=
),
input_image="gs://my-bucket/path/to/source.png"
)
รองรับคุณสมบัติการแก้ไขสนทนาอะไรบ้าง?
- การแก้ไขแบบเลือก:เปลี่ยนเฉพาะบริเวณที่กำหนด (เช่น "ทำให้ดวงตาสดใส" "เพิ่มตัวอักษรประดิษฐ์บนป้ายบอกทาง") โดยไม่ส่งผลกระทบกับพิกเซลโดยรอบ
- การวาดภาพร่วมกันแบบเรียลไทม์:ด้วยแอปตัวอย่าง Gemini Co-Drawing ผู้ทำงานร่วมกันหลายคนสามารถร่างภาพและใส่คำอธิบายประกอบได้โดยตรงใน AI Studio ช่วยเร่งเวิร์กโฟลว์แบบวนซ้ำให้เร็วขึ้น
- การปรับบริบทใหม่:วางผลิตภัณฑ์หรือตัวละครลงในฉากใหม่ทั้งหมด เหมาะอย่างยิ่งสำหรับการจำลองการตลาดหรือการสร้างต้นแบบอย่างรวดเร็วของแนวคิดภาพ
- ลบลายน้ำ:ผู้ใช้รุ่นแรกรายงานว่า Gemini 2.0 Flash สามารถลบลายน้ำที่มองเห็นได้และแทนที่ด้วยเครื่องหมาย SynthID ที่เป็นกลาง แม้จะมีการใช้แนวปฏิบัติด้านจริยธรรมในการใช้งานก็ตาม

อัตราจำกัดและราคาใดบ้างที่ใช้ในการดูตัวอย่าง?
Google ได้ยกเลิกข้อจำกัดหลายประการจากระยะทดลอง: นักพัฒนาได้รับประโยชน์จากโควตาต่อนาทีที่สูงขึ้นและอัตราการดูตัวอย่างที่ลดราคา
อัตราการจำกัดได้รับการปรับปรุงดีขึ้นอย่างไร?
- เพิ่ม QPS:การร้องขอต่อวินาทีเพิ่มขึ้นเป็นสองเท่าเมื่อเทียบกับรูปแบบการทดลองก่อนหน้า รองรับภาระงานจำนวนมากและแอปพลิเคชันแบบเรียลไทม์
- การแก้ไขเป็นกลุ่ม:ปัจจุบัน Gemini ยอมรับรูปภาพสูงสุด 10 รูปภาพในชุดเดียวสำหรับการแก้ไข ซึ่งทำให้เวิร์กโฟลว์ที่ต้องปรับเปลี่ยนรูปแบบให้สอดคล้องกันสำหรับทรัพยากรหลายรายการมีประสิทธิภาพมากขึ้น
ราคาการดูตัวอย่างจะมีลักษณะเป็นอย่างไร?
- การสร้างภาพ:ประมาณ 0.039 เหรียญสหรัฐต่อภาพ (3.9 เซ็นต์) คิดเงินตามผลลัพธ์ที่ไม่ซ้ำกัน
- การแก้ไขการดำเนินการ:มีราคาใกล้เคียงกับงานรุ่น โดยมีส่วนลดเพิ่มเติมวางแผนไว้เมื่อการแสดงตัวอย่างสิ้นสุดลง
คุณจะเข้าถึงและกำหนดค่าการแสดงตัวอย่างในวันนี้ได้อย่างไร?
- เข้าสู่ระบบ ไปยัง Google AI Studio หรือ Vertex AI ใน Google Cloud Console
- เปิดใช้งาน GenAI API และสร้างรหัส API ภายใต้ “ข้อมูลประจำตัว”
- เลือก นางแบบ
gemini-2.0-flash-preview-image-generationในโค้ดหรือการเรียก API ของคุณ - อัพโหลด รูปภาพต้นฉบับ (หากมีการแก้ไข) ผ่านทาง Cloud Storage หรือโดยตรงใน Studio UI
- ขอร้อง แจ้งเตือนและตรวจสอบผลลัพธ์ของคุณในแดชบอร์ด Studio หรือทางโปรแกรม
เราจะคาดหวังการปรับปรุงอะไรในอนาคตได้บ้าง?
Google ได้ส่งสัญญาณถึงการปรับปรุงต่างๆ ที่กำลังจะเกิดขึ้นเมื่อ Gemini 2.0 Flash ก้าวข้ามจากเวอร์ชันตัวอย่างไปแล้ว:
เพิ่มขีดความสามารถ
- เอาท์พุตความละเอียดสูงกว่า (สูงถึง 4K+) เหมาะสำหรับการพิมพ์และการแสดงผลขนาดใหญ่
- การผสมผสานสไตล์ขั้นสูงโดยการรวมเอาการอ้างอิงศิลปะหลายๆ อย่างไว้ในภาพเดียว
การบูรณาการที่กว้างขึ้น
- รองรับดั้งเดิมใน Chrome, Docs, Slidesและแอปพลิเคชัน G Suite อื่นๆ ช่วยให้สร้างและแก้ไขรูปภาพได้ด้วยการคลิกเพียงครั้งเดียว
- ตัวแทนมัลติโหมดที่ได้รับการปรับปรุง (โครงการ Astra) บูรณาการงานภาพเข้ากับการสนทนาที่ยาวขึ้นโดยคำนึงถึงบริบท
การเปิดใช้การสร้างภาพและการแก้ไขที่แม่นยำผ่านอินเทอร์เฟซการสนทนาที่ใช้งานง่าย ทำให้การแสดงตัวอย่างของ Gemini 2.0 Flash ถือเป็นก้าวสำคัญในด้านความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI ที่เข้าถึงได้และปรับขนาดได้ ไม่ว่าคุณจะกำลังสร้างต้นแบบภาพผลิตภัณฑ์ ร่วมมือกันในทรัพยากรทางการตลาด หรือเพียงแค่สำรวจขอบเขตทางศิลปะใหม่ๆ การแสดงตัวอย่างของ Gemini XNUMX Flash จะให้เครื่องมือแก่คุณเพื่อทำซ้ำได้เร็วขึ้นและสมบูรณ์ยิ่งขึ้นกว่าที่เคย เมื่อการแสดงตัวอย่างของ Gemini พัฒนาไปสู่การเปิดตัวเต็มรูปแบบ คาดว่าจะมีการบูรณาการที่ลึกซึ้งยิ่งขึ้นในระบบนิเวศของ Google และความสามารถที่ซับซ้อนยิ่งขึ้นเรื่อยๆ ที่จะขับเคลื่อนการพัฒนาครั้งสำคัญครั้งต่อไปของคุณ
เริ่มต้นใช้งาน
นักพัฒนาสามารถเข้าถึงได้ API สำหรับสร้างภาพประสบการณ์แฟลช Gemini 2.0 ตลอด โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API (ชื่อรุ่น: gemini-2.0-flash-exp-image-generation) สำหรับคำแนะนำโดยละเอียด โปรดทราบว่านักพัฒนาบางคนอาจจำเป็นต้องตรวจสอบองค์กรของตนก่อนใช้โมเดลนี้ API ก่อนการสร้างรูปภาพ Gemini 2.0 Flash จะเปิดตัวเร็วๆ นี้



