คุณสมบัติหลัก
- การสร้างและแก้ไขภาพแบบเนทีฟ — สร้างภาพหรือแก้ไขรูปถ่ายที่มีอยู่ด้วยพรอมป์ภาษาธรรมชาติ (สร้าง / แก้ไข).
- การผสานหลายภาพ — ผสานภาพอินพุตหลายภาพให้เป็นฉากสมจริงราวภาพถ่ายเพียงฉากเดียว
- ความคงเส้นคงวาของตัวละคร — รักษารูปลักษณ์ของตัวแบบหรือตัวละครให้เหมือนเดิมข้ามการแก้ไขและพรอมป์ (ความคงเส้นคงวา).
- ลายน้ำ SynthID — เอาต์พุตทั้งหมดมี SynthID แบบมองไม่เห็น เพื่อระบุเนื้อหาที่สร้างโดย AI (ลายน้ำ).
รายละเอียดทางเทคนิค
- สถาปัตยกรรมและการวางตำแหน่ง: สร้างบนตระกูล Gemini 2.5 Flash — ออกแบบเป็นสาย “Flash” แบบ หน่วงต่ำ ที่แลกขนาดโมเดล/ปริมาณงานเล็กน้อยเพื่อให้การตอบสนองต่อการเรียกแต่ละครั้งเร็วขึ้นมากและคุ้มค่าต้นทุนกว่า ขณะยังคงความสามารถในการให้เหตุผลที่แข็งแรงกว่าระดับ Flash ก่อนหน้า
- รูปแบบอินพุตและขีดจำกัด: รองรับรูปภาพ base64 แบบอินไลน์สำหรับอินพุตขนาดเล็ก และการอัปโหลดไฟล์ผ่าน File API สำหรับรูปภาพขนาดใหญ่ (แนะนำสำหรับ >20 MB) รองรับประเภท MIME ที่ใช้กันทั่วไป (JPEG, PNG).
- โหมดการทำงาน: text-to-image, การแก้ไขภาพ (inpainting / semantic masking), การถ่ายโอนสไตล์, การประกอบภาพหลายภาพ และการตอบกลับ แบบสลับ ข้อความ+ภาพ (มีประโยชน์สำหรับคำแนะนำแบบมีภาพประกอบ สูตรอาหาร หรือเนื้อหาผสม)
- กลไกที่มาและความปลอดภัย: ลายน้ำที่มองเห็นได้บนเอาต์พุตจาก AI ร่วมกับตัวระบุ SynthID แบบซ่อน และชั้นการบังคับใช้นโยบายเพื่อจำกัดเนื้อหาที่ไม่อนุญาตอย่างชัดแจ้ง
ข้อจำกัดและความเสี่ยงที่ทราบ
- ข้อจำกัดตามนโยบายเนื้อหา: โมเดลบังคับใช้นโยบายเนื้อหา (เช่น ไม่อนุญาตเนื้อหาทางเพศอย่างโจ่งแจ้งและเนื้อหาที่ผิดกฎหมายบางประเภท) แต่การบังคับใช้อาจไม่สมบูรณ์ — การสร้างภาพของบุคคลสาธารณะหรือสัญลักษณ์ที่เป็นข้อถกเถียงอาจยังเป็นไปได้ในบางสถานการณ์ ดังนั้นการตรวจสอบตามนโยบายจึงเป็นสิ่งจำเป็น. )
- โหมดความล้มเหลว: อาจเกิดความเปลี่ยนแปลงของเอกลักษณ์ในกรณีแก้ไขที่รุนแรง ความไม่สอดคล้องเชิงความหมายเป็นครั้งคราว (เมื่อพรอมป์ระบุไม่ชัด) และสิ่งแปลกปลอมในฉากที่ซับซ้อนมากหรือเมื่อมีการเปลี่ยนมุมมองอย่างสุดโต่ง
- ที่มาและการใช้ในทางที่ผิด: แม้ว่าจะมีลายน้ำและ SynthID อยู่ แต่สิ่งเหล่านี้ไม่สามารถป้องกันการใช้ในทางที่ผิดได้ — มันช่วยในการตรวจจับและระบุแหล่งที่มา แต่ไม่อาจทดแทนการตรวจทานโดยมนุษย์ในเวิร์กโฟลว์ที่อ่อนไหว
กรณีการใช้งานทั่วไป
- ผลิตภัณฑ์และอีคอมเมิร์ซ: วาง/จัดแค็ตตาล็อกสินค้า ไว้ในภาพไลฟ์สไตล์ผ่านการผสานหลายภาพ
- เครื่องมือสร้างสรรค์/การออกแบบ: การทำซ้ำอย่างรวดเร็ว ในแอปออกแบบ (มีการอ้างถึงการผสานการทำงานกับ Adobe Firefly)
- การแก้ไขและรีทัชภาพถ่าย: การแก้ไขเฉพาะพื้นที่จากภาษาธรรมชาติ (ลบวัตถุ เปลี่ยนสี/แสง จัดสไตล์ใหม่)
- การเล่าเรื่อง/สินทรัพย์ตัวละคร: รักษาความคงเส้นคงวาของตัวละคร ให้เหมือนเดิมข้ามแผงและฉาก