คุณสมบัติหลัก
- การเรนเดอร์ข้อความภายในภาพแบบเนทีฟ / คุณภาพสูง — โดดเด่นในการสร้างข้อความที่อ่านได้ชัดเจนและมีความหมายถูกต้องภายในภาพที่สร้างขึ้น (โปสเตอร์ บรรจุภัณฑ์ ภาพหน้าจอ) — ซึ่งเป็นด้านที่โมเดลภาพรุ่นก่อนหน้าหลายรุ่นทำได้ไม่ดี
- เอาต์พุตหลายโมดัลที่มีความเที่ยงตรงสูง — สร้างภาพทั้งแบบสมจริงและมีสไตล์ได้โดยมีรายละเอียดดีและเลย์เอาต์ที่รับรู้ภาษาได้
- การถ่ายโอนสไตล์และการเพิ่มรายละเอียด — สามารถใช้สไตล์ทางศิลปะอย่างสม่ำเสมอหรือเพิ่มรายละเอียดเฉพาะจุดโดยยังคงความสอดคล้องของฉากไว้
รายละเอียดทางเทคนิค — Qwen-Image ทำงานอย่างไร
สถาปัตยกรรมและองค์ประกอบ (คีย์เวิร์ด: MMDiT, Qwen2.5-VL). โมเดลนี้ใช้ diffusion transformer แบบ MMDiT-based สำหรับการสังเคราะห์ภาพ ร่วมกับ visual-language encoder (Qwen2.5-VL) เพื่อทำความเข้าใจพรอมต์และบริบททางภาพ การแยกส่วนนี้ช่วยให้โมเดลจัดการ semantic guidance และ pixel appearance ได้แตกต่างกัน ส่งผลให้ความแม่นยำของข้อความและความสม่ำเสมอในการแก้ไขดีขึ้น ที่เก็บโค้ดอย่างเป็นทางการและรายงานทางเทคนิคระบุว่าแบ็กโบนของโมเดล T2I หลักมีพารามิเตอร์ 20B
ไปป์ไลน์การฝึก (คีย์เวิร์ด: curriculum learning, data pipeline). เพื่อแก้ปัญหาการเรนเดอร์ข้อความที่ยาก Qwen-Image ใช้ progressive curriculum: เริ่มจากภาพที่ง่ายกว่าและไม่มีข้อความ แล้วค่อย ๆ ฝึกด้วยตัวอย่างที่ซับซ้อนและมีข้อความมากขึ้น จนถึงอินพุตระดับย่อหน้า ทีมงานได้สร้างไปป์ไลน์ที่ครอบคลุมซึ่งรวมถึงการเก็บข้อมูลขนาดใหญ่ การคัดกรองอย่างรอบคอบ การเสริมข้อมูลสังเคราะห์ และการปรับสมดุล เพื่อให้แน่ใจว่าโมเดลได้เห็นองค์ประกอบข้อความ/ภาพถ่ายที่สมจริงจำนวนมากระหว่างการฝึก หลักสูตรเชิงกลยุทธ์นี้เป็นเหตุผลสำคัญที่ทำให้โมเดลโดดเด่นด้านการเรนเดอร์ข้อความหลายภาษา
กลไกการแก้ไข (คีย์เวิร์ด: dual-encoding, VAE + VL encoder). สำหรับการแก้ไข ระบบจะ ป้อนภาพต้นฉบับเข้าไปสองครั้ง: ครั้งหนึ่งเข้าสู่ตัวเข้ารหัส Qwen2.5-VL เพื่อ การควบคุมเชิงความหมาย และอีกครั้งเข้าสู่ตัวเข้ารหัส VAE เพื่อ ข้อมูลลักษณะปรากฏเพื่อการสร้างกลับ การออกแบบแบบ dual-encoding ช่วยให้โมดูลแก้ไขสามารถรักษาอัตลักษณ์และความเที่ยงตรงทางภาพไว้ได้ ขณะเดียวกันก็เปิดให้มีการปรับเปลี่ยนเชิงความหมาย — ตัวอย่างเช่น การแทนที่วัตถุหรือเปลี่ยนเนื้อหาข้อความโดยไม่ทำให้บริเวณที่ไม่เกี่ยวข้องเสื่อมคุณภาพ
ประสิทธิภาพบนเบนช์มาร์ก
Qwen-Image ทำผลงานระดับ SOTA หรือใกล้เคียง SOTA ในหลายเบนช์มาร์กสาธารณะทั้งด้านการสร้างและการแก้ไข โดยมีผลลัพธ์เด่นเป็นพิเศษในงานเรนเดอร์ข้อความและเบนช์มาร์กด้านองค์ประกอบภาพในโลกจริง (เช่น T2I-CoreBench และชุดทดสอบการแก้ไขภาพที่คัดสรรมา)

Qwen-Image เปรียบเทียบกับโมเดลชั้นนำอื่นอย่างไร
จุดแข็งเมื่อเทียบกัน: การเรนเดอร์ข้อความและความเที่ยงตรงของข้อความสองภาษา คือจุดเด่นเฉพาะของโมเดลนี้เมื่อเทียบกับคู่แข่งด้านการสร้างภาพจำนวนมาก (เช่น DALL·E 3, SDXL, Midjourney) ซึ่งมักแข็งแกร่งกว่าในด้านองค์ประกอบเชิงศิลป์ล้วน ๆ หรือความหลากหลายของสไตล์ แต่ด้อยกว่าในด้านเลย์เอาต์ข้อความหลายบรรทัดที่หนาแน่นหรือข้อความภาษาจีน การเปรียบเทียบจากชุมชนหลายแห่งและตารางเบนช์มาร์กของผู้พัฒนาโมเดลสนับสนุนข้อสรุปนี้
ข้อแลกเปลี่ยนเมื่อเทียบกัน: เมื่อเทียบกับระบบเชิงพาณิชย์แบบปิดที่ได้รับการปรับจูนอย่างหนัก Qwen-Image อาจต้องใช้ การประมวลผลภายหลัง หรือการปรับจูนพรอมต์/อะแดปเตอร์ เพื่อให้ได้ความสมจริงเทียบเท่ากันในบางบริบท (การบิดเบี้ยวบนพื้นผิวโค้ง การคอมโพสิตภาพสมจริง) ตามการทดสอบอิสระ สำหรับผู้ใช้ที่ให้ความสำคัญกับ งานออกแบบตามเทมเพลต ม็อกอัปบรรจุภัณฑ์ หรือเลย์เอาต์ข้อความสองภาษา Qwen-Image มักเป็นตัวเลือกที่เหมาะกว่า
กรณีการใช้งานทั่วไปและมีมูลค่าสูง
- บรรจุภัณฑ์และม็อกอัปสินค้า: ข้อความที่ถูกต้องและเลย์เอาต์หลายบรรทัดสำหรับฉลากและการทดลองบรรจุภัณฑ์
- โฆษณาและแบบร่างการออกแบบ: การทำต้นแบบอย่างรวดเร็วในกรณีที่ความเที่ยงตรงของข้อความมีความสำคัญ (โปสเตอร์ แบนเนอร์)
- การสร้างภาพเชิงเอกสาร: การสร้างภาพที่ต้องมีเนื้อหาซึ่งอ่านได้ (เมนู ป้าย อินเทอร์เฟซ)
- ไปป์ไลน์การแก้ไขภาพ: การแก้ไขแบบเจาะจง (การแทนที่ข้อความ การเพิ่ม/ลบวัตถุ) โดยคงสไตล์และมุมมองไว้
- วิธีเข้าถึง Qwen image API
ขั้นตอนที่ 1: สมัครเพื่อรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console ของคุณ รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ
ขั้นตอนที่ 2: ส่งคำขอไปยัง Qwen image API
เลือก endpoint “qwen-image ” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณด้วย แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Images format(https://api.cometapi.com/v1/images/generations) ผ่าน CometAPI
ใส่คำถามหรือคำขอของคุณลงในช่อง content—นี่คือสิ่งที่โมเดลจะตอบกลับ .
ขั้นตอนที่ 3: ดึงข้อมูลและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะของงานและข้อมูลเอาต์พุต