คุณสมบัติหลัก

การเรนเดอร์ข้อความภายในภาพแบบเนทีฟ/คุณภาพสูง — เชี่ยวชาญในการสร้างข้อความที่อ่านง่ายและถูกต้องตามความหมายในภาพที่สร้างขึ้น (โปสเตอร์ บรรจุภัณฑ์ สกรีนช็อต) — ซึ่งเป็นพื้นที่ที่โมเดลภาพยุคก่อนจำนวนมากยังทำได้ไม่ดี
เอาต์พุตมัลติโมดัลความเที่ยงตรงสูง — สร้างภาพที่สมจริงระดับภาพถ่ายและภาพแนวสไตล์ พร้อมรายละเอียดดี และจัดวางเลย์เอาต์ที่เข้าใจบริบทภาษา
การถ่ายโอนสไตล์และเพิ่มรายละเอียด — สามารถประยุกต์สไตล์ศิลป์ให้สม่ำเสมอ หรือเพิ่มรายละเอียดเฉพาะจุด โดยยังคงความสอดคล้องของฉาก

รายละเอียดทางเทคนิค — Qwen-Image ทำงานอย่างไร

สถาปัตยกรรมและคอมโพเนนต์ (keywords: MMDiT, Qwen2.5-VL). โมเดลใช้ดิฟฟิวชันทรานส์ฟอร์เมอร์แบบ MMDiT-based สำหรับการสังเคราะห์ภาพ ร่วมกับ ตัวเข้ารหัสภาพ-ภาษา (Qwen2.5-VL) เพื่อตีความพรอมต์และบริบทเชิงภาพ การแยกองค์ประกอบนี้ทำให้โมเดลสามารถจัดการ การชี้นำเชิงความหมาย และ ลักษณะปรากฏของพิกเซล แยกจากกัน ช่วยปรับปรุงความเที่ยงตรงของข้อความและความสม่ำเสมอของการแก้ไข รีโพสิทอรีและรายงานทางการระบุว่าแบ็กโบนของโมเดล T2I หลักมีขนาด 20B-parameter

กระบวนการฝึก (keywords: curriculum learning, data pipeline). เพื่อแก้โจทย์การเรนเดอร์ข้อความที่ยาก Qwen-Image ใช้ หลักสูตรแบบค่อยเป็นค่อยไป: เริ่มจากภาพที่ไม่มีข้อความและง่ายกว่า แล้วค่อย ๆ ฝึกด้วยตัวอย่างที่ซับซ้อนและอุดมด้วยข้อความ จนถึงอินพุตระดับย่อหน้า ทีมงานได้สร้างไปป์ไลน์ครบวงจรที่รวมการเก็บข้อมูลขนาดใหญ่ การคัดกรองอย่างรอบคอบ การเพิ่มข้อมูลสังเคราะห์ และการบาลานซ์ เพื่อให้โมเดลเห็นองค์ประกอบภาพ/ข้อความที่สมจริงหลากหลายระหว่างการฝึก หลักสูตรเชิงกลยุทธ์นี้เป็นเหตุผลสำคัญที่ทำให้โมเดลโดดเด่นในการเรนเดอร์ข้อความหลายภาษา

กลไกการแก้ไข (keywords: dual-encoding, VAE + VL encoder). สำหรับการแก้ไข ระบบจะป้อนภาพต้นฉบับสองครั้ง: ครั้งหนึ่งเข้าสู่ตัวเข้ารหัส Qwen2.5-VL เพื่อ ควบคุมเชิงความหมาย และอีกครั้งเข้าสู่ตัวเข้ารหัส VAE เพื่อข้อมูล ลักษณะปรากฏเพื่อการสร้างกลับ การออกแบบแบบเข้ารหัสคู่ทำให้โมดูลแก้ไขสามารถคงอัตลักษณ์และความเที่ยงตรงเชิงภาพไว้ ขณะเดียวกันก็เปิดให้ปรับเปลี่ยนเชิงความหมายได้ — เช่น การแทนที่วัตถุหรือเปลี่ยนเนื้อความ โดยไม่ทำให้บริเวณอื่น ๆ เสื่อมคุณภาพ

ผลการทดสอบมาตรฐาน

Qwen-Image ทำผลงานระดับ SOTA หรือใกล้เคียงในหลายชุดทดสอบสาธารณะทั้งด้านการสร้างและการแก้ไข โดยโดดเด่นเป็นพิเศษในงานเรนเดอร์ข้อความและชุดทดสอบการจัดองค์ประกอบในสถานการณ์จริง (เช่น T2I-CoreBench และชุดงานแก้ไขภาพที่คัดสรร)

Qwen-image API

Qwen-Image เปรียบเทียบกับโมเดลชั้นนำอื่นอย่างไร

จุดแข็งสัมพัทธ์: การเรนเดอร์ข้อความและความเที่ยงตรงของข้อความสองภาษา เป็นข้อได้เปรียบที่โดดเด่นของโมเดลเมื่อเทียบกับคู่แข่งด้านการสร้างภาพ (เช่น DALL·E 3, SDXL, Midjourney) ซึ่งมักเด่นกว่าในองค์ประกอบเชิงศิลป์ล้วนหรือความหลากหลายของสไตล์ แต่ด้อยกว่าในการจัดวางข้อความหนาแน่นหลายบรรทัดหรือเลย์เอาต์ข้อความภาษาจีน หลักฐานจากการเปรียบเทียบในชุมชนและตารางผลทดสอบของผู้เขียนโมเดลสนับสนุนลักษณะนี้

ข้อแลกเปลี่ยนสัมพัทธ์: เมื่อเทียบกับระบบเชิงพาณิชย์แบบปิดที่ปรับแต่งอย่างหนัก Qwen-Image อาจต้องการ การหลังประมวลผล หรือการปรับแต่งพรอมต์/อะแดปเตอร์ เพื่อให้ได้ความสมจริงระดับเดียวกันในบางบริบท (เช่น การบิดโค้งบนพื้นผิว, การคอมโพสิตภาพโฟโตเรียลลิสติก) จากการทดสอบอิสระ สำหรับผู้ใช้ที่ให้ความสำคัญกับ ดีไซน์ตามแม่แบบ โมเดลจำลองบรรจุภัณฑ์ หรือเลย์เอาต์ข้อความสองภาษา Qwen-Image มักเป็นตัวเลือกที่เหมาะกว่า

กรณีใช้งานที่พบบ่อยและให้คุณค่าสูง

ต้นแบบบรรจุภัณฑ์และผลิตภัณฑ์: ข้อความแม่นยำและเลย์เอาต์หลายบรรทัดสำหรับฉลากและการทดสอบบรรจุภัณฑ์
โฆษณาและร่างงานออกแบบ: สร้างต้นแบบอย่างรวดเร็วในงานที่ความเที่ยงตรงของข้อความสำคัญ (โปสเตอร์ แบนเนอร์)
การสร้างภาพที่มีเนื้อหาข้อความอ่านได้: สร้างภาพที่ต้องมีคอนเทนต์อ่านได้ (เมนู ป้าย อินเทอร์เฟซ)
สายงานการแก้ไขภาพ: การแก้ไขเฉพาะจุด (แทนที่ข้อความ เพิ่ม/ลบวัตถุ) โดยคงสไตล์และมุมมองไว้
วิธีเข้าถึง Qwen image API

ขั้นตอนที่ 1: สมัครเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน เข้าสู่ CometAPI console รับ API key สำหรับเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx แล้วส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง Qwen image API

เลือกปลายทาง “qwen-image” เพื่อส่งคำขอ API และกำหนด request body วิธีการเรียกและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base URL คือ Images รูปแบบ(https://api.cometapi.com/v1/images/generations) ผ่าน CometAPI

ใส่คำถามหรือคำร้องขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ .

ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะส่งสถานะงานและข้อมูลผลลัพธ์กลับมา

Qwen Image