Q

Qwen Image

ต่อคำขอ:$0.028
Qwen-Image เป็นโมเดลพื้นฐานสำหรับการสร้างภาพที่ปฏิวัติวงการ ซึ่งเปิดตัวโดยทีม Tongyi Qianwen ของ Alibaba ในปี 2025. ด้วยขนาดพารามิเตอร์ 20 พันล้าน โมเดลนี้อิงกับสถาปัตยกรรม MMDiT (Multimodal Diffusion Transformer). โมเดลนี้ได้บรรลุความก้าวหน้าอย่างมีนัยสำคัญในการเรนเดอร์ข้อความที่ซับซ้อนและการแก้ไขภาพอย่างแม่นยำ โดยแสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นเป็นพิเศษ โดยเฉพาะในการเรนเดอร์ข้อความภาษาจีน. แปลด้วย DeepL.com (เวอร์ชันฟรี)
ใหม่
ใช้งานเชิงพาณิชย์

คุณสมบัติหลัก

  • การเรนเดอร์ข้อความภายในภาพแบบเนทีฟ / คุณภาพสูง — โดดเด่นในการสร้างข้อความที่อ่านได้ชัดเจนและมีความหมายถูกต้องภายในภาพที่สร้างขึ้น (โปสเตอร์ บรรจุภัณฑ์ ภาพหน้าจอ) — ซึ่งเป็นด้านที่โมเดลภาพรุ่นก่อนหน้าหลายรุ่นทำได้ไม่ดี
  • เอาต์พุตหลายโมดัลที่มีความเที่ยงตรงสูง — สร้างภาพทั้งแบบสมจริงและมีสไตล์ได้โดยมีรายละเอียดดีและเลย์เอาต์ที่รับรู้ภาษาได้
  • การถ่ายโอนสไตล์และการเพิ่มรายละเอียด — สามารถใช้สไตล์ทางศิลปะอย่างสม่ำเสมอหรือเพิ่มรายละเอียดเฉพาะจุดโดยยังคงความสอดคล้องของฉากไว้

รายละเอียดทางเทคนิค — Qwen-Image ทำงานอย่างไร

สถาปัตยกรรมและองค์ประกอบ (คีย์เวิร์ด: MMDiT, Qwen2.5-VL). โมเดลนี้ใช้ diffusion transformer แบบ MMDiT-based สำหรับการสังเคราะห์ภาพ ร่วมกับ visual-language encoder (Qwen2.5-VL) เพื่อทำความเข้าใจพรอมต์และบริบททางภาพ การแยกส่วนนี้ช่วยให้โมเดลจัดการ semantic guidance และ pixel appearance ได้แตกต่างกัน ส่งผลให้ความแม่นยำของข้อความและความสม่ำเสมอในการแก้ไขดีขึ้น ที่เก็บโค้ดอย่างเป็นทางการและรายงานทางเทคนิคระบุว่าแบ็กโบนของโมเดล T2I หลักมีพารามิเตอร์ 20B

ไปป์ไลน์การฝึก (คีย์เวิร์ด: curriculum learning, data pipeline). เพื่อแก้ปัญหาการเรนเดอร์ข้อความที่ยาก Qwen-Image ใช้ progressive curriculum: เริ่มจากภาพที่ง่ายกว่าและไม่มีข้อความ แล้วค่อย ๆ ฝึกด้วยตัวอย่างที่ซับซ้อนและมีข้อความมากขึ้น จนถึงอินพุตระดับย่อหน้า ทีมงานได้สร้างไปป์ไลน์ที่ครอบคลุมซึ่งรวมถึงการเก็บข้อมูลขนาดใหญ่ การคัดกรองอย่างรอบคอบ การเสริมข้อมูลสังเคราะห์ และการปรับสมดุล เพื่อให้แน่ใจว่าโมเดลได้เห็นองค์ประกอบข้อความ/ภาพถ่ายที่สมจริงจำนวนมากระหว่างการฝึก หลักสูตรเชิงกลยุทธ์นี้เป็นเหตุผลสำคัญที่ทำให้โมเดลโดดเด่นด้านการเรนเดอร์ข้อความหลายภาษา

กลไกการแก้ไข (คีย์เวิร์ด: dual-encoding, VAE + VL encoder). สำหรับการแก้ไข ระบบจะ ป้อนภาพต้นฉบับเข้าไปสองครั้ง: ครั้งหนึ่งเข้าสู่ตัวเข้ารหัส Qwen2.5-VL เพื่อ การควบคุมเชิงความหมาย และอีกครั้งเข้าสู่ตัวเข้ารหัส VAE เพื่อ ข้อมูลลักษณะปรากฏเพื่อการสร้างกลับ การออกแบบแบบ dual-encoding ช่วยให้โมดูลแก้ไขสามารถรักษาอัตลักษณ์และความเที่ยงตรงทางภาพไว้ได้ ขณะเดียวกันก็เปิดให้มีการปรับเปลี่ยนเชิงความหมาย — ตัวอย่างเช่น การแทนที่วัตถุหรือเปลี่ยนเนื้อหาข้อความโดยไม่ทำให้บริเวณที่ไม่เกี่ยวข้องเสื่อมคุณภาพ

ประสิทธิภาพบนเบนช์มาร์ก

Qwen-Image ทำผลงานระดับ SOTA หรือใกล้เคียง SOTA ในหลายเบนช์มาร์กสาธารณะทั้งด้านการสร้างและการแก้ไข โดยมีผลลัพธ์เด่นเป็นพิเศษในงานเรนเดอร์ข้อความและเบนช์มาร์กด้านองค์ประกอบภาพในโลกจริง (เช่น T2I-CoreBench และชุดทดสอบการแก้ไขภาพที่คัดสรรมา)

Qwen-image API

Qwen-Image เปรียบเทียบกับโมเดลชั้นนำอื่นอย่างไร

จุดแข็งเมื่อเทียบกัน: การเรนเดอร์ข้อความและความเที่ยงตรงของข้อความสองภาษา คือจุดเด่นเฉพาะของโมเดลนี้เมื่อเทียบกับคู่แข่งด้านการสร้างภาพจำนวนมาก (เช่น DALL·E 3, SDXL, Midjourney) ซึ่งมักแข็งแกร่งกว่าในด้านองค์ประกอบเชิงศิลป์ล้วน ๆ หรือความหลากหลายของสไตล์ แต่ด้อยกว่าในด้านเลย์เอาต์ข้อความหลายบรรทัดที่หนาแน่นหรือข้อความภาษาจีน การเปรียบเทียบจากชุมชนหลายแห่งและตารางเบนช์มาร์กของผู้พัฒนาโมเดลสนับสนุนข้อสรุปนี้

ข้อแลกเปลี่ยนเมื่อเทียบกัน: เมื่อเทียบกับระบบเชิงพาณิชย์แบบปิดที่ได้รับการปรับจูนอย่างหนัก Qwen-Image อาจต้องใช้ การประมวลผลภายหลัง หรือการปรับจูนพรอมต์/อะแดปเตอร์ เพื่อให้ได้ความสมจริงเทียบเท่ากันในบางบริบท (การบิดเบี้ยวบนพื้นผิวโค้ง การคอมโพสิตภาพสมจริง) ตามการทดสอบอิสระ สำหรับผู้ใช้ที่ให้ความสำคัญกับ งานออกแบบตามเทมเพลต ม็อกอัปบรรจุภัณฑ์ หรือเลย์เอาต์ข้อความสองภาษา Qwen-Image มักเป็นตัวเลือกที่เหมาะกว่า


กรณีการใช้งานทั่วไปและมีมูลค่าสูง

  • บรรจุภัณฑ์และม็อกอัปสินค้า: ข้อความที่ถูกต้องและเลย์เอาต์หลายบรรทัดสำหรับฉลากและการทดลองบรรจุภัณฑ์
  • โฆษณาและแบบร่างการออกแบบ: การทำต้นแบบอย่างรวดเร็วในกรณีที่ความเที่ยงตรงของข้อความมีความสำคัญ (โปสเตอร์ แบนเนอร์)
  • การสร้างภาพเชิงเอกสาร: การสร้างภาพที่ต้องมีเนื้อหาซึ่งอ่านได้ (เมนู ป้าย อินเทอร์เฟซ)
  • ไปป์ไลน์การแก้ไขภาพ: การแก้ไขแบบเจาะจง (การแทนที่ข้อความ การเพิ่ม/ลบวัตถุ) โดยคงสไตล์และมุมมองไว้
  • วิธีเข้าถึง Qwen image API

ขั้นตอนที่ 1: สมัครเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console ของคุณ รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ

ขั้นตอนที่ 2: ส่งคำขอไปยัง Qwen image API

เลือก endpoint “qwen-image ” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณด้วย แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Images format(https://api.cometapi.com/v1/images/generations) ผ่าน CometAPI

ใส่คำถามหรือคำขอของคุณลงในช่อง content—นี่คือสิ่งที่โมเดลจะตอบกลับ .

ขั้นตอนที่ 3: ดึงข้อมูลและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะของงานและข้อมูลเอาต์พุต