Qwen-Image Model สามารถกำหนดนิยามใหม่ของการสร้างและแก้ไขภาพด้วย AI ได้หรือไม่

วันที่ 4 สิงหาคม 2025 ทีม Qwen ของ Alibaba ได้เปิดตัวอย่างเป็นทางการ คิวเวน-อิมเมจแบบจำลองพื้นฐานหม้อแปลงกระจายหลายโหมด (MMDiT) ขนาด 20 พันล้านพารามิเตอร์ ออกแบบมาเพื่อมอบความเที่ยงตรงที่เหนือชั้นในการสังเคราะห์ข้อความเป็นรูปภาพและการแก้ไขภาพที่แม่นยำ การเปิดตัวครั้งนี้ถือเป็นการก้าวเข้าสู่เวทีการสร้างภาพแบบโอเพนซอร์สอย่างกล้าหาญของ Alibaba และทำให้ Qwen-Image เป็นคู่แข่งโดยตรงกับระบบที่เป็นกรรมสิทธิ์อย่าง GPT-4o, DALL·E 2 และ Midjourney ของ OpenAI

นวัตกรรมทางเทคนิค

คิวเวน-อิมเมจ 20 B MMDiT โครงสร้างหลักถือเป็นความสำเร็จทางวิศวกรรมที่สำคัญ ช่วยให้โมเดลนี้โดดเด่นในการแสดงผลเนื้อหาข้อความที่ซับซ้อนภายในภาพที่สร้างขึ้นโดยตรง วิธีการเรียนรู้หลักสูตรนี้เริ่มต้นจากงานเรนเดอร์ที่ไม่ใช่ข้อความง่ายๆ และค่อยๆ พัฒนาไปสู่การจัดการคำอธิบายความยาวย่อหน้า ซึ่งให้ผลลัพธ์ที่แม่นยำเป็นพิเศษทั้งในภาษาตัวอักษรและภาษาโลโกกราฟิก นอกจากนี้ โมเดลนี้ยังรวม การเข้ารหัสแบบคู่ กลไก—ประมวลผลการแสดงความหมายและการสร้างใหม่แยกกันผ่าน Qwen2.5-VL และตัวเข้ารหัส VAE—ซึ่งสร้างสมดุลระหว่างการรักษาความสอดคล้องของความหมายและความสมจริงของภาพในระหว่างการแก้ไขภาพ

ความก้าวหน้าในการแสดงผลและแก้ไขข้อความ

สิ่งที่ทำให้ Qwen-Image แตกต่างคือ การสนับสนุนดั้งเดิมสำหรับข้อความที่ฝังไว้ทำให้สามารถวางข้อความภาษาอังกฤษและภาษาจีนที่อ่านง่ายลงในรูปภาพได้ ทั้งในรูปแบบหลายบรรทัดและบริบทของย่อหน้า เกณฑ์มาตรฐานภายในแสดงให้เห็นว่า Qwen-Image มีประสิทธิภาพเหนือกว่าคู่แข่งโอเพนซอร์สหลายรายในด้านความรวดเร็วในการตอบสนองและความชัดเจนของข้อความ ทำให้เหมาะอย่างยิ่งสำหรับการใช้งานที่ต้องการองค์ประกอบการออกแบบหลายภาษา ความสามารถในการแก้ไขรูปภาพยังได้รับประโยชน์จากกระบวนทัศน์การฝึกอบรมแบบมัลติทาสก์ที่ผสานรวมงานสร้างภาพใหม่จากข้อความเป็นรูปภาพ ข้อความภาพเป็นรูปภาพ และภาพเป็นรูปภาพ ซึ่งช่วยเพิ่มความสอดคล้องเมื่อแก้ไขภาพที่มีอยู่

การประเมินอิสระแสดงให้เห็นถึงความเหนือกว่าของ Qwen-Image เหนือโมเดลโอเพนซอร์สและโมเดลที่เป็นกรรมสิทธิ์ชั้นนำหลายรุ่นในด้านความแม่นยำในการฝังข้อความ ในการทดสอบเปรียบเทียบ Qwen-Image เหนือกว่าโมเดลโอเพนซอร์สระดับกลาง และเป็นคู่แข่งของซอฟต์แวร์เชิงพาณิชย์อย่าง Midjourney ในด้านการใช้งานที่รวดเร็ว โดยเฉพาะอย่างยิ่งเมื่อใช้กับพรอมต์สองภาษาที่ผสมผสานภาษาอังกฤษและภาษาจีน แม้ว่าระบบที่เป็นกรรมสิทธิ์บางระบบอาจยังคงเป็นผู้นำในการสร้างฉากที่ซับซ้อนอย่างยิ่ง แต่เสียงตอบรับจากผู้ใช้ในช่วงแรกเน้นย้ำถึงความชัดเจนที่ไม่มีใครเทียบได้ของ Qwen-Image สำหรับเค้าโครงข้อความหลายภาษาและการควบคุมการแก้ไขที่แข็งแกร่ง

สอดคล้องกับความมุ่งมั่นของ Alibaba ที่จะพัฒนา AI ให้ “เปิดกว้าง โปร่งใส และยั่งยืน” Qwen-Image คือ โอเพนซอร์ส บนแพลตฟอร์ม MoDa เชิญชวนชุมชนร่วมมีส่วนร่วมและปรับแต่ง นอกเหนือจากการเปิดตัวโมเดลแล้ว อาลีบาบายังได้เผยแพร่เอกสารประกอบ โค้ดตัวอย่าง และพอร์ทัลข้อเสนอแนะอย่างละเอียด เพื่อสนับสนุนการทดสอบจริงในกรณีการใช้งานที่หลากหลาย ตั้งแต่ขั้นตอนการเผยแพร่อัตโนมัติไปจนถึงเครื่องมือทางการศึกษาแบบอินเทอร์แอคทีฟ

ผลการประเมิน

เกณฑ์มาตรฐานภายในและการประเมินของบุคคลภายนอกของ Alibaba แสดงให้เห็นภาพประสิทธิภาพชั้นนำของ Qwen-Image:

GenEval (การสร้างภาพทั่วไป): บรรลุระยะเริ่มต้น Fréchet (FID) ของ 10.2มีประสิทธิภาพเหนือกว่าโมเดลพารามิเตอร์ B 20 ตัวที่เปรียบเทียบได้โดยเฉลี่ย 9%
LongText-Bench (การเรนเดอร์ข้อความ): คะแนน 92.7% ความแม่นยำในการวางข้อความหลายบรรทัดและความสมบูรณ์ของสัญลักษณ์ แซงหน้า GPT-4.1 ถึง 14%
GEdit/ImgEdit (การแก้ไขรูปภาพ): ลงทะเบียนคะแนนความคิดเห็นเฉลี่ย (MOS) ของ 4.3/5สะท้อนถึงความพึงพอใจของผู้ใช้สูงในการรักษาความสอดคล้องทางความหมายระหว่างการแก้ไข
OneIG-Bench (การสร้างอินโฟกราฟิก): อยู่ในอันดับสามโมเดลที่ดีที่สุดสำหรับการเรนเดอร์ข้อมูลที่มีโครงสร้างและแผนภูมิโดยตรงจากคำแนะนำ แสดงให้เห็นถึงความสามารถในการจัดเค้าโครงและการเลือกสีที่แข็งแกร่ง
การจัดอันดับกระดานผู้นำ:บนกระดานผู้นำภาพวิเคราะห์เชิงเทียม Qwen-Image อยู่ในอันดับที่ 5 ในบรรดาโมเดลสร้างภาพทั้งหมดในปัจจุบัน และเป็นโมเดลเปิดเพียงตัวเดียวที่อยู่ใน 10 อันดับแรก ซึ่งแสดงให้เห็นถึงความได้เปรียบในการแข่งขันในชุมชนการวิจัย

การเข้าถึงและระบบนิเวศ

ชุดคุณสมบัติที่หลากหลายของ Qwen-Image ปลดล็อกการใช้งานในโลกแห่งความเป็นจริงมากมาย:

การตลาดและการโฆษณา: การสร้างภาพส่งเสริมการขายที่รวดเร็วตามสั่งพร้อมสโลแกนและองค์ประกอบข้อความหลายภาษา
เนื้อหาการศึกษา: การสร้างไดอะแกรมประกอบ อินโฟกราฟิก และภาพพร้อมคำอธิบายอัตโนมัติสำหรับแพลตฟอร์ม e-learning
การออกแบบและการสร้างต้นแบบ: โมเดลจำลองและคอนเซ็ปต์อาร์ตแบบออนเดอะฟลายพร้อมเลเยอร์ที่แก้ไขได้สำหรับเวิร์กโฟลว์เชิงสร้างสรรค์แบบโต้ตอบ
บริการแปลภาษา: การปรับภาพให้เข้ากับบริบททางภาษาต่างๆ ได้อย่างราบรื่นโดยไม่ต้องใช้ความพยายามในการออกแบบกราฟิกด้วยตนเอง

ผู้ใช้สามารถโต้ตอบกับ Qwen-Image ผ่านทางอินเทอร์เฟซ Chat Qwen ของ Alibaba โดยเลือกโหมด "Image Generation" หรือรวมโมเดลเข้ากับสภาพแวดล้อมของตนผ่านที่เก็บ GitHub และ CometAPI API

การใช้งานแบบโต้ตอบ: เยี่ยมชม แชท.คเวน.เอไอ และเลือกโมเดล Qwen ที่ไม่เข้ารหัส จากนั้นสลับไปที่ "การสร้างภาพ" เพื่อเริ่มสร้าง
โค้ดและน้ำหนัก:
GitHub: github.com/QwenLM/Qwen-Image
กอดหน้า: huggingface.co
โมเดลสโคป: modelscope.cn

อาลีบาบาสนับสนุนการตอบรับและการมีส่วนร่วมของชุมชนเพื่อส่งเสริม เปิดกว้าง โปร่งใส และยั่งยืน ระบบนิเวศ AI เชิงสร้างสรรค์

การผสานรวม Qwen-Image ล่าสุดจะปรากฏบน CometAPI เร็วๆ นี้ โปรดติดตาม! ในขณะที่เรากำลังสรุปการอัปโหลดโมเดล Qwen-Image ให้สำรวจโมเดลอื่นๆ ของเราในหน้าโมเดลหรือลองใช้ใน AI Playground

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

ดูเพิ่มเติม

นวัตกรรมทางเทคนิค

ความก้าวหน้าในการแสดงผลและแก้ไขข้อความ

ผลการประเมิน

การเข้าถึงและระบบนิเวศ

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว