Qwen-image API

CometAPI
AnnaNov 12, 2025
Qwen-image API

คิวเวน-อิมเมจ คือการสร้างและแก้ไขภาพ แบบจำลองรากฐาน ในตระกูล Qwen ที่ออกแบบมาเพื่อ การเรนเดอร์ข้อความที่มีความเที่ยงตรงสูง, การแก้ไขที่แม่นยำและการสร้างข้อความเป็นรูปภาพทั่วไป ได้รับการออกแบบมาเพื่อดำเนินการ การสร้างการรับรู้ข้อความ, การแสดงผลข้อความสองภาษา (โดยเฉพาะอย่างยิ่งภาษาจีนและภาษาอังกฤษ) และ การแก้ไขในบริบทแบบละเอียด. การเปิดตัวนี้เน้นย้ำถึงการผสมผสาน เข้าใจ + สร้าง ปรัชญาการออกแบบ (งานการทำความเข้าใจภาพและงานสร้างสรรค์ที่ฝึกอบรมในกระบวนการแบบบูรณาการ)

หัวข้อสำคัญ

  • การเรนเดอร์ข้อความดั้งเดิม / คุณภาพสูงภายในรูปภาพ — โดดเด่นในการผลิตข้อความที่อ่านออกได้และถูกต้องตามความหมายในภาพที่สร้างขึ้น (โปสเตอร์ บรรจุภัณฑ์ ภาพหน้าจอ) — ซึ่งเป็นพื้นที่ที่โมเดลภาพรุ่นก่อนๆ หลายรุ่นประสบปัญหา
  • เอาท์พุตแบบมัลติโหมดที่มีความเที่ยงตรงสูง — สร้างภาพที่เหมือนจริงและมีสไตล์พร้อมรายละเอียดที่ดีและเค้าโครงที่เข้าใจภาษา
  • การถ่ายโอนสไตล์และการปรับปรุงรายละเอียด — สามารถใช้รูปแบบศิลปะที่สอดคล้องกันหรือเสริมรายละเอียดในท้องถิ่นในขณะที่ยังคงรักษาความสอดคล้องของฉากไว้

รายละเอียดทางเทคนิค — วิธีการทำงานของ Qwen-Image

สถาปัตยกรรมและส่วนประกอบ (คำสำคัญ: MMDiT, Qwen2.5-VL) แบบจำลองนี้ใช้ อิงตาม MMDiT หม้อแปลงกระจายสำหรับการสังเคราะห์ภาพรวมกับ ตัวเข้ารหัสภาษาภาพ (Qwen2.5-VL) เพื่อตีความคำกระตุ้นและบริบทภาพ การแยกนี้ช่วยให้โมเดลสามารถจัดการ คำแนะนำด้านความหมาย และ ลักษณะของพิกเซล แตกต่างกันออกไป โดยปรับปรุงความเที่ยงตรงของข้อความและความสอดคล้องของการแก้ไข คลังข้อมูลอย่างเป็นทางการและรายงานทางเทคนิคระบุถึงโครงสร้างหลัก 20B สำหรับโมเดล T2I หลัก

ท่อส่งการฝึกอบรม (คำสำคัญ: การเรียนรู้หลักสูตร, ท่อส่งข้อมูล) เพื่อแก้ปัญหาการแสดงผลข้อความแข็ง Qwen-Image ใช้ หลักสูตรก้าวหน้า: เริ่มต้นด้วยภาพที่ไม่ใช่ข้อความที่เรียบง่ายกว่า และค่อยๆ ฝึกฝนกับตัวอย่างที่ซับซ้อนมากขึ้นซึ่งมีข้อความมากมายจนถึงอินพุตระดับย่อหน้า ทีมงานได้สร้างกระบวนการทำงานที่ครอบคลุม ซึ่งประกอบด้วยการรวบรวมขนาดใหญ่ การกรองอย่างละเอียด การเสริมสังเคราะห์ และการปรับสมดุล เพื่อให้มั่นใจว่าแบบจำลองจะเห็นองค์ประกอบข้อความ/ภาพถ่ายที่สมจริงมากมายระหว่างการฝึก หลักสูตรเชิงกลยุทธ์นี้เป็นเหตุผลสำคัญที่ทำให้แบบจำลองนี้โดดเด่นในการแสดงผลข้อความหลายภาษา

กลไกการแก้ไข (คำสำคัญ: การเข้ารหัสแบบคู่, ตัวเข้ารหัส VAE + VL) สำหรับการแก้ไขระบบ ป้อนภาพต้นฉบับสองครั้ง: เมื่อเข้าไปในตัวเข้ารหัส Qwen2.5-VL แล้ว การควบคุมความหมาย และเมื่อเข้าสู่ตัวเข้ารหัส VAE แล้ว ข้อมูลรูปลักษณ์ที่สร้างสรรค์ใหม่การออกแบบการเข้ารหัสแบบคู่ช่วยให้โมดูลการแก้ไขสามารถรักษาเอกลักษณ์และความถูกต้องของภาพไว้ได้ในขณะที่อนุญาตให้ปรับเปลี่ยนความหมายได้ เช่น การแทนที่วัตถุหรือเปลี่ยนเนื้อหาข้อความโดยไม่ลดทอนส่วนที่ไม่เกี่ยวข้อง

ประสิทธิภาพมาตรฐาน

Qwen-Image บรรลุประสิทธิภาพ SOTA หรือใกล้เคียง SOTA ในเกณฑ์มาตรฐานสาธารณะหลายรายการสำหรับการสร้างและการแก้ไข โดยมีผลลัพธ์ที่แข็งแกร่งเป็นพิเศษในงานการเรนเดอร์ข้อความและเกณฑ์มาตรฐานการจัดองค์ประกอบในโลกแห่งความเป็นจริง (เช่น T2I-CoreBench และชุดการแก้ไขรูปภาพที่คัดสรรมา)

Qwen-image API

Qwen-Image เปรียบเทียบกับนางแบบชั้นนำอื่นๆ อย่างไร

จุดแข็งที่สัมพันธ์กัน: การเรนเดอร์ข้อความและความเที่ยงตรงของข้อความสองภาษา คือข้อได้เปรียบที่โดดเด่นของโมเดลเมื่อเทียบกับคู่แข่งเชิงสร้างสรรค์หลายราย (เช่น DALL·E 3, SDXL, Midjourney) ซึ่งมักมีความแข็งแกร่งกว่าในด้านองค์ประกอบเชิงศิลปะล้วนๆ หรือความหลากหลายทางสไตล์ แต่จะด้อยกว่าในด้านการจัดวางข้อความแบบหลายบรรทัดหรือข้อความภาษาจีน การเปรียบเทียบจากชุมชนหลายแห่งและตารางเปรียบเทียบของผู้เขียนโมเดลสนับสนุนลักษณะเฉพาะนี้

การแลกเปลี่ยนที่เกี่ยวข้อง: เมื่อเทียบกับระบบเชิงพาณิชย์แบบปิดที่ปรับแต่งอย่างหนัก Qwen-Image อาจต้องใช้ หลังการประมวลผล หรือการปรับแต่งแบบพรอมต์/อะแดปเตอร์เพื่อให้ได้ความสมจริงที่เหมือนกันในบางบริบท (การบิดเบี้ยวของพื้นผิวโค้ง การคอมโพสิตภาพที่เหมือนจริง) ตามการทดสอบอิสระ สำหรับผู้ใช้ที่ให้ความสำคัญกับ การออกแบบเทมเพลต แบบจำลองบรรจุภัณฑ์ หรือเค้าโครงข้อความสองภาษา, Qwen-Image มีแนวโน้มจะดีกว่า


กรณีการใช้งานทั่วไปและมีมูลค่าสูง

  • บรรจุภัณฑ์และการจำลองผลิตภัณฑ์: ข้อความที่ถูกต้องและเค้าโครงหลายบรรทัดสำหรับฉลากและการทดลองบรรจุภัณฑ์
  • ร่างโฆษณาและการออกแบบ: การสร้างต้นแบบอย่างรวดเร็วโดยที่ความถูกต้องของข้อความมีความสำคัญ (โปสเตอร์ แบนเนอร์)
  • การสร้างภาพเอกสาร: การสร้างภาพที่ต้องมีเนื้อหาที่สามารถอ่านได้ (เมนู ป้าย อินเทอร์เฟซ)
  • ท่อแก้ไขภาพ: การแก้ไขที่กำหนดเป้าหมาย (การแทนที่ข้อความ การเพิ่ม/ลบวัตถุ) โดยรักษาสไตล์และมุมมอง

วิธีการเรียกใช้ qwen-image API จาก CometAPI

qwen-image ราคา API ใน CometAPI ลด 20% จากราคาอย่างเป็นทางการ:

ขั้นตอนที่ต้องดำเนินการ

  • เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
  • ลงชื่อเข้าใช้ของคุณ คอนโซล CometAPI.
  • รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง

Qwen-image API

ใช้วิธีการ

  1. เลือกปลายทาง “qwen-image” เพื่อส่งคำขอ API และตั้งค่าเนื้อหาคำขอ วิธีการและเนื้อหาคำขอสามารถดูได้จากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีบริการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย
  2. แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
  3. แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
  4. ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น

CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์ เพื่อการย้ายข้อมูลที่ราบรื่น รายละเอียดสำคัญ การสร้างภาพ:

  • URL ฐาน: https://api.cometapi.com/v1/images/generations
  • ชื่อรุ่น: ภาพคเวน
  • รับรองความถูกต้อง: Bearer YOUR_CometAPI_API_KEY ส่วนหัว
  • ชนิดของเนื้อหา: application/json .

โมเดล “qwen-image” ไม่ต้องการพารามิเตอร์ “n” และสามารถส่งออกรูปภาพได้เพียงรูปเดียวเท่านั้น

ดูสิ่งนี้ด้วย Gemini 2.5 Flash Image API (Nano-Banana)

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%