API แก้ไขรูปภาพ Qwen

CometAPI
AnnaNov 12, 2025
API แก้ไขรูปภาพ Qwen

Qwen-Image-Edit คือสาขาการแก้ไขของตระกูลรูปภาพ Qwen ที่พัฒนาโดยทีม Qwen (ระบบนิเวศ Alibaba/QwenLM) Qwen-Image สร้างขึ้นบนโครงสร้างพื้นฐาน MMDiT ที่มีพารามิเตอร์ 20 หมื่นล้านพารามิเตอร์ และขยายขีดความสามารถในการเรนเดอร์ข้อความขั้นสูงของ Qwen-Image ไปสู่เวิร์กโฟลว์การแก้ไขรูปภาพที่มีประสิทธิภาพ โมเดลนี้ออกแบบมาสำหรับงานที่ให้ความสำคัญกับความถูกต้องของการแก้ไข เช่น การเปลี่ยนแปลงข้อความบนป้ายโดยตรง การรักษาแบบอักษรและเค้าโครง การเพิ่ม/ลบวัตถุโดยยังคงความสอดคล้องของความหมาย การแปลงมุมมอง/ท่าทาง และการถ่ายโอนสไตล์ที่ละเอียด

หัวข้อสำคัญ

  • การแก้ไขข้อความในภาพที่แม่นยำ (สองภาษา: จีนและอังกฤษ) — เพิ่ม ลบ หรือแทนที่ข้อความ โดยยังคงรักษาแบบอักษร/ขนาด/รูปแบบไว้ให้ได้มากที่สุด
  • โหมดการแก้ไขแบบคู่: ความหมาย + รูปลักษณ์ — รองรับการเปลี่ยนแปลงความหมายระดับสูง (การพักผ่อน การแทนที่วัตถุ มุมมอง) และการแก้ไขรูปลักษณ์ระดับต่ำ (การถ่ายโอนสไตล์ พื้นผิว การปรับแต่งเฉพาะที่)
  • แก้ไขหน้ากาก / ภูมิภาค / หลายเทิร์น รองรับการทาสีทับแบบปิดบัง การแจ้งเตือนภูมิภาค และการแก้ไขแบบต่อเนื่องสำหรับเวิร์กโฟลว์การปรับปรุงแบบวนซ้ำ
  • อินพุตหลายภาพ (เวอร์ชันล่าสุด): การทำซ้ำรุ่น 2509 เพิ่มการรองรับการแก้ไขภาพหลายภาพ (เช่น บุคคล+บุคคล บุคคล+ผลิตภัณฑ์) ปรับปรุงความสอดคล้องของอัตลักษณ์/ผลิตภัณฑ์/ข้อความ และอินพุตสไตล์ ControlNet ดั้งเดิม

รายละเอียดทางเทคนิค

  • มาตราส่วนฐาน / กลุ่ม: สร้างขึ้นบน พารามิเตอร์ 20B แบบจำลองรากฐาน Qwen-Image (การแพร่กระจายสไตล์ MMDiT / การออกแบบหลายโหมด)
  • ท่อแก้ไขการเข้ารหัสแบบคู่: โมดูลการแก้ไขได้รับ (1) การแสดงความหมายผ่านตัวเข้ารหัสภาพ Qwen2.5-VL และ (2) การแสดงความหมายใหม่ผ่านตัวเข้ารหัส VAE การป้อนข้อมูลการแสดงความหมายทั้งสองแบบขนานช่วยให้หัวแก้ไขสามารถแลกเปลี่ยนการเปลี่ยนแปลงทางความหมายกับความเที่ยงตรงของพิกเซลได้ การเข้ารหัสแบบคู่นี้เป็นตัวเลือกทางวิศวกรรมหลักสำหรับการตัดต่อที่มีประสิทธิภาพสูง
  • การฝึกอบรมแบบก้าวหน้า/หลักสูตร: การฝึกอบรมได้พัฒนาจากงานเรนเดอร์และการสร้างข้อความที่ง่ายขึ้น ไปสู่งานเรนเดอร์ข้อความระดับย่อหน้าที่ซับซ้อนและวัตถุประสงค์การแก้ไขแบบมัลติทาสก์ (การสร้างใหม่แบบ T2I, TI2I, I2I) หลักสูตรนี้ได้รับการรายงานว่าเป็นปัจจัยสำคัญในการปรับปรุงความเที่ยงตรงของข้อความและความเสถียรในการแก้ไขของแบบจำลอง
  • รสชาติโมเดล / โมดูล: Qwen-Image-Edit ได้รับการอธิบายว่าเป็นโมเดล 20B สไตล์ MMDiT ที่ผสานรวมส่วนประกอบ Qwen2.5-VL หัวแก้ไขการแพร่กระจาย และส่วนประกอบ VAE เพื่อควบคุมลักษณะที่ปรากฏ

ประสิทธิภาพมาตรฐาน

อ้างสิทธิ์ SOTA ข้ามเกณฑ์มาตรฐาน: ทีม Qwen รายงานผลลัพธ์ระดับสูงสุด (SOTA) จากเกณฑ์มาตรฐานการสร้างและแก้ไขภาพสาธารณะหลายรายการ รวมถึง GenEval, DPG, OneIG-Bench (รุ่น) และ GEdit, ImgEdit, GSO (กำลังแก้ไข)

API แก้ไขรูปภาพ Qwen

ข้อจำกัดและข้อควรระวัง (ในทางปฏิบัติ)

  1. สิ่งประดิษฐ์และกรณีขอบ: การทดสอบชุมชนแสดงให้เห็นการอิ่มตัวที่มากเกินไปเป็นครั้งคราว สิ่งประดิษฐ์พื้นผิวผิวหนัง หรือรอยต่อคอมโพสิตในการแก้ไขรายละเอียดสูงบางรายการ ชุมชน Lightning Forks มุ่งหวังที่จะบรรเทาสิ่งเหล่านี้
  2. การคำนวณ / หน่วยความจำ: โมเดล 20B และไพพ์ไลน์การตัดต่อแบบ Full-Precision ใช้งาน GPU อย่างหนัก การใช้งานภายในได้รับประโยชน์จาก bfloat16/FP8 และเวิร์กโฟลว์การสุ่มตัวอย่างที่ปรับให้เหมาะสม (มีตัวแปร "lightning" 4/8 ขั้นตอนเพื่อลด VRAM และความหน่วง)
  3. ความปลอดภัยและทรัพย์สินทางปัญญา: เช่นเดียวกับโปรแกรมสร้างภาพทั่วไป Qwen-Image-Edit สามารถสร้างตัวละครที่มีลิขสิทธิ์หรือเนื้อหาที่ละเอียดอ่อนได้ การใช้ในการผลิตจำเป็นต้องมีการควบคุมดูแลและการอนุมัติสิทธิ์ (แนวทางปฏิบัติที่ดีที่สุดโดยทั่วไปขององค์กร)
  4. โหมดความล้มเหลว: อักขระ/คำที่คลุมเครือหรือหายากมากอาจยังคงแสดงไม่ถูกต้องหรือต้องมีการแก้ไขแบบวนซ้ำ (“แบบเชื่อมโยง”) เพื่อให้บรรจบกัน (ผู้เขียนสังเกตตัวอย่างเช่น ภาพอักษรจีนหายากที่ต้องมีการแก้ไขแบบขั้นตอน)

Qwen-Image-Edit เปรียบเทียบกับตัวเลือกอื่นอย่างไร

  • การแพร่กระจายที่เสถียร / SDXL (การทาสีทับ): SDXL บวกกับ ControlNet และกระบวนการ inpainting เฉพาะนั้นรวดเร็ว มีเครื่องมือรองรับชุมชนที่กว้างขวางและ LoRA มากมาย อีกทั้งยังโดดเด่นในด้านเวิร์กโฟลว์ inpainting ทั่วไป รวมถึงความเร็ว/ประสิทธิภาพ จุดแข็งของ Qwen-Image-Edit คือ การแก้ไขข้อความสองภาษาพื้นเมืองความสอดคล้องระหว่างตัวตนและผลิตภัณฑ์ที่เข้มงวดยิ่งขึ้นในบางกรณี และการแลกเปลี่ยนระหว่างความหมายและรูปลักษณ์ที่ผสานกัน การเปรียบเทียบชุมชนแสดงให้เห็นว่า Qwen มักได้รับการจัดอันดับสูงกว่าในด้านความเที่ยงตรงของการแก้ไขและการยึดตามข้อความ แต่มีต้นทุนการประมวลผลที่สูงกว่า
  • โปรแกรมแก้ไขแบบปิด (Adobe Firefly / DALL·E / Runway): API แบบปิดอาจมีความซับซ้อนมาก (UI, การกลั่นกรองแบบบูรณาการ, การรับประกันความหน่วง) แต่ Qwen-Image-Edit โดดเด่นในฐานะทางเลือกแบบเปิดอย่างสมบูรณ์ที่มุ่งเน้นการแก้ไขข้อความสองภาษาที่มีประสิทธิภาพโดยเฉพาะ และรองรับการปรับใช้ภายในเครื่อง ทางเลือกที่เหมาะสมมักขึ้นอยู่กับว่าคุณต้องการการควบคุมภายในเครื่อง / การให้สิทธิ์แบบเปิด หรือต้องการประสบการณ์ผู้ใช้บนคลาวด์ที่มีความซับซ้อน

กรณีใช้งานจริง

  • แก้ไขโปสเตอร์และป้าย — เปลี่ยนข้อความบนโปสเตอร์โดยยังคงแบบอักษร/พื้นผิวเอาไว้
  • การตลาดผลิตภัณฑ์ / การสร้างโปสเตอร์ — เพิ่ม/ลบรายการ รักษาเอกลักษณ์ผลิตภัณฑ์สำหรับภาพอีคอมเมิร์ซ
  • การแก้ไขเพื่อรักษาเอกลักษณ์ของภาพบุคคล — การเปลี่ยนแปลงท่าทาง การถ่ายโอนสไตล์ในขณะที่ยังคงรักษาเอกลักษณ์ให้สอดคล้องกัน (ปรับปรุงในปี 2509)
  • การบูรณะและแก้ไขงานเขียนอักษร — การฟื้นฟูภาพถ่ายเก่าและการแก้ไขอักขระที่เขียนด้วยลายมือหรือพิมพ์แบบขั้นตอน
  • เวิร์กโฟลว์ด้านความคิดสร้างสรรค์/การออกแบบ — การแก้ไของค์ประกอบภาพหลายภาพ การสร้างมีม การจัดแต่งอวาตาร์ โดยอาจมีข้อความสองภาษาเข้ามาเกี่ยวข้อง

วิธีการเรียกใช้ API qwen-image-edit จาก CometAPI

qwen-image-edit ราคา API ใน CometAPI ลด 20% จากราคาอย่างเป็นทางการ:

อินพุตโทเค็น$2.00
โทเค็นเอาท์พุต$6.40

ขั้นตอนที่ต้องดำเนินการ

  • เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
  • ลงชื่อเข้าใช้ของคุณ คอนโซล CometAPI.
  • รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง

API แก้ไขรูปภาพ Qwen

ใช้วิธีการ

  1. เลือกปลายทาง “qwen-image-edit” เพื่อส่งคำขอ API และตั้งค่าเนื้อหาคำขอ วิธีการและเนื้อหาคำขอสามารถดูได้จากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีบริการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย
  2. แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
  3. แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
  4. ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น

CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์ เพื่อการย้ายข้อมูลที่ราบรื่น รายละเอียดสำคัญ แก้ไขรูปภาพ:

  • URL ฐาน: https://api.cometapi.com/v1/images/edits
  • ชื่อรุ่น: แก้ไขรูปภาพ qwen
  • รับรองความถูกต้อง: Bearer YOUR_CometAPI_API_KEY ส่วนหัว
  • ชนิดของเนื้อหา: application/json .

ดูสิ่งนี้ด้วย Qwen-image API

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%