Qwen-Image-Edit Qwen امیج فیملی کی ایڈیٹنگ برانچ ہے جسے Qwen ٹیم (علی بابا / QwenLM ماحولیاتی نظام) نے تیار کیا ہے۔ یہ 20-بلین پیرامیٹر MMDiT بیک بون پر بنایا گیا ہے اور واضح طور پر Qwen-Image کی اعلی درجے کی ٹیکسٹ رینڈرنگ کی صلاحیتوں کو مضبوط امیج ایڈیٹنگ ورک فلوز میں بڑھاتا ہے۔ ماڈل کا مقصد ان کاموں کے لیے ہے جہاں مخلصانہ امور کی تدوین کی جاتی ہے — مثلاً، نشانات پر متن کو براہ راست تبدیل کرنا، فونٹس اور لے آؤٹ کو محفوظ کرنا، معنوی مستقل مزاجی کو برقرار رکھتے ہوئے اشیاء کو شامل کرنا/ ہٹانا، نقطہ نظر/پوز ٹرانسفارمز، اور عمدہ انداز کی منتقلی۔
کلیدی خصوصیات
- تصویری متن میں درست ترمیم (دو لسانی: چینی اور انگریزی) - زیادہ سے زیادہ فونٹ/سائز/اسٹائل کو محفوظ رکھتے ہوئے متن شامل کریں، ہٹائیں یا تبدیل کریں۔
- دوہری ترمیم کے طریقوں: سیمنٹک + ظاہری شکل - اعلی سطحی معنوی تبدیلیوں (آرام، آبجیکٹ کی تبدیلی، نقطہ نظر) اور نچلی سطح کی ظاہری ترمیم (انداز کی منتقلی، ساخت، مقامی ری ٹچنگ) کی حمایت کرتا ہے۔
- ماسک/علاقہ/ملٹی ٹرن ایڈیٹس - تکراری تطہیر کے ورک فلو کے لیے نقاب پوش پینٹنگ، ریجن پرامپٹس اور زنجیروں سے بند ترمیمات کی حمایت کرتا ہے۔
- ملٹی امیج ان پٹ (تازہ ترین ورژن): 2509 تکرار کثیر امیج ایڈیٹنگ سپورٹ (مثال کے طور پر، شخص+شخص، شخص+پروڈکٹ)، بہتر شناخت/مصنوعات/متن کی مستقل مزاجی اور مقامی کنٹرول نیٹ طرز کے ان پٹ کو شامل کرتا ہے۔
تکنیکی تفصیلات
- بنیادی پیمانہ / خاندان: پر بنایا گیا ہے۔ 20B پیرامیٹر Qwen-Image فاؤنڈیشن ماڈل (MMDiT سٹائل ڈفیوژن / ملٹی موڈل ڈیزائن)۔
- دوہری انکوڈنگ ایڈیٹنگ پائپ لائن: ترمیم ماڈیول (1) Qwen2.5-VL بصری انکوڈر کے ذریعے ایک سیمینٹک نمائندگی اور (2) VAE انکوڈر کے ذریعے ایک تعمیر نو کی نمائندگی حاصل کرتا ہے۔ متوازی طور پر دونوں نمائندگیوں کو کھانا کھلانا ایڈٹ ہیڈ کو سیمنٹک تبدیلی بمقابلہ پکسل فیڈیلیٹی سے تجارت کرنے کے قابل بناتا ہے۔ یہ دوہری انکوڈنگ مضبوط ترامیم کے لیے انجینئرنگ کا بنیادی انتخاب ہے۔
- ترقی پسند / نصابی تربیت: تربیت آسان ٹیکسٹ رینڈرنگ اور جنریشن ٹاسک سے پیچیدہ پیراگراف لیول ٹیکسٹ رینڈرنگ اور ملٹی ٹاسک ایڈیٹنگ مقاصد (T2I، TI2I، I2I تعمیر نو) تک بڑھی۔ اس نصاب کو ماڈل کی بہتر متن کی مخلصی اور تدوین کے استحکام میں مرکزی عنصر بتایا جاتا ہے۔
- ماڈل ذائقہ / ماڈیولز: Qwen-Image-Edit کو MMDiT طرز کے 20B ماڈل کے طور پر بیان کیا گیا ہے جو Qwen2.5-VL اجزاء، ایک ڈفیوژن ایڈیٹنگ ہیڈ، اور ظاہری کنٹرول کے لیے VAE اجزاء کو مربوط کرتا ہے۔
بینچ مارک کارکردگی
دعوی کردہ کراس بینچ مارک SOTA: کیوین ٹیم ایک سے زیادہ عوامی امیج جنریشن اور ایڈیٹنگ بینچ مارکس پر اسٹیٹ آف دی آرٹ (SOTA) یا اعلی درجے کے نتائج کی رپورٹ کرتی ہے۔ GenEval, DPG, OneIG-Bench (نسل) اور GEdit، ImgEdit، GSO (ترمیم)

حدود اور انتباہات (عملی)
- نمونے اور کنارے کے معاملات: کمیونٹی ٹیسٹنگ کبھی کبھار حد سے زیادہ سنترپتی، جلد کی ساخت کے نمونے، یا کچھ اعلی تفصیلی ترمیمات میں سیون کمپوزٹنگ دکھاتا ہے۔ کمیونٹی لائٹنگ فورک کا مقصد ان کو کم کرنا ہے۔
- کمپیوٹ/میموری: 20B ماڈل اور مکمل درستگی والی ترمیمی پائپ لائنیں GPU-انتہائی ہیں۔ bfloat16/FP8 اور آپٹمائزڈ سیمپلنگ ورک فلوز سے مقامی تعیناتی کے فوائد (VRAM اور تاخیر کو کم کرنے کے لیے 4/8 قدم "بجلی" کی مختلف حالتیں موجود ہیں)۔
- حفاظت اور آئی پی: جیسا کہ تمام عام مقصد کے امیجرز کے ساتھ، Qwen-Image-Edit کاپی رائٹ والے کردار یا حساس مواد تیار کر سکتا ہے — پروڈکشن کے استعمال کے لیے اعتدال کے کنٹرول اور حقوق کی منظوری کی ضرورت ہوتی ہے۔ (عام انٹرپرائز بہترین عمل۔)
- ناکامی کے طریقے: غیر واضح یا انتہائی نایاب حروف/الفاظ اب بھی غلط طریقے سے پیش کیے جاسکتے ہیں یا ایک دوسرے کے لیے تکراری ("زنجیروں سے بند") ترمیمات کی ضرورت ہوتی ہے (مصنفین مثالیں نوٹ کرتے ہیں جیسے نایاب چینی گلائف جن میں مرحلہ وار اصلاح کی ضرورت ہوتی ہے)۔
کس طرح Qwen-Image-Edit دوسرے اختیارات کے ساتھ موازنہ کرتا ہے۔
- مستحکم بازی / SDXL (ان پینٹنگ): SDXL پلس ControlNet اور سرشار ان پینٹنگ پائپ لائنز تیز ہیں، وسیع کمیونٹی ٹول سپورٹ اور بہت سے LoRAs؛ وہ پینٹنگ کے عمومی کام کے بہاؤ اور رفتار/کارکردگی میں بہترین ہیں۔ Qwen-Image-Edit کی طاقتیں ہیں۔ مقامی دو لسانی متن میں ترمیم، کچھ معاملات میں سخت شناخت/مصنوعات کی مستقل مزاجی، اور انٹیگریٹڈ سیمنٹک + ظاہری تجارت۔ کمیونٹی کے تقابل سے پتہ چلتا ہے کہ کیوین اکثر ایڈیٹنگ فیڈیلیٹی اور ٹیکسٹ ایڈرینس میں اعلیٰ مقام پر ہے لیکن زیادہ کمپیوٹ لاگت پر۔
- بند سورس ایڈیٹرز (Adobe Firefly / DALL·E / Runway): بند APIs بہت چمکدار ہو سکتے ہیں (UI، مربوط اعتدال، تاخیر کی ضمانتیں)، لیکن Qwen-Image-Edit ایک مکمل طور پر کھلے متبادل کے طور پر نمایاں ہے جو خاص طور پر مضبوط دو لسانی متن کی تدوین کو نشانہ بناتا ہے اور مقامی تعیناتی کی پیشکش کرتا ہے۔ عملی انتخاب اکثر اس بات پر منحصر ہوتا ہے کہ آیا آپ کو مقامی کنٹرول / اوپن لائسنسنگ یا پالش کلاؤڈ UX کی ضرورت ہے۔
عملی استعمال کے معاملات
- پوسٹر اور اشارے کی ترامیم - فونٹ/ٹیکچر کو محفوظ رکھتے ہوئے پوسٹرز پر متن تبدیل کریں۔
- مصنوعات کی مارکیٹنگ / پوسٹر جنریشن - آئٹمز شامل کریں/ہٹائیں، ای کامرس امیجز کے لیے پروڈکٹ کی شناخت برقرار رکھیں۔
- پورٹریٹ شناخت کو محفوظ رکھنے والی ترامیم - شناخت کو مستقل رکھتے ہوئے پوز میں تبدیلیاں، انداز کی منتقلی (2509 میں بہتر)۔
- بحالی اور خطاطی کی اصلاح - پرانی تصویر کی بحالی اور ہاتھ سے لکھے/مطبوعہ حروف کی مرحلہ وار اصلاح۔
- تخلیقی/ڈیزائن ورک فلو - ملٹی امیج کمپوزیشن ایڈیٹس، میم جنریشن، اوتار اسٹائلنگ جہاں دو لسانی متن شامل ہوسکتا ہے۔
CometAPI سے qwen-image-edit API کو کیسے کال کریں۔
qwen-image-edit CometAPI میں API قیمتوں کا تعین، سرکاری قیمت میں 20% چھوٹ:
| ان پٹ ٹوکنز | $2.00 |
| آؤٹ پٹ ٹوکنز | $6.40 |
مطلوبہ اقدامات
- داخل ہوجاو cometapi.com. اگر آپ ابھی تک ہمارے صارف نہیں ہیں، تو براہ کرم پہلے رجسٹر کریں۔
- سائن ان کریں CometAPI کنسول.
- انٹرفیس کی رسائی کی سند API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر "ٹوکن شامل کریں" پر کلک کریں، ٹوکن کی حاصل کریں: sk-xxxxx اور جمع کرائیں۔

طریقہ استعمال کریں
- API کی درخواست بھیجنے کے لیے "qwen-image-edit" اینڈ پوائنٹ کو منتخب کریں اور درخواست کا باڈی سیٹ کریں۔ درخواست کا طریقہ اور درخواست کا باڈی ہماری ویب سائٹ API دستاویز سے حاصل کی گئی ہے۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔
- بدل دیں۔ آپ کے اکاؤنٹ سے اپنی اصل CometAPI کلید کے ساتھ۔
- مواد کے خانے میں اپنا سوال یا درخواست داخل کریں—یہ وہی ہے جس کا ماڈل جواب دے گا۔
- . تیار کردہ جواب حاصل کرنے کے لیے API جواب پر کارروائی کریں۔
CometAPI مکمل طور پر ہم آہنگ REST API فراہم کرتا ہے — بغیر کسی رکاوٹ کے منتقلی کے لیے۔ کی اہم تفصیلات تصویر میں ترمیم کریں:
- بنیادی URL: https://api.cometapi.com/v1/images/edits
- ماڈل کے نام: qwen-image-edit
- توثیق:
Bearer YOUR_CometAPI_API_KEYہیڈر - مواد کی قسم:
application/json.
یہ بھی دیکھتے ہیں Qwen-image API
