Q

Qwen Image

За запрос:$0.028
Qwen-Image ایک انقلابی تصویر سازی کا بنیادی ماڈل ہے، جو Alibaba کی Tongyi Qianwen ٹیم کی جانب سے 2025 میں جاری کیا گیا۔ 20 ارب پیرامیٹرز کے پیمانے کے ساتھ، یہ MMDiT (Multimodal Diffusion Transformer) آرکیٹیکچر پر مبنی ہے۔ یہ ماڈل پیچیدہ متن کی رینڈرنگ اور نہایت درست تصویری ترمیم میں نمایاں پیش رفت حاصل کر چکا ہے، اور بالخصوص چینی متن کی رینڈرنگ میں غیر معمولی کارکردگی دکھاتا ہے۔ DeepL.com (مفت ورژن) کے ذریعے ترجمہ کیا گیا
Новый
Коммерческое использование

کلیدی خصوصیات

  • تصاویر کے اندر متن کی اصل/اعلیٰ معیار کی رینڈرنگ — تیار کردہ تصاویر میں قابلِ مطالعہ اور معنوی طور پر درست متن پیدا کرنے میں ممتاز ہے (پوسٹرز، پیکیجنگ، اسکرین شاٹس) — یہ وہ شعبہ ہے جس میں بہت سے سابقہ امیج ماڈلز کو مشکل پیش آتی تھی۔
  • اعلیٰ وفاداری کی ملٹی ماڈل آؤٹ پٹ — عمدہ جزئیات اور زبان سے باخبر لے آؤٹ کے ساتھ فوٹو حقیقت سے قریب اور اسٹائلائزڈ تصاویر بناتا ہے۔
  • اسٹائل ٹرانسفر اور جزئیات میں بہتری — منظر کی ہم آہنگی برقرار رکھتے ہوئے مستقل فنی انداز لاگو کر سکتا ہے یا مقامی جزئیات کو بہتر بنا سکتا ہے۔

تکنیکی تفصیلات — Qwen-Image کیسے کام کرتا ہے

معماری اور اجزا (کلیدی الفاظ: MMDiT, Qwen2.5-VL). یہ ماڈل تصویر کی تیاری کے لیے MMDiT-بیسڈ ڈفیوژن ٹرانسفارمر استعمال کرتا ہے اور پرامپٹس اور بصری سیاق کی تفہیم کے لیے ایک ویژول-لینگوئج اینکوڈر (Qwen2.5-VL) کے ساتھ جوڑا جاتا ہے۔ یہ تفریق ماڈل کو معنوی رہنمائی اور پکسل کی ظاہری شکل کو الگ طور پر برتنے دیتی ہے، جس سے متن کی وفاداری اور ایڈٹ کی یکسانیت بہتر ہوتی ہے۔ آفیشل ریپوزٹری اور تکنیکی رپورٹ مرکزی T2I ماڈل کے لیے 20B پیرامیٹر بیک بون کا ذکر کرتی ہیں۔

ٹریننگ پائپ لائن (کلیدی الفاظ: curriculum learning, data pipeline). مشکل ٹیکسٹ رینڈرنگ کے مسئلے کو حل کرنے کے لیے، Qwen-Image ایک تدرجی نصاب اختیار کرتا ہے: ابتدا نسبتاً سادہ غیر متنی تصاویر سے ہوتی ہے اور بتدریج ایسے پیچیدہ، متن سے بھرپور نمونوں پر تربیت کی جاتی ہے جو پیراگراف سطح تک پہنچتے ہیں۔ ٹیم نے ایک جامع پائپ لائن تیار کی جس میں بڑے پیمانے پر جمع آوری، محتاط فلٹرنگ، مصنوعی افزائش اور توازن شامل ہے تاکہ تربیت کے دوران ماڈل کو متن/تصویر کی حقیقت پسندانہ ترکیبیں بکثرت نظر آئیں۔ یہ حکمتِ عملی پر مبنی نصاب ہی وہ بنیادی وجہ ہے جس سے ماڈل کثیر لسانی متن رینڈرنگ میں ممتاز ہے۔

ایڈٹنگ میکانزم (کلیدی الفاظ: dual-encoding, VAE + VL encoder). تدوین کے لیے، سسٹم اصل تصویر کو دو مرتبہ فیڈ کرتا ہے: ایک بار معنوی کنٹرول کے لیے Qwen2.5-VL اینکوڈر میں، اور ایک بار باز تعمیری ظاہری معلومات کے لیے VAE اینکوڈر میں۔ ڈوئل-انکوڈنگ ڈیزائن ایڈٹ ماڈیول کو شناخت اور بصری وفاداری برقرار رکھتے ہوئے معنوی تبدیلیوں کی اجازت دیتا ہے — مثلاً کسی شے کو بدلنا یا متنی مواد کو تبدیل کرنا، بغیر غیر متعلقہ علاقوں کو بگاڑے۔

بینچ مارک کارکردگی

Qwen-Image نے تخلیق اور ایڈٹنگ دونوں کے لیے متعدد عوامی بینچ مارکس پر SOTA یا قریب از SOTA کارکردگی حاصل کی ہے، خصوصاً متن رینڈرنگ کے کاموں اور حقیقی دنیا کی کمپوزیشن بینچ مارکس میں (مثلاً T2I-CoreBench اور مرتب کردہ امیج ایڈٹنگ سوئٹس)۔

Qwen-image API

دیگر سرکردہ ماڈلز کے مقابلے میں Qwen-Image کی حیثیت

نسبتی مضبوطیاں: متن رینڈرنگ اور دو لسانی متن کی وفاداری اس ماڈل کے امتیازی فوائد ہیں، کئی جنریٹو حریفوں (مثلاً DALL·E 3, SDXL, Midjourney) کے مقابلے میں، جو محض فنی کمپوزیشن یا اسلوبی تنوع میں اکثر زیادہ طاقتور ہوتے ہیں مگر گھنے، متعدد سطری یا چینی متن کے لے آؤٹ میں کمزور پڑ جاتے ہیں۔ کمیونٹی کی متعدد تقابلی مثالیں اور ماڈل مصنفین کی بینچ مارک جدولیں اس تعبیر کی تائید کرتی ہیں۔

نسبتی سمجھوتے: بند، سختی سے ٹیون کیے گئے کمرشل سسٹمز کے مقابلے میں، خود مختار ٹیسٹس کے مطابق بعض حالات میں (مثلاً خمیدہ سطحوں کی وارپنگ، فوٹوریئلسٹک کمپوزٹنگ) یکساں حقیقت پسندی تک پہنچنے کے لیے Qwen-Image کو پوسٹ پروسیسنگ یا پرامپٹ/اڈاپٹر ٹیوننگ درکار ہو سکتی ہے۔ جن صارفین کے لیے ٹیمپلیٹڈ ڈیزائنز، پیکیجنگ ماک اپس، یا دو لسانی متن لے آؤٹس ترجیح ہوں، ان کے لیے Qwen-Image عموماً زیادہ موزوں ثابت ہوتا ہے۔


معمول اور اعلیٰ قدر کے استعمالات

  • پیکیجنگ اور پروڈکٹ ماک اپس: لیبلز اور پیکیجنگ ٹرائلز کے لیے درست متن اور متعدد سطروں والے لے آؤٹس۔
  • اشتہارات اور ڈیزائن ڈرافٹس: جہاں متن کی وفاداری اہم ہو وہاں تیز رفتار پروٹو ٹائپنگ (پوسٹرز، بینرز)۔
  • دستاویزی نوعیت کی امیج جنریشن: ایسی تصاویر بنانا جن میں قابلِ مطالعہ مواد شامل ہونا ضروری ہو (مینوز، سائنز، انٹرفیسز)۔
  • امیج ایڈٹنگ پائپ لائنز: ہدفی تدوین (متن کی تبدیلی، اشیا کا شامل/حذف) جبکہ اسلوب اور پرسپیکٹو برقرار رہے۔
  • Qwen image API تک رسائی کا طریقہ

مرحلہ 1: API Key کے لیے سائن اپ کریں

cometapi.com میں لاگ ان کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن ان کریں۔ انٹرفیس کی رسائی اسناد یعنی API key حاصل کریں۔ پرسنل سینٹر میں API ٹوکن پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور سبمٹ کریں۔

مرحلہ 2: Qwen image API کو درخواستیں بھیجیں

API درخواست بھیجنے کے لیے “qwen-image” اینڈ پوائنٹ منتخب کریں اور ریکوئسٹ باڈی سیٹ کریں۔ درخواست کا طریقہ اور ریکوئسٹ باڈی ہماری ویب سائٹ کی API ڈاک سے حاصل کیے جا سکتے ہیں۔ آپ کی سہولت کے لیے ہماری ویب سائٹ Apifox ٹیسٹ بھی فراہم کرتی ہے۔ <YOUR_API_KEY> کو اپنے اکاؤنٹ کی اصل CometAPI key سے تبدیل کریں۔ بنیادی بیس URL Images فارمیٹ (https://api.cometapi.com/v1/images/generations) کے ذریعے CometAPI ہے۔

اپنا سوال یا درخواست content فیلڈ میں درج کریں — اسی پر ماڈل جواب دے گا۔

مرحلہ 3: نتائج حاصل کریں اور تصدیق کریں

جنریٹ شدہ جواب حاصل کرنے کے لیے API ریسپانس کو پروسیس کریں۔ پروسیسنگ کے بعد، API ٹاسک کی حیثیت اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔

Больше моделей