4 اگست 2025 کو علی بابا کی Qwen ٹیم کا باضابطہ آغاز ہوا۔ کیوین امیج، ایک 20 بلین پیرامیٹر ملٹی موڈل ڈفیوژن ٹرانسفارمر (MMDiT) فاؤنڈیشن ماڈل جو متن سے تصویر کی ترکیب اور درست تصویری ترمیم میں بے مثال وفاداری فراہم کرنے کے لیے ڈیزائن کیا گیا ہے۔ یہ ریلیز اوپن سورس امیج جنریشن کے میدان میں علی بابا کی جرات مندانہ داخلے کی نشاندہی کرتی ہے، Qwen-Image کو OpenAI کے GPT-4o، DALL·E 2، اور Midjourney جیسے ملکیتی نظاموں کے لیے براہ راست چیلنجر کے طور پر پوزیشن میں رکھتی ہے۔
تکنیکی اختراعات
Qwen-Image's 20 بی ایم ایم ڈی آئی ٹی بیک بون انجینئرنگ کے ایک اہم کارنامے کو نشان زد کرتا ہے، جس سے ماڈل کو تخلیق کردہ تصاویر کے اندر پیچیدہ متنی مواد کو براہ راست پیش کرنے کے قابل بناتا ہے۔ اس کا نصاب سیکھنے کا نقطہ نظر سادہ غیر متنی رینڈرنگ کے کاموں سے شروع ہوتا ہے اور پیراگراف کی لمبائی کی وضاحتوں کو سنبھالنے کے لیے بتدریج ترقی کرتا ہے، جس سے حروف تہجی اور لوگوگرافک دونوں زبانوں میں غیر معمولی وفاداری حاصل ہوتی ہے۔ مزید یہ کہ، ماڈل میں ایک شامل ہے۔ دوہری انکوڈنگ میکانزم — Qwen2.5-VL اور VAE انکوڈر کے ذریعے سیمنٹک اور تعمیر نو کی نمائندگی کو الگ سے پروسیس کرنا — جو تصویری ترامیم کے دوران سیمنٹک مستقل مزاجی اور بصری حقیقت پسندی کے درمیان توازن قائم کرتا ہے۔
ٹیکسٹ رینڈرنگ اور ایڈیٹنگ میں کامیابیاں
Qwen-Image کے لیے ایک اہم تفریق کرنے والا یہ ہے۔ ایمبیڈڈ ٹیکسٹ کے لیے مقامی سپورٹ, اسے قابل بناتا ہے کہ انگریزی اور چینی متن کو تصاویر کے اندر ملٹی لائن لے آؤٹ اور پیراگراف سیاق و سباق میں رکھ سکے۔ اندرونی معیارات سے پتہ چلتا ہے کہ Qwen-Image نے فوری طور پر عمل کرنے اور متن کی وضاحت میں بہت سے اوپن سورس حریفوں کو پیچھے چھوڑ دیا ہے، جو اسے کثیر لسانی ڈیزائن عناصر کی ضرورت والی ایپلی کیشنز کے لیے مثالی بناتا ہے۔ اس کی امیج ایڈیٹنگ کی صلاحیتیں ملٹی ٹاسک ٹریننگ پیراڈائم سے بھی فائدہ اٹھاتی ہیں جو ٹیکسٹ ٹو امیج، ٹیکسٹ امیج سے امیج، اور امیج ٹو امیج ری کنسٹرکشن کے کاموں کو مربوط کرتی ہے، موجودہ ویژول میں ترمیم کرتے وقت مستقل مزاجی کو بڑھاتی ہے۔
آزاد تجزیے متن میں سرایت کرنے کی درستگی میں کئی سرکردہ اوپن سورس اور ملکیتی ماڈلز پر Qwen-Image کی برتری کو ظاہر کرتے ہیں۔ تقابلی ٹیسٹوں میں، یہ درمیانی فاصلے کے اوپن سورس متبادلات کو پیچھے چھوڑ دیتا ہے اور فوری طور پر عمل کرنے کے لیے مڈجرنی جیسی تجارتی پیشکشوں کو پیچھے چھوڑ دیتا ہے—خاص طور پر انگریزی اور چینی کو ملانے والے دو لسانی اشارے پر۔ اگرچہ کچھ ملکیتی نظام اب بھی انتہائی پیچیدہ مناظر پیدا کرنے میں رہنمائی کر سکتے ہیں، ابتدائی صارف کی رائے Qwen-Image کی کثیر لسانی متن کی ترتیب اور اس کے مضبوط ترمیمی کنٹرولز کے لیے بے مثال وضاحت کو نمایاں کرتی ہے۔
علی بابا کے "کھلے، شفاف اور پائیدار" AI کے عزم سے ہم آہنگ، Qwen-Image ہے کھلا ہوا MoDa پلیٹ فارم پر، کمیونٹی کے تعاون اور تخصیصات کو مدعو کرتے ہوئے۔ ماڈل کی ریلیز کے ساتھ، علی بابا نے وسیع پیمانے پر دستاویزات، نمونہ کوڈ، اور ایک فیڈ بیک پورٹل شائع کیا ہے تاکہ مختلف استعمال کے کیسز میں حقیقی دنیا کی جانچ کی مدد کی جاسکے۔
تشخیص کے نتائج
علی بابا کے داخلی معیارات اور تیسرے فریق کے جائزے Qwen-Image کی نمایاں کارکردگی کی تصویر کشی کرتے ہیں:
- GenEval (جنرل امیج جنریشن): کا ایک Fréchet Inception Distance (FID) حاصل کیا۔ 10.220 بی پیرامیٹر ماڈلز کو اوسطاً 9% سے پیچھے چھوڑنا۔
- لانگ ٹیکسٹ بینچ (ٹیکسٹ رینڈرنگ): سکور کیا۔ 92.7٪ ملٹی لائن ٹیکسٹ پلیسمنٹ اور گلیف انٹیگریٹی میں درستگی، GPT-4.1 کو 14 % سے پیچھے چھوڑتی ہے۔
- GEdit/ImgEdit (تصویر میں ترمیم): کا اوسط رائے سکور (MOS) رجسٹر کیا۔ 4.3/5، ترامیم کے دوران معنوی مستقل مزاجی کو برقرار رکھنے میں اعلی صارف کے اطمینان کی عکاسی کرتا ہے۔
- OneIG-Bench (انفوگرافک جنریشن): مضبوط ترتیب اور رنگ کے انتخاب کی صلاحیتوں کا مظاہرہ کرتے ہوئے، پرامپٹس سے براہ راست ساختی ڈیٹا اور چارٹس کو بصری طور پر پیش کرنے کے لیے سرفہرست تین ماڈلز میں درجہ بندی کی گئی ہے۔
- لیڈر بورڈ رینکنگ: مصنوعی تجزیہ امیج ایرینا لیڈر بورڈ پر، Qwen-Image اس وقت تمام امیج جنریشن ماڈلز میں 5 ویں نمبر پر ہے—اور ٹاپ 10 میں واحد اوپن ویٹ انٹری ہے—جو ریسرچ کمیونٹی میں اپنی مسابقتی برتری کا مظاہرہ کرتی ہے۔
رسائی اور ماحولیاتی نظام
Qwen-Image کا ورسٹائل فیچر سیٹ حقیقی دنیا کی ایپلی کیشنز کی ایک رینج کو کھولتا ہے:
- مارکیٹنگ اور ایڈورٹائزنگ: ایمبیڈڈ نعروں اور کثیر لسانی متن کے عناصر کے ساتھ bespoke پروموشنل ویژول کی تیزی سے تخلیق۔
- تعلیمی مواد: ای لرننگ پلیٹ فارمز کے لیے مثالی خاکوں، انفوگرافکس، اور تشریح شدہ تصاویر کی خودکار نسل۔
- ڈیزائن اور پروٹو ٹائپنگ: انٹرایکٹو تخلیقی ورک فلو کے لیے قابل تدوین پرتوں کے ساتھ آن دی فلائی موک اپس اور تصور آرٹ۔
- لوکلائزیشن سروسز: دستی گرافک ڈیزائن کی کوشش کے بغیر مختلف لسانی سیاق و سباق میں بصریوں کی ہموار موافقت۔
صارف علی بابا کے چیٹ کیوین انٹرفیس کے ذریعے Qwen-Image کے ساتھ "امیج جنریشن" موڈ کو منتخب کر کے بات چیت کر سکتے ہیں، یا GitHub ریپوزٹری اور CometAPI APIs کے ذریعے ماڈل کو اپنے ماحول میں ضم کر سکتے ہیں۔
- انٹرایکٹو استعمالملاحظہ کریں chat.qwen.ai اور کوئی بھی نان کوڈنگ Qwen ماڈل منتخب کریں، پھر تخلیق شروع کرنے کے لیے "امیج جنریشن" پر سوئچ کریں۔
- کوڈ اور وزن:
- GitHub کے: github.com/QwenLM/Qwen-Image
- گلے لگانے والا چہرہ: huggingface.co
- ماڈل سکوپ: modelscope.cn
علی بابا کمیونٹی کے تاثرات اور تعاون کو فروغ دینے کے لیے حوصلہ افزائی کرتا ہے۔ کھلا، شفاف اور پائیدار پیدا کرنے والا AI ماحولیاتی نظام۔
تازہ ترین انٹیگریشن Qwen-Image جلد ہی CometAPI پر ظاہر ہوگا، اس لیے دیکھتے رہیں!جب تک ہم Qwen-Image Model اپ لوڈ کو حتمی شکل دیتے ہیں، Models صفحہ پر ہمارے دوسرے ماڈلز کو دریافت کریں یا انہیں AI پلے گراؤنڈ میں آزمائیں۔
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
یہ بھی دیکھتے ہیں
