Qwen-image API

CometAPI
AnnaNov 12, 2025
Qwen-image API

کیوین امیج ایک امیج جنریشن اور امیج ایڈیٹنگ ہے۔ بنیاد ماڈل کے لئے ڈیزائن کیا گیا Qwen خاندان میں ہائی فیڈیلیٹی ٹیکسٹ رینڈرنگ, عین مطابق ترمیم، اور عام متن سے تصویر کی تخلیق۔ یہ انجام دینے کے لیے ڈیزائن کیا گیا ہے۔ متن سے آگاہ نسل, دو لسانی متن رینڈرنگ (خاص طور پر چینی اور انگریزی میں مضبوط)، اور سیاق و سباق میں عمدہ ترمیم. ریلیز ایک مشترکہ پر زور دیتا ہے سمجھیں + پیدا کریں۔ ڈیزائن فلسفہ (تصویر کو سمجھنے کے کام اور ایک متحد پائپ لائن میں تربیت یافتہ تخلیقی کام)۔

کلیدی خصوصیات

  • تصاویر کے اندر مقامی / اعلی معیار کا متن پیش کرنا — جنریٹڈ امیجز (پوسٹرز، پیکیجنگ، اسکرین شاٹس) میں قابل فہم، لفظی طور پر درست متن تیار کرنے میں مہارت حاصل کرتا ہے — ایک ایسا علاقہ جس کے ساتھ بہت سے پہلے تصویری ماڈلز جدوجہد کر رہے تھے۔
  • ہائی فیڈیلیٹی ملٹی موڈل آؤٹ پٹ - اچھی تفصیل اور زبان سے واقف ترتیب کے ساتھ فوٹو ریئلسٹک اور اسٹائلائزڈ تصاویر تیار کرتا ہے۔
  • انداز کی منتقلی اور تفصیل میں اضافہ - ہم آہنگی کو برقرار رکھتے ہوئے مستقل فنکارانہ انداز کو لاگو کرسکتے ہیں یا مقامی تفصیلات کو بڑھا سکتے ہیں۔

تکنیکی تفصیلات — Qwen-Image کیسے کام کرتی ہے۔

فن تعمیر اور اجزاء (مطلوبہ الفاظ: MMDiT، Qwen2.5-VL)۔ ماڈل ایک استعمال کرتا ہے۔ MMDiT پر مبنی ایک کے ساتھ مل کر تصویر کی ترکیب کے لیے بازی ٹرانسفارمر بصری زبان کا انکوڈر (Qwen2.5-VL) اشارے اور بصری سیاق و سباق کی تشریح کے لیے۔ یہ علیحدگی ماڈل کو علاج کرنے دیتی ہے۔ معنوی رہنمائی اور پکسل کی ظاہری شکل مختلف طریقے سے، متن کی مخلصی اور ترمیم کی مستقل مزاجی کو بہتر بنانا۔ سرکاری ذخیرہ اور تکنیکی رپورٹ مین T2I ماڈل کے لیے 20B-پیرامیٹر ریڑھ کی ہڈی کو نوٹ کرتی ہے۔

ٹریننگ پائپ لائن (مطلوبہ الفاظ: نصاب سیکھنا، ڈیٹا پائپ لائن)۔ ہارڈ ٹیکسٹ رینڈرنگ کو حل کرنے کے لیے، Qwen-Image استعمال کرتا ہے۔ ترقی پسند نصاب: یہ سادہ غیر متنی امیجز کے ساتھ شروع ہوتا ہے اور دھیرے دھیرے پیراگراف کی سطح کے ان پٹ تک زیادہ پیچیدہ متن سے بھرپور مثالوں پر تربیت دیتا ہے۔ ٹیم نے ایک جامع پائپ لائن بنائی جس میں بڑے پیمانے پر جمع کرنا، محتاط فلٹرنگ، مصنوعی اضافہ اور توازن شامل ہے تاکہ یہ یقینی بنایا جا سکے کہ ماڈل تربیت کے دوران بہت سے حقیقت پسندانہ متن/تصویر کی ترکیبیں دیکھتا ہے۔ یہ اسٹریٹجک نصاب ایک اہم وجہ ہے کہ ماڈل کثیر لسانی ٹیکسٹ رینڈرنگ میں سبقت لے جاتا ہے۔

ترمیم کا طریقہ کار (مطلوبہ الفاظ: دوہری انکوڈنگ، VAE + VL انکوڈر)۔ ترمیم کے لیے، نظام اصل تصویر کو دو بار فیڈ کرتا ہے۔: ایک بار کے لیے Qwen2.5-VL انکوڈر میں معنوی کنٹرول اور ایک بار کے لیے VAE انکوڈر میں تعمیر نو کی ظاہری شکل کی معلومات. دوہری انکوڈنگ ڈیزائن ترمیمی ماڈیول کو شناخت اور بصری وفاداری کو محفوظ رکھنے کے قابل بناتا ہے جبکہ معنوی ترمیمات کی اجازت دیتا ہے - مثال کے طور پر، کسی چیز کو تبدیل کرنا یا متنی مواد کو غیر متعلقہ خطوں کو کم کیے بغیر تبدیل کرنا۔

بینچ مارک کارکردگی

Qwen-Image جنریشن اور ایڈیٹنگ دونوں کے لیے متعدد عوامی بینچ مارکس پر SOTA یا قریب SOTA کارکردگی حاصل کرتا ہے، خاص طور پر ٹیکسٹ رینڈرنگ کے کاموں اور حقیقی دنیا کے کمپوزیشن بینچ مارکس (جیسے، T2I-CoreBench اور کیوریٹڈ امیج ایڈیٹنگ سویٹس) میں مضبوط نتائج کے ساتھ۔

Qwen-image API

Qwen-Image کا دوسرے سرکردہ ماڈلز سے موازنہ کیسے ہوتا ہے۔

رشتہ دار طاقتیں: ٹیکسٹ رینڈرنگ اور دو لسانی ٹیکسٹ فیڈیلٹی بہت سے پیدا کرنے والے حریفوں کے مقابلے میں ماڈل کے مخصوص فوائد ہیں (مثال کے طور پر، DALL·E 3، SDXL، Midjourney)، جو خالصتاً فنکارانہ کمپوزیشن یا اسٹائلسٹک تنوع میں اکثر مضبوط ہوتے ہیں لیکن گھنے ملٹی لائن یا چینی ٹیکسٹ لے آؤٹ میں کمزور ہوتے ہیں۔ متعدد کمیونٹی موازنہ اور ماڈل مصنفین کے بینچ مارک ٹیبل اس خصوصیت کی حمایت کرتے ہیں۔

متعلقہ تجارت: بند، بھاری بھرکم تجارتی نظاموں کے مقابلے، Qwen-Image کی ضرورت ہو سکتی ہے۔ پروسیسنگ یا کچھ سیاق و سباق میں یکساں حقیقت پسندی تک پہنچنے کے لیے فوری/اڈاپٹر ٹیوننگ (مڑے ہوئے سطح کی وارپنگ، فوٹو ریئلسٹک کمپوزٹنگ)، فی آزاد ٹیسٹ۔ ترجیح دینے والے صارفین کے لیے ٹیمپلیٹڈ ڈیزائنز، پیکیجنگ موک اپس، یا دو لسانی ٹیکسٹ لے آؤٹ، Qwen-Image کو ترجیح دی جاتی ہے۔


عام اور اعلی قدر کے استعمال کے معاملات

  • پیکیجنگ اور پروڈکٹ کی نقل: لیبلز اور پیکیجنگ ٹرائلز کے لیے درست متن اور ملٹی لائن لے آؤٹ۔
  • ایڈورٹائزنگ اور ڈیزائن ڈرافٹ: تیز رفتار پروٹو ٹائپنگ جہاں ٹیکسٹ فیڈیلیٹی اہمیت رکھتی ہے (پوسٹر، بینرز)۔
  • دستاویزی تصویر کی تخلیق: ایسی تصاویر بنانا جن میں پڑھنے کے قابل مواد (مینو، نشانات، انٹرفیس) شامل ہونا چاہیے۔
  • امیج ایڈیٹنگ پائپ لائنز: ٹارگٹڈ ایڈیٹس (متن کی تبدیلی، آبجیکٹ شامل/ہٹائیں) انداز اور تناظر کو محفوظ کرنا۔

CometAPI سے qwen-image API کو کیسے کال کریں۔

qwen-image CometAPI میں API قیمتوں کا تعین، سرکاری قیمت میں 20% چھوٹ:

مطلوبہ اقدامات

  • داخل ہوجاو cometapi.com. اگر آپ ابھی تک ہمارے صارف نہیں ہیں، تو براہ کرم پہلے رجسٹر کریں۔
  • سائن ان کریں CometAPI کنسول.
  • انٹرفیس کی رسائی کی سند API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر "ٹوکن شامل کریں" پر کلک کریں، ٹوکن کی حاصل کریں: sk-xxxxx اور جمع کرائیں۔

Qwen-image API

طریقہ استعمال کریں

  1. API کی درخواست بھیجنے کے لیے "qwen-image" کا اختتامی نقطہ منتخب کریں اور درخواست کا باڈی سیٹ کریں۔ درخواست کا طریقہ اور درخواست کا باڈی ہماری ویب سائٹ API دستاویز سے حاصل کی گئی ہے۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔
  2. بدل دیں۔ آپ کے اکاؤنٹ سے اپنی اصل CometAPI کلید کے ساتھ۔
  3. مواد کے خانے میں اپنا سوال یا درخواست داخل کریں—یہ وہی ہے جس کا ماڈل جواب دے گا۔
  4. . تیار کردہ جواب حاصل کرنے کے لیے API جواب پر کارروائی کریں۔

CometAPI مکمل طور پر ہم آہنگ REST API فراہم کرتا ہے — بغیر کسی رکاوٹ کے منتقلی کے لیے۔ کی اہم تفصیلات تصویر کی نسل:

"qwen-image" ماڈل کو پیرامیٹر "n" کی ضرورت نہیں ہے اور وہ صرف ایک تصویر کو آؤٹ پٹ کر سکتا ہے۔

یہ بھی دیکھتے ہیں Gemini 2.5 Flash Image API (Nano-Banana)

مزید پڑھیں

500+ ماڈلز ایک API میں

20% تک چھوٹ