| الحقل | القيمة / الملاحظات |
|---|---|
| اسم النموذج | Qwen3-VL-32B (إصدارات Instruct / Thinking متاحة). |
| عائلة/معمارية النموذج | Qwen3-VL — محوّل رؤية-لغة؛ عمود فقري متعدد الوسائط مع مُرمِّز بصري على نمط ViT + طبقات دمج مع LLM. |
| عدد المعاملات | فئة «32B» (تذكر المصادر العامة حجماً يقارب ~32–33B من المعاملات للإصدار الكثيف 32B). |
| الإصدارات | كثيف: 2B / 4B / 8B / 32B؛ MoE: 30B-A3B، 235B-A22B (تم أيضاً طرح إصدارات MoE أكبر). |
| طول السياق الأصلي | 256K رمز (سياق أصلي متداخل متعدد الوسائط)، مع أوضاع/تقنيات تمديد هندسية تتيح حتى ~1M رمز في بعض عمليات النشر. |
| أنماط الإدخال | نص + صور (عالية الدقة) + فيديو طويل (نمذجة زمنية/طوابع زمنية) + OCR (متعدد اللغات). |
| أنماط الإخراج | نص (لغة طبيعية)، استخراج مُهيكل (استخراج OCR/الجداول/المخططات)، طوابع زمنية/ملخصات مقاطع للفيديو؛ يدعم استخدام الأدوات/استدعاءات الوكلاء. |
ما هو Qwen3-VL-32B
Qwen3-VL-32B هو الإصدار الكثيف ذو 32 مليار مُعامل ضمن عائلة نماذج الرؤية-اللغة Qwen3 من Alibaba. إنه محوّل متعدد الوسائط (رؤية + لغة + فيديو) مُصمَّم للإدراك الموحّد، والاستدلال على سياقات طويلة، وOCR قوي والارتساء البصري، وسير عمل قائم على الوكلاء/الأدوات.
الميزات الرئيسية
- سياق متعدد الوسائط كبير — دعم أصلي لـ 256K رمز متداخل (نص + مراجع صور) مع خطافات معمارية/أدوات لتمديد السياق الفعّال إلى ~1M رمز للوثائق والفيديوهات الطويلة؛ يتيح الاسترجاع والاستدلال عبر الوثائق وعبر الوسائط.
- تهيئة مسبقة موحّدة للرؤية + اللغة — تدريب مشترك من المراحل المبكرة يُحسّن ارتساء اللغة على المدخلات البصرية، ما ينتج تمثيلات أقوى عبر الوسائط (مفيد لـ VQA وOCR والاستدلال على المخططات).
- فهم الفيديو والمحاذاة الزمنية — معالجة أصلية للفيديو مع محاذاة نصية مؤقتة بطوابع زمنية وإمكانية تلخيص أو فهرسة تدفقات الفيديو الطويلة بدقة زمنية دقيقة.
- OCR متعدد اللغات وتحليل المستندات — OCR عالي الجودة عبر العديد من اللغات وفهم قوي للمستند/التخطيط لحالات استخدام استخراج الجداول والمخططات.
- إصدارات Instruct مقابل Thinking — نسخ منفصلة مُحسَّنة للامتثال للتعليمات (Instruct) مقابل إنتاجية سلسلة التفكير/الاستدلال العميق (Thinking) لتناسب احتياجات التطبيقات (السلامة/الإيجاز مقابل الاستدلال المتدرّج).
- خيارات MoE للتوسّع — لسعة/تغطية قصوى، توجد إصدارات MoE (30B-A3B، 235B-A22B) تزيد القدرة التمثيلية مع محاولة ضبط حساب الاستدلال عبر توجيه الخبراء.
مجالات ملاءمة Qwen3-VL-32B
- استخراج المستندات والنماذج على نطاق واسع — OCR قوي عبر اللغات، واستخراج الجداول والمخططات، والتلخيص الدلالي للتقارير الطويلة.
- إجابة الأسئلة البصرية للصور المعقّدة — مخططات طبية/هندسية، صور مشروحة، أو استكشاف أخطاء بصري يتطلب دمج الأدلة البصرية مع استدلال نصي متدرّج.
- فهرسة وتلخيص الفيديو الطويل — إنشاء نصوص قابلة للبحث، وفهرسة وملخصات على مستوى الثواني للتسجيلات التي تمتد لساعات أو لأرشيفات المراقبة/الفيديو.
- وكلاء متعدد الوسائط/سلاسل أدوات — تنسيق استدعاءات الأدوات التي تتطلب استخراج حمولة بصرية (مثل OCR→بحث→إجراء)، مناسبة لأطر الوكلاء التي تجمع بين الإدراك والفعل.
- الاستدلال البصري في مجالات STEM وأدوات التدريس — رياضيات تخطيطية وحلول متدرّجة تدمج الصور/الرسوم البيانية والشرح النصي (مع ملاحظة وجوب التحقق من صحة المخرجات في البيئات التعليمية).
كيفية الوصول إلى Qwen3 VL-32B API
الخطوة 1: الاشتراك للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدماً لدينا بعد، فيُرجى التسجيل أولاً. سجّل الدخول إلى CometAPI console. احصل على مفتاح API الخاص ببيانات اعتماد الوصول للواجهة. انقر «Add Token» في قسم رمز API بمركزك الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِلْه.
الخطوة 2: إرسال الطلبات إلى Qwen3 VL-32B API
حدّد نقطة النهاية «Qwen3-VL-32B» لإرسال طلب الـAPI واضبط جسم الطلب. تُستقى طريقة الطلب وجسم الطلب من وثائق API على موقعنا. يوفّر موقعنا أيضاً اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان الأساس هو Chat
أدرِج سؤالك أو طلبك في حقل المحتوى — فهذا ما سيستجيب له النموذج. عالج استجابة الـAPI للحصول على الإجابة المُولَّدة.
الخطوة 3: استرجاع النتائج والتحقق منها
عالج استجابة الـAPI للحصول على الإجابة المُولَّدة. بعد المعالجة، يرد الـAPI بحالة المهمة وبيانات المخرجات.