| ฟิลด์ | ค่า / หมายเหตุ |
|---|---|
| ชื่อโมเดล | Qwen3-VL-32B (มีรุ่น Instruct / Thinking ให้ใช้งาน) |
| ตระกูลโมเดล / สถาปัตยกรรม | Qwen3-VL — vision-language transformer; แบ็กโบนมัลติโหมดพร้อม visual encoder แบบ ViT-style + ชั้นฟิวชันกับ LLM |
| จำนวนพารามิเตอร์ | อยู่ในคลาส “32B” (แหล่งข้อมูลสาธารณะระบุสเกลพารามิเตอร์ราว ~32–33B สำหรับรุ่น dense 32B) |
| รุ่นย่อย | Dense: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (มีรุ่น MoE ขนาดใหญ่กว่านี้เผยแพร่แล้ว) |
| ความยาวบริบท (native) | 256K โทเคน (บริบทมัลติโหมดแบบสลับที่รองรับโดยกำเนิด) พร้อมโหมด/เทคนิคการขยายที่ออกแบบไว้ให้รองรับได้ถึง ~1M โทเคนในบางกรณีการปรับใช้งาน |
| โมดาลิตีอินพุต | ข้อความ + รูปภาพ (ความละเอียดสูง) + วิดีโอยาว (การทำแบบจำลองเชิงเวลา/การปักเวลา) + OCR (หลายภาษา) |
| รูปแบบเอาต์พุต | ข้อความ (ภาษาธรรมชาติ), การสกัดเชิงโครงสร้าง (OCR/การสกัดตาราง/ชาร์ต), การปักเวลา/สรุปเป็นช่วงสำหรับวิดีโอ; รองรับการใช้เครื่องมือ/การเรียกใช้เอเจนต์ |
Qwen3-VL-32B คืออะไร
Qwen3-VL-32B คือรุ่น dense ขนาด 32 พันล้านพารามิเตอร์ในตระกูลโมเดลวิสัยทัศน์–ภาษาของ Alibaba เป็นทรานส์ฟอร์เมอร์แบบมัลติโหมด (ภาพ + ภาษา + วิดีโอ) ที่ออกแบบมาสำหรับการรับรู้แบบรวมศูนย์ การให้เหตุผลบริบทยาว OCR ที่แข็งแกร่งและการยึดโยงเชิงภาพ (visual grounding) และเวิร์กโฟลว์ที่ขับเคลื่อนด้วยเอเจนต์/เครื่องมือ
คุณสมบัติหลัก
- บริบทมัลติโหมดขนาดใหญ่ — รองรับ 256K โทเคนแบบสลับ (ข้อความ + อ้างอิงรูปภาพ) และมีฮุกเชิงสถาปัตยกรรม/เครื่องมือเพื่อขยายบริบทใช้งานจริงได้ถึงราว ~1M โทเคนในการปรับใช้บางแบบ ช่วยให้เรียกคืนและให้เหตุผลข้ามเอกสารข้ามสื่อได้
- พรีเทรนรวมวิสัยทัศน์ + ภาษา — ฝึกแบบร่วมกันตั้งแต่ช่วงต้น ช่วยปรับปรุงการยึดโยงภาษากับอินพุตภาพ ส่งผลให้ตัวแทนข้ามโมดาลิตีแข็งแกร่งขึ้น (เป็นประโยชน์ต่อ VQA, OCR และการให้เหตุผลกับไดอะแกรม)
- ความเข้าใจวิดีโอและการจัดแนวเชิงเวลา — รองรับการประมวลผลวิดีโอโดยกำเนิด พร้อมการจัดแนวข้อความแบบปักเวลาและความสามารถในการสรุปหรือทำดัชนีวิดีโอยาวในความละเอียดเชิงเวลาที่ละเอียด
- OCR หลายภาษาและการแยกวิเคราะห์เอกสาร — OCR คุณภาพสูงครอบคลุมหลายภาษาและความเข้าใจเลย์เอาต์เอกสาร สำหรับการสกัดตารางและชาร์ต
- รุ่น Instruct และ Thinking — มีบิลด์แยก: ปรับเพื่อการปฏิบัติตามคำสั่ง (Instruct) กับผลผลิตการให้เหตุผล/โซ่ความคิดเชิงลึกภายใน (Thinking) เพื่อให้เหมาะกับการใช้งาน (ความปลอดภัย/ความกระชับ vs การให้เหตุผลแบบเป็นขั้นตอน)
- ตัวเลือก MoE เพื่อการสเกล — สำหรับความจุสูงสุด มีรุ่น MoE (30B-A3B, 235B-A22B) ที่เพิ่มความสามารถในการแทนค่า พร้อมพยายามควบคุมคอมพิวต์ขณะอินเฟอเรนซ์ผ่านการกำหนดเส้นทางผู้เชี่ยวชาญ
งานที่ Qwen3-VL-32B เหมาะกับการใช้งาน
- การสกัดเอกสารและแบบฟอร์มในสเกลใหญ่ — OCR ที่แข็งแกร่งข้ามภาษา การสกัดตารางและชาร์ต และการสรุปเชิงความหมายของรายงานยาว
- การตอบคำถามเชิงภาพสำหรับภาพที่ซับซ้อน — ไดอะแกรมทางการแพทย์/วิศวกรรม ภาพที่มีหมายเหตุประกอบ หรือการแก้ปัญหาด้านภาพที่ต้องบูรณาการหลักฐานเชิงภาพกับการให้เหตุผลเชิงข้อความแบบเป็นขั้นตอน
- การทำดัชนีและสรุปวิดีโอยาว — สร้างถอดความที่ค้นหาได้ การทำดัชนีระดับวินาทีและสรุปสำหรับบันทึกยาวหลายชั่วโมงหรือคลังวิดีโอ/เฝ้าระวัง
- เอเจนต์/สายโซ่เครื่องมือแบบมัลติโหมด — จัดลำดับการเรียกใช้เครื่องมือที่ต้องสกัดเพย์โหลดเชิงภาพ (เช่น OCR→ค้นหา→ปฏิบัติการ) เหมาะกับเฟรมเวิร์กเอเจนต์ที่ผสานการรับรู้และการกระทำ
- การให้เหตุผลเชิงภาพในสาย STEM และเครื่องมือกวดวิชา — คณิตเชิงไดอะแกรมและวิธีทำเป็นขั้นตอนที่ผสานภาพ/กราฟและคำอธิบายข้อความ (ควรตรวจสอบความถูกต้องของผลลัพธ์เมื่อใช้ในบริบทการศึกษา)
วิธีเข้าถึง Qwen3 VL-32B API
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ คอนโซล CometAPI รับ API key ของอินเทอร์เฟซเป็นข้อมูลรับรองการเข้าถึง คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง
ขั้นตอนที่ 2: ส่งคำร้องไปยัง Qwen3 VL-32B API
เลือกเอนด์พอยต์ “Qwen3-VL-32B” เพื่อส่งคำขอ API และกำหนด request body วิธีการขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ base url คือ Chat
ใส่คำถามหรือคำขอของคุณในช่อง content—ซึ่งเป็นสิ่งที่โมเดลจะตอบสนอง ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์