| 欄位 | 值 / 備註 |
|---|---|
| 模型名稱 | Qwen3-VL-32B(提供 Instruct / Thinking 變體)。 |
| 模型家族 / 架構 | Qwen3-VL — 視覺-語言 Transformer;採用 ViT 風格的視覺編碼器 + LLM 融合層的多模態骨幹。 |
| 參數量 | 命名為「32B」級別(公開來源列示稠密 32B 變體約為 ~32–33B 參數規模)。 |
| 變體 | 稠密:2B / 4B / 8B / 32B;MoE:30B-A3B、235B-A22B(亦發布更大的 MoE 變體)。 |
| 原生上下文長度 | 256K tokens(原生交錯多模態上下文),透過工程化擴展模式/技術,在部分部署中可達至 ~1M tokens。 |
| 輸入模態 | 文字 + 圖像(高解析度)+ 長影片(時間建模/時間戳)+ OCR(多語言)。 |
| 輸出模態 | 文字(自然語言)、結構化抽取(OCR/表格/圖表抽取)、影片的時間戳/片段摘要;支援工具使用/代理呼叫。 |
什麼是 Qwen3-VL-32B
Qwen3-VL-32B 是阿里巴巴 Qwen3 視覺-語言模型家族中的 32B 參數稠密變體。它是一個多模態(視覺 + 語言 + 影片)Transformer,旨在支援統一感知、長上下文推理、穩健的 OCR 與視覺對齊,以及面向代理/工具化的工作流程。
主要特性
- 大型多模態上下文 — 原生支援 256K 交錯 tokens(文字 + 圖像引用),並提供架構掛鉤/工具將有效上下文擴展至 ~1M tokens,適用於長文檔與長影片;可實現跨文檔、跨媒體的檢索與推理。
- 統一的視覺 + 語言預訓練 — 從早期即進行聯合訓練,加強語言對視覺輸入的對齊,生成更強的跨模態表徵(有助於 VQA、OCR 與圖示推理)。
- 影片理解與時間對齊 — 原生影片處理能力,支援帶時間戳的文字對齊,並可在精細時間粒度上對長影片流進行摘要或索引。
- 多語言 OCR 與文檔解析 — 在多語言下提供高品質 OCR,並具備穩健的文檔/版面理解,適用於表格與圖表抽取等場景。
- Instruct 與 Thinking 變體 — 分別針對指令遵從性(Instruct)與深度內部思維鏈/推理吞吐(Thinking)優化,以滿足不同應用需求(安全/簡潔 vs. 步驟化推理)。
- 可擴展的 MoE 選項 — 針對極端容量/覆蓋,提供 MoE 變體(30B-A3B、235B-A22B),在透過專家路由控制推理計算的同時提升表徵能力。
Qwen3-VL-32B 的適用場景
- 大規模文檔與表單抽取 — 跨語言穩健 OCR、表格與圖表抽取,以及長報告的語義摘要。
- 複雜影像的視覺問答 — 醫療/工程圖、標註照片,或需要將視覺證據與步驟化文字推理相結合的視覺故障排查。
- 長影片索引與摘要 — 為長達數小時的錄影或監控/影片檔案生成可檢索的轉錄文本、秒級索引與摘要。
- 多模態代理/工具鏈 — 編排需要抽取視覺載荷的工具呼叫(例如 OCR→搜尋→動作),適用於結合感知與行動的代理框架。
- STEM 視覺推理與教學工具 — 圖示化數學與逐步解法,結合影像/圖表與文字說明(注意在教學環境中應驗證輸出之正確性)。
如何存取 Qwen3 VL-32B API
步驟 1:註冊取得 API Key
登入 cometapi.com。若您尚未成為我們的使用者,請先註冊。登入您的CometAPI 控制台。取得介面的存取憑證 API key。在個人中心的 API token 處點擊「Add Token」,取得 token 金鑰:sk-xxxxx,並提交。
步驟 2:向 Qwen3 VL-32B API 發送請求
選擇“Qwen3-VL-32B”端點以發送 API 請求並設定請求體。請求方法與請求體可參見我們網站的 API 文件。我們的網站亦提供 Apifox 測試以便於您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url 為Chat
將您的問題或請求填入 content 欄位——模型將回應此內容。處理 API 回應以獲取生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以獲取生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。