| Trường | Giá trị / Ghi chú |
|---|---|
| Tên mô hình | Qwen3-VL-32B (có biến thể Instruct / Thinking). |
| Họ mô hình / kiến trúc | Qwen3-VL — transformer thị giác–ngôn ngữ; xương sống đa phương thức với bộ mã hóa thị giác kiểu ViT + các tầng hợp nhất LLM. |
| Số tham số | Lớp “32B” được đặt tên (các nguồn công khai liệt kê quy mô tham số ~32–33B cho biến thể dense 32B). |
| Biến thể | Dense: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (các biến thể MoE lớn hơn cũng đã phát hành). |
| Độ dài ngữ cảnh gốc | 256K token (ngữ cảnh đa phương thức xen kẽ gốc), với các chế độ/kỹ thuật mở rộng được thiết kế cho phép lên đến ~1M token trong một số triển khai. |
| Phương thức đầu vào | Văn bản + hình ảnh (độ phân giải cao) + video dài (mô hình hóa theo thời gian/dấu thời gian) + OCR (đa ngôn ngữ). |
| Phương thức đầu ra | Văn bản (ngôn ngữ tự nhiên), trích xuất có cấu trúc (trích xuất OCR/bảng/biểu đồ), dấu thời gian/tóm tắt phân đoạn cho video; hỗ trợ sử dụng công cụ / gọi tác tử. |
Qwen3-VL-32B là gì
Qwen3-VL-32B là biến thể dense 32 tỷ tham số trong họ mô hình thị giác–ngôn ngữ Qwen3 của Alibaba. Đây là một transformer đa phương thức (thị giác + ngôn ngữ + video) được thiết kế cho tri giác hợp nhất, suy luận ngữ cảnh dài, OCR mạnh và liên kết thị giác, cũng như các quy trình dạng tác tử/công cụ hóa.
Tính năng chính
- Ngữ cảnh đa phương thức lớn — Hỗ trợ gốc 256K token xen kẽ (văn bản + tham chiếu hình ảnh) và các móc nối kiến trúc/công cụ để mở rộng ngữ cảnh hiệu dụng lên tới ~1M token cho tài liệu và video dài; cho phép truy hồi và suy luận xuyên tài liệu, xuyên phương tiện.
- Tiền huấn luyện hợp nhất thị giác + ngôn ngữ — Huấn luyện chung từ giai đoạn sớm giúp cải thiện sự gắn kết/ngầm định của ngôn ngữ với đầu vào thị giác, dẫn tới biểu diễn liên phương thức mạnh hơn (có lợi cho VQA, OCR và suy luận trên sơ đồ).
- Hiểu video & căn chỉnh thời gian — Xử lý video gốc với căn chỉnh văn bản theo dấu thời gian và khả năng tóm tắt hoặc lập chỉ mục dòng video dài ở độ hạt thời gian mịn.
- OCR đa ngôn ngữ và phân tích tài liệu — OCR chất lượng cao trên nhiều ngôn ngữ và khả năng hiểu tài liệu/bố cục vững chắc cho các trường hợp trích xuất bảng và biểu đồ.
- Biến thể Instruct vs Thinking — Các bản dựng riêng tối ưu cho tuân thủ chỉ dẫn (Instruct) so với thông lượng suy luận/chuỗi suy nghĩ nội bộ sâu (Thinking) để đáp ứng nhu cầu ứng dụng (an toàn/ngắn gọn vs suy luận từng bước).
- Tùy chọn MoE để mở rộng — Với nhu cầu dung lượng/bao phủ cực lớn, có các biến thể MoE (30B-A3B, 235B-A22B) tăng năng lực biểu diễn đồng thời cố gắng kiểm soát chi phí suy luận thông qua định tuyến chuyên gia.
Qwen3-VL-32B phù hợp cho
- Trích xuất tài liệu và biểu mẫu ở quy mô lớn — OCR mạnh trên nhiều ngôn ngữ, trích xuất bảng và biểu đồ, và tóm tắt ngữ nghĩa cho báo cáo dài.
- Hỏi đáp thị giác cho ảnh phức tạp — Sơ đồ y tế/kỹ thuật, ảnh có chú thích, hoặc xử lý sự cố trực quan cần tích hợp chứng cứ hình ảnh với suy luận văn bản theo từng bước.
- Lập chỉ mục và tóm tắt video dài — Tạo bản ghi có thể tìm kiếm, lập chỉ mục cấp giây và tóm tắt cho các bản ghi hàng giờ hoặc kho lưu trữ/giám sát video.
- Tác tử/chuỗi công cụ đa phương thức — Điều phối gọi công cụ yêu cầu trích xuất nội dung thị giác (ví dụ: OCR→tìm kiếm→thực hiện), phù hợp cho các khung tác tử kết hợp tri giác và hành động.
- Suy luận trực quan STEM & công cụ gia sư — Giải toán sơ đồ và lời giải theo từng bước kết hợp hình/đồ thị với giải thích văn bản (lưu ý cần kiểm chứng tính đúng đắn trong bối cảnh giáo dục).
Cách truy cập API Qwen3 VL-32B
Bước 1: Đăng ký khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới API Qwen3 VL-32B
Chọn điểm cuối “Qwen3-VL-32B” để gửi yêu cầu API và đặt nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp bài kiểm thử Apifox để bạn thuận tiện thử nghiệm. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url is Chat
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.