Ngày 25 tháng XNUMX, theo Qwen thông báo của nhóm, mô hình Qwen2.5-VL-32B-Instruct đã chính thức được mã nguồn mở, với thang tham số 32B và đã chứng minh hiệu suất tuyệt vời trong các tác vụ như hiểu hình ảnh, suy luận toán học và tạo văn bản. Mô hình đã được tối ưu hóa hơn nữa thông qua học tăng cường và các phản hồi phù hợp hơn với sở thích của con người, vượt qua mô hình 72B đã phát hành trước đó trong các đánh giá đa phương thức như MMMU và MathVista.

Qwen2.5-VL-32B là gì?
Qwen2.5-VL-32B-Instruct là phiên bản mới nhất của dòng Qwen của Alibaba, tự hào có 32 tỷ tham số. Được thiết kế để xử lý và diễn giải cả thông tin trực quan và văn bản, mô hình này vượt trội trong các tác vụ đòi hỏi sự hiểu biết sâu sắc về hình ảnh và ngôn ngữ. Được phát hành theo giấy phép Apache 2.0, nó cung cấp cho các nhà phát triển và nhà nghiên cứu sự linh hoạt để tích hợp và điều chỉnh mô hình cho nhiều ứng dụng khác nhau.
So với các mẫu Qwen2.5-VL trước đây, mẫu 32B có những cải tiến sau:
- Các câu trả lời phù hợp hơn với sở thích chủ quan của con người: Phong cách đầu ra đã được điều chỉnh để làm cho câu trả lời chi tiết hơn, định dạng chuẩn hơn và phù hợp hơn với sở thích của con người.
- Khả năng suy luận toán học: Độ chính xác khi giải các bài toán phức tạp đã được cải thiện đáng kể.
- Hiểu và lý giải hình ảnh chi tiết: Độ chính xác cao hơn và khả năng phân tích chi tiết đã được chứng minh trong các nhiệm vụ như phân tích hình ảnh, nhận dạng nội dung và suy luận logic trực quan
Bạn có thể sử dụng Qwen2.5-VL-32B cục bộ như thế nào?
Việc triển khai Qwen2.5-VL-32B cục bộ cho phép người dùng khai thác các khả năng của nó mà không cần dựa vào máy chủ bên ngoài, đảm bảo quyền riêng tư dữ liệu và giảm độ trễ. Kho lưu trữ GitHub chính thức cung cấp các tài nguyên toàn diện để triển khai cục bộ. citeturn0search6
Thiết lập môi trường
- Sao chép kho lưu trữ:
git clone https://github.com/QwenLM/Qwen2.5-VL
- Điều hướng đến Thư mục Dự án: Di chuyển vào thư mục đã sao chép:
cd Qwen2.5-VL
- Cài đặt phụ thuộc: Đảm bảo tất cả các gói cần thiết được cài đặt. Kho lưu trữ bao gồm một
requirements.txttập tin để tạo điều kiện thuận lợi cho việc này:
pip install -r requirements.txt
Chạy mô hình
Sau khi thiết lập môi trường:
- Chạy ứng dụng: Thực thi tập lệnh chính để khởi động ứng dụng. Hướng dẫn chi tiết được cung cấp trong tài liệu của kho lưu trữ.
- Truy cập giao diện: Sau khi chạy, hãy truy cập vào giao diện của mô hình thông qua trình duyệt web tại địa chỉ cục bộ đã chỉ định.
Mẹo tối ưu hóa
Để nâng cao hiệu suất và quản lý tài nguyên hiệu quả:
- Lượng tử hóa: Sử dụng
--quantizeđánh dấu trong quá trình chuyển đổi mô hình để giảm thiểu việc sử dụng bộ nhớ. - Quản lý độ dài ngữ cảnh: Giới hạn mã thông báo đầu vào để đẩy nhanh phản hồi.
- Đóng các ứng dụng nặng về tài nguyên: Đảm bảo đóng các ứng dụng chuyên sâu khác để giải phóng tài nguyên hệ thống.
- Xử lý hàng loạt: Đối với nhiều hình ảnh, hãy xử lý chúng theo từng đợt để nâng cao hiệu quả.
Những tính năng chính của Qwen2.5-VL-32B là gì?
Qwen2.5-VL-32B-Instruct giới thiệu một số cải tiến so với các phiên bản trước:
Phản ứng giống con người được tăng cường
Kiểu đầu ra của mô hình đã được tinh chỉnh để tạo ra các câu trả lời chi tiết và có cấu trúc tốt hơn, phù hợp chặt chẽ với sở thích của con người. Cải tiến này tạo điều kiện cho các tương tác tự nhiên và trực quan hơn.
Lý luận toán học nâng cao
Những bước tiến đáng kể đã được thực hiện trong khả năng giải quyết các vấn đề toán học phức tạp một cách chính xác của mô hình. Điều này định vị Qwen2.5-VL-32B như một công cụ có giá trị cho các nhiệm vụ đòi hỏi tính toán số phức tạp.
Hiểu và lý luận hình ảnh chi tiết
Mô hình này chứng minh độ chính xác cao hơn trong việc phân tích hình ảnh, nhận dạng nội dung và suy luận logic trực quan. Nó có thể phân tích các chi tiết phức tạp trong hình ảnh, giúp nó thành thạo trong các nhiệm vụ như phát hiện đối tượng và hiểu cảnh.
Khả năng phân tích tài liệu mạnh mẽ
Qwen2.5-VL-32B có khả năng phân tích tài liệu đa dạng, xử lý hiệu quả các tài liệu đa ngữ cảnh, đa ngôn ngữ, bao gồm cả tài liệu có chữ viết tay, bảng biểu, biểu đồ, công thức hóa học và ký hiệu âm nhạc.
Qwen2.5-VL-32B hoạt động như thế nào so với các mẫu khác?
Trong các đánh giá chuẩn, Qwen2.5-VL-32B-Instruct đã thể hiện hiệu suất vượt trội:
- Nhiệm vụ đa phương thức:Mô hình này hoạt động tốt hơn các đối tác lớn hơn, chẳng hạn như mô hình 72B, trong các nhiệm vụ được đánh giá bằng các điểm chuẩn như MMMU, MMMU-Pro và MathVista. citeturn0search9
- Khả năng văn bản:Nó đạt được kết quả tiên tiến tương đương với các mô hình như Mistral-Small-3.1-24B và Gemma-3-27B-IT, chứng minh sức mạnh của nó trong các tác vụ chỉ dựa trên văn bản thuần túy.
Chủ đề liên quan Cách truy cập Grok 3 và sử dụng nó
Dành cho nhà phát triển: Truy cập API
CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp qwen API (tên model: qwen-max;), và bạn sẽ nhận được 1 đô la trong tài khoản sau khi đăng ký và đăng nhập! Chào mừng bạn đến đăng ký và trải nghiệm CometAPI.
CometAPI hoạt động như một trung tâm tập trung cho các API của một số mô hình AI hàng đầu, loại bỏ nhu cầu phải tương tác với nhiều nhà cung cấp API riêng biệt. CometAPI tích hợp loạt mô hình Qwen 2.5. Bạn có thể truy cập chúng thông qua API.
Vui lòng tham khảo trước Qwen 2.5 Coder 32B Hướng dẫn API và Qwen 2.5 API tối đa để biết chi tiết về tích hợp. CometAPI đã cập nhật phiên bản mới nhất API QwQ-32B.
Kết luận
Qwen2.5-VL-32B-Instruct đại diện cho một bước tiến đáng kể trong lĩnh vực AI đa phương thức. Bản chất mã nguồn mở của nó, kết hợp với khả năng nâng cao trong tương tác giống con người, lý luận toán học và hiểu hình ảnh, khiến nó trở thành một công cụ đa năng và mạnh mẽ cho các nhà phát triển và nhà nghiên cứu. Bằng cách cung cấp các nguồn lực để triển khai và tối ưu hóa cục bộ, Alibaba đảm bảo rằng mô hình này có thể truy cập được và thiết thực cho nhiều ứng dụng.
