Alibaba Cloud phát hành mô hình đa phương thức Qwen‑VLo，Nâng cấp khả năng hình ảnh

Bộ phận AI của Alibaba Cloud đã chính thức ra mắt Qwen‑VLo, phiên bản mới nhất trong loạt mô hình đa phương thức Qwen, đánh dấu bước tiến đáng kể trong khả năng ngôn ngữ và tầm nhìn thống nhất. Được công bố vào ngày 28 tháng 2025 năm XNUMX, Qwen‑VLo cung cấp cả chức năng hiểu và tạo, mở rộng vượt xa các phiên bản trước để bao gồm chức năng tạo và chỉnh sửa hình ảnh có độ phân giải cao được thúc đẩy bởi lời nhắc bằng ngôn ngữ tự nhiên và đầu vào trực quan.

Dựa trên các bản phát hành trước đó như Qwen‑VL và Qwen2.5‑VL, Qwen‑VLo đại diện cho những gì Alibaba mô tả là "nâng cấp toàn diện" trong AI đa phương thức. Trong khi Qwen‑VL tập trung chủ yếu vào việc diễn giải thông tin trực quan và Qwen2.5‑VL tăng cường khả năng hiểu ngữ cảnh dài, Qwen‑VLo tích hợp những điểm mạnh này vào một khuôn khổ duy nhất có khả năng thực hiện các tác vụ ngôn ngữ thị giác song phương. Nó chứa các hướng dẫn mở, hỗ trợ nhiều ngôn ngữ—bao gồm tiếng Trung và tiếng Anh—và tinh chỉnh các đầu ra của nó để sánh ngang với các nghệ sĩ con người.

Các tính năng chính

Tạo hình ảnh tiến bộ

Qwen‑VLo xây dựng hình ảnh theo từng bước—từ trái sang phải và từ trên xuống dưới—lặp đi lặp lại tinh chỉnh nội dung dự đoán để đảm bảo tính nhất quán và sự hài hòa về mặt hình ảnh. Cơ chế này tăng cường cả hiệu quả tạo và khả năng kiểm soát của người dùng đối với quá trình sáng tạo.

Hỗ trợ độ phân giải động

Sử dụng đào tạo độ phân giải động, mô hình có thể xử lý độ phân giải đầu vào/đầu ra tùy ý và tỷ lệ khung hình. Người dùng có thể tạo nội dung phù hợp với nhiều tình huống khác nhau—chẳng hạn như biểu ngữ web, ảnh bìa phương tiện truyền thông xã hội hoặc áp phích có độ phân giải cao—mà không bị giới hạn bởi các định dạng cố định.

Chỉnh sửa hướng dẫn mở

Thông qua lời nhắc ngôn ngữ tự nhiên, Qwen VLo có thể thực hiện các chỉnh sửa nâng cao như chuyển đổi phong cách (“Áp dụng phong cách Van Gogh”), chuyển đổi tổng hợp (“Thêm bầu trời đầy nắng”) và các sửa đổi đa diện trong một hướng dẫn duy nhất. Nó cũng hỗ trợ trích xuất và chỉnh sửa các tín hiệu hình ảnh truyền thống như bản đồ độ sâu, mặt nạ phân đoạn và đường viền cạnh.

Tương tác đa ngôn ngữ

Mô hình này chấp nhận lệnh bằng nhiều ngôn ngữ - hiện hỗ trợ tiếng Trung và tiếng Anh - do đó phục vụ cho cơ sở người dùng toàn cầu và phá vỡ rào cản ngôn ngữ trong quy trình làm việc sáng tạo.

Tính khả dụng và quyền truy cập

Qwen‑VLo hiện có sẵn trong xem trước thông qua nền tảng Qwen Chat tại chat.qwen.ai. Alibaba Cloud đã lưu ý rằng, với tư cách là bản phát hành xem trước, người dùng có thể gặp phải sự không nhất quán hoặc không chính xác về mặt thực tế trong quá trình tạo. Nhóm phát triển đang tích cực lặp lại để giải quyết những hạn chế này trước khi triển khai rộng rãi hơn.

Về cơ bản, các kỹ sư AI của Alibaba đã tối ưu hóa Qwen‑VLo để triển khai trên cả môi trường đám mây và môi trường biên. Tận dụng lượng tử hóa độ chính xác hỗn hợp và các kỹ thuật tinh chỉnh hiệu quả tham số mới, mô hình này duy trì hiệu suất cao trên diện tích tính toán nhỏ gọn. Alibaba cũng đã tích hợp các đường ống suy luận thích ứng để cân bằng độ trễ và chất lượng, đảm bảo rằng Qwen‑VLo có thể phục vụ các ứng dụng nhạy cảm với độ trễ—chẳng hạn như các công cụ thiết kế tương tác—trong khi mở rộng quy mô lên khối lượng công việc cấp doanh nghiệp trên Alibaba Cloud.

So với Qwen-VL-Plus/Max

Kích thước chức năng	Qwen-VL-Plus/Max	Qwen VLo
Hiểu hình ảnh	Phân loại cơ bản, mô tả	Nhận dạng cấu trúc đa chiều, nâng cao hiểu biết về ngữ cảnh
Tạo hình ảnh	Hỗ trợ phong cách hạn chế	Độ chính xác cao, khả năng tạo ra tiến bộ, khả năng kiểm soát phong cách mạnh mẽ
Khả năng đa nhiệm	Yêu cầu đầu vào cụ thể cho nhiệm vụ	Đa nhiệm thống nhất, hỗ trợ các hướng dẫn ngôn ngữ phức tạp
Tương tác đa ngôn ngữ	Hỗ trợ hạn chế	Hỗ trợ tiếng Trung và tiếng Anh, kiểm soát ngôn ngữ tự nhiên mượt mà hơn
Khả năng bảo tồn chi tiết	Có thể mất chi tiết trong quá trình tạo	Xác định và tái tạo chính xác các cấu trúc và ngữ nghĩa quan trọng

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Để bắt đầu, hãy khám phá khả năng của các mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

API Qwen‑VLo tích hợp mới nhất sẽ sớm xuất hiện trên CometAPI, vì vậy hãy theo dõi! Trong khi chúng tôi hoàn thiện việc tải lên Mô hình Qwen‑VLo, hãy khám phá các mô hình khác của chúng tôi trên Trang mô hình hoặc thử chúng trong sân chơi trí tuệ nhân tạo. Mô hình mới nhất của Qwen trong CometAPI là API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.