Tính năng chính

Kết xuất văn bản gốc/chất lượng cao bên trong hình ảnh — vượt trội trong việc tạo văn bản dễ đọc, chính xác về ngữ nghĩa trong hình ảnh được tạo (poster, bao bì, ảnh chụp màn hình) — một lĩnh vực mà nhiều mô hình ảnh trước đây gặp khó khăn.
Đầu ra đa phương thức độ trung thực cao — tạo ra hình ảnh chân thực và phong cách với chi tiết tốt và bố cục nhận biết ngôn ngữ.
Chuyển phong cách & tăng cường chi tiết — có thể áp dụng phong cách nghệ thuật nhất quán hoặc tăng cường chi tiết cục bộ đồng thời giữ tính mạch lạc của cảnh.

Chi tiết kỹ thuật — Qwen-Image hoạt động như thế nào

Kiến trúc và thành phần (từ khóa: MMDiT, Qwen2.5-VL). Mô hình sử dụng một transformer khuếch tán dựa trên MMDiT cho tổng hợp ảnh, kết hợp với bộ mã hóa thị giác–ngôn ngữ (Qwen2.5-VL) để diễn giải prompt và ngữ cảnh thị giác. Sự tách biệt này cho phép mô hình xử lý hướng dẫn ngữ nghĩa và diện mạo điểm ảnh theo cách khác nhau, cải thiện độ trung thực văn bản và tính nhất quán khi chỉnh sửa. Kho lưu trữ chính thức và báo cáo kỹ thuật ghi nhận một backbone 20B tham số cho mô hình T2I chính.

Quy trình huấn luyện (từ khóa: curriculum learning, data pipeline). Để giải quyết bài toán kết xuất văn bản khó, Qwen-Image sử dụng một giáo trình tiến dần: bắt đầu với các hình ảnh không chứa văn bản đơn giản hơn và dần dần huấn luyện trên các ví dụ phức tạp, giàu văn bản hơn cho tới các đầu vào ở cấp đoạn văn. Nhóm đã xây dựng một pipeline toàn diện bao gồm thu thập quy mô lớn, lọc kỹ lưỡng, tăng cường tổng hợp và cân bằng để bảo đảm mô hình được thấy nhiều bố cục văn bản/ảnh thực tế trong quá trình huấn luyện. Giáo trình có tính chiến lược này là lý do then chốt giúp mô hình vượt trội trong kết xuất văn bản đa ngôn ngữ.

Cơ chế chỉnh sửa (từ khóa: dual-encoding, VAE + VL encoder). Khi chỉnh sửa, hệ thống sẽ đưa ảnh gốc vào hai lần: một lần vào bộ mã hóa Qwen2.5-VL để kiểm soát ngữ nghĩa và một lần vào bộ mã hóa VAE để thu nhận thông tin diện mạo nhằm tái tạo. Thiết kế mã hóa kép giúp mô-đun chỉnh sửa giữ nguyên đặc tính và độ trung thực hình ảnh đồng thời cho phép thay đổi ngữ nghĩa — ví dụ, thay thế một đối tượng hoặc thay đổi nội dung văn bản mà không làm suy giảm các vùng không liên quan.

Hiệu năng benchmark

Qwen-Image đạt hiệu năng SOTA hoặc tiệm cận SOTA trên nhiều benchmark công khai cho cả sinh ảnh và chỉnh sửa, với kết quả đặc biệt mạnh ở các tác vụ kết xuất văn bản và các benchmark bố cục thực tế (ví dụ: T2I-CoreBench và các bộ bài kiểm thử chỉnh sửa ảnh được tuyển chọn).

Qwen-image API

So sánh Qwen-Image với các mô hình hàng đầu khác

Thế mạnh tương đối: kết xuất văn bản và độ trung thực văn bản song ngữ là các ưu thế nổi bật của mô hình so với nhiều đối thủ sinh ảnh (ví dụ: DALL·E 3, SDXL, Midjourney), vốn thường mạnh hơn ở khả năng phối cảnh nghệ thuật thuần túy hoặc đa dạng phong cách nhưng yếu hơn ở bố cục văn bản nhiều dòng, dày đặc hoặc tiếng Trung. Nhiều so sánh từ cộng đồng và các bảng benchmark của nhóm tác giả mô hình ủng hộ đánh giá này.

Đánh đổi tương đối: so với các hệ thống thương mại đóng và tinh chỉnh mạnh, Qwen-Image có thể cần hậu xử lý hoặc tinh chỉnh prompt/adapter để đạt mức chân thực tương tự trong một số bối cảnh (biến dạng trên bề mặt cong, hòa trộn ảnh chân thực), theo các thử nghiệm độc lập. Đối với người dùng ưu tiên thiết kế theo mẫu, mockup bao bì hoặc bố cục văn bản song ngữ, Qwen-Image thường là lựa chọn phù hợp hơn.

Trường hợp sử dụng điển hình và giá trị cao

Mockup bao bì & sản phẩm: văn bản chính xác và bố cục nhiều dòng cho nhãn và thử nghiệm bao bì.
Quảng cáo & phác thảo thiết kế: tạo mẫu nhanh trong các trường hợp độ trung thực văn bản quan trọng (poster, banner).
Tạo ảnh có nội dung văn bản bắt buộc: tạo ra hình ảnh phải bao gồm nội dung dễ đọc (thực đơn, biển báo, giao diện).
Pipeline chỉnh sửa ảnh: chỉnh sửa có mục tiêu (thay văn bản, thêm/xóa đối tượng) trong khi giữ phong cách và phối cảnh.
Cách truy cập Qwen image API

Bước 1: Đăng ký lấy API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy API key dùng làm thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới Qwen image API

Chọn endpoint “qwen-image” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế trong tài khoản của bạn. URL cơ sở là Images dạng (https://api.cometapi.com/v1/images/generations) qua CometAPI.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mô hình sẽ phản hồi .

Bước 3: Truy xuất và kiểm tra kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ trả về trạng thái tác vụ và dữ liệu đầu ra.

Qwen Image