Qwen-Image-Edit là nhánh chỉnh sửa của họ hình ảnh Qwen do đội ngũ Qwen (hệ sinh thái Alibaba / QwenLM) phát triển. Nó được xây dựng trên nền tảng MMDiT 20 tỷ tham số và mở rộng rõ ràng khả năng kết xuất văn bản nâng cao của Qwen-Image thành các quy trình chỉnh sửa hình ảnh mạnh mẽ. Mô hình này được thiết kế cho các tác vụ đòi hỏi độ trung thực khi chỉnh sửa — ví dụ: trực tiếp thay đổi văn bản trên biển báo, giữ nguyên phông chữ và bố cục, thêm/xóa đối tượng trong khi vẫn duy trì tính nhất quán về mặt ngữ nghĩa, chuyển đổi góc nhìn/tư thế và chuyển đổi kiểu dáng chi tiết.
Đặc tính nổi bật
- Chỉnh sửa văn bản trong hình ảnh chính xác (song ngữ: tiếng Trung và tiếng Anh) — thêm, xóa hoặc thay thế văn bản trong khi vẫn giữ nguyên phông chữ/kích thước/kiểu chữ ở mức tối đa có thể.
- Chế độ chỉnh sửa kép: ngữ nghĩa + hình thức — hỗ trợ các thay đổi ngữ nghĩa cấp cao (tư thế, thay thế đối tượng, góc nhìn) và chỉnh sửa giao diện cấp thấp (chuyển đổi kiểu, kết cấu, chỉnh sửa cục bộ).
- Chỉnh sửa mặt nạ / vùng / nhiều lượt — hỗ trợ inpainting có mặt nạ, nhắc nhở vùng và chỉnh sửa theo chuỗi cho quy trình tinh chỉnh lặp đi lặp lại.
- Đầu vào nhiều hình ảnh (phiên bản mới nhất): Phiên bản 2509 bổ sung hỗ trợ chỉnh sửa nhiều hình ảnh (ví dụ: người + người, người + sản phẩm), cải thiện tính nhất quán giữa danh tính/sản phẩm/văn bản và đầu vào theo phong cách ControlNet gốc.
Chi tiết kỹ thuật
- Thang cơ sở / họ: được xây dựng trên Tham số 20B Mô hình nền tảng Qwen-Image (thiết kế đa phương thức/khuếch tán theo phong cách MMDiT).
- Đường ống chỉnh sửa mã hóa kép: Mô-đun chỉnh sửa nhận (1) biểu diễn ngữ nghĩa thông qua bộ mã hóa hình ảnh Qwen2.5-VL và (2) biểu diễn tái tạo thông qua bộ mã hóa VAE. Việc cung cấp song song cả hai biểu diễn cho phép đầu chỉnh sửa cân bằng giữa thay đổi ngữ nghĩa và độ trung thực của điểm ảnh. Mã hóa kép này là một lựa chọn kỹ thuật cốt lõi cho các chỉnh sửa mạnh mẽ.
- Đào tạo tiến bộ / theo chương trình giảng dạy: Quá trình đào tạo đã tiến triển từ các tác vụ tạo và kết xuất văn bản đơn giản hơn đến các tác vụ kết xuất văn bản cấp đoạn văn phức tạp và các mục tiêu chỉnh sửa đa tác vụ (tái tạo T2I, TI2I, I2I). Chương trình giảng dạy này được cho là yếu tố cốt lõi giúp cải thiện độ trung thực của văn bản và tính ổn định khi chỉnh sửa của mô hình.
- Hương vị mô hình / mô-đun: Qwen-Image-Edit được mô tả là mô hình 20B theo phong cách MMDiT tích hợp các thành phần Qwen2.5-VL, đầu chỉnh sửa khuếch tán và các thành phần VAE để kiểm soát hình thức.
Hiệu suất điểm chuẩn
SOTA được cho là chuẩn mực chéo: nhóm Qwen báo cáo kết quả tiên tiến nhất (SOTA) hoặc hàng đầu trên nhiều chuẩn mực tạo và chỉnh sửa hình ảnh công khai — bao gồm GenEval, DPG, OneIG-Bench (thế hệ) và GEdit, ImgEdit, GSO (chỉnh sửa).

Hạn chế và lưu ý (thực tế)
- Các hiện vật và trường hợp ngoại lệ: thử nghiệm cộng đồng cho thấy đôi khi có hiện tượng bão hòa quá mức, hiện tượng nhiễu kết cấu da hoặc đường nối ghép ảnh trong một số bản chỉnh sửa có độ chi tiết cao; nhánh Lightning của cộng đồng nhằm mục đích giảm thiểu những hiện tượng này.
- Tính toán / bộ nhớ: Mô hình 20B và các quy trình chỉnh sửa độ chính xác cao đòi hỏi nhiều GPU. Việc triển khai cục bộ được hưởng lợi từ bfloat16/FP8 và quy trình lấy mẫu được tối ưu hóa (có các biến thể "lightning" 4/8 bước để giảm VRAM và độ trễ).
- An toàn & IP: Giống như tất cả các trình tạo ảnh đa năng, Qwen-Image-Edit có thể tạo ra các ký tự có bản quyền hoặc nội dung nhạy cảm — việc sử dụng cho mục đích sản xuất đòi hỏi phải kiểm soát và cấp phép bản quyền. (Thực hành tốt nhất điển hình của doanh nghiệp.)
- Chế độ thất bại: các ký tự/từ ngữ khó hiểu hoặc rất hiếm vẫn có thể được hiển thị không chính xác hoặc yêu cầu chỉnh sửa lặp đi lặp lại ("liên kết") để hội tụ (tác giả lưu ý các ví dụ như ký tự tượng hình tiếng Trung hiếm cần phải sửa từng bước).
Qwen-Image-Edit so sánh với các tùy chọn khác như thế nào
- Khuếch tán ổn định / SDXL (inpainting): SDXL cộng với ControlNet và các quy trình vẽ chuyên dụng rất nhanh, có hỗ trợ công cụ cộng đồng rộng rãi và nhiều LoRA; chúng vượt trội về quy trình vẽ chung và tốc độ/hiệu quả. Điểm mạnh của Qwen-Image-Edit là chỉnh sửa văn bản song ngữ bản địa, tính nhất quán về danh tính/sản phẩm chặt chẽ hơn trong một số trường hợp, và sự cân bằng giữa ngữ nghĩa và giao diện được tích hợp. So sánh cộng đồng cho thấy Qwen thường được xếp hạng cao hơn về độ trung thực khi chỉnh sửa và độ bám dính văn bản, nhưng chi phí tính toán cao hơn.
- Trình soạn thảo mã nguồn đóng (Adobe Firefly / DALL·E / Runway): Các API đóng có thể được trau chuốt rất kỹ lưỡng (giao diện người dùng, kiểm duyệt tích hợp, đảm bảo độ trễ), nhưng Qwen-Image-Edit nổi bật như một giải pháp thay thế hoàn toàn mở, đặc biệt nhắm đến việc chỉnh sửa văn bản song ngữ mạnh mẽ và cung cấp khả năng triển khai cục bộ. Lựa chọn thực tế thường phụ thuộc vào việc bạn cần kiểm soát cục bộ/cấp phép mở hay trải nghiệm người dùng đám mây được trau chuốt.
Các trường hợp sử dụng thực tế
- Chỉnh sửa áp phích và biển báo — thay đổi văn bản trên áp phích trong khi vẫn giữ nguyên phông chữ/kết cấu.
- Tiếp thị sản phẩm / tạo áp phích — thêm/xóa mục, duy trì nhận dạng sản phẩm cho hình ảnh thương mại điện tử.
- Chỉnh sửa giữ nguyên danh tính chân dung — thay đổi tư thế, chuyển đổi phong cách trong khi vẫn giữ được bản sắc nhất quán (cải thiện vào năm 2509).
- Phục chế & chỉnh sửa thư pháp — phục hồi ảnh cũ và chỉnh sửa từng bước các ký tự viết tay/in.
- Quy trình làm việc sáng tạo/thiết kế — chỉnh sửa bố cục nhiều hình ảnh, tạo meme, tạo kiểu ảnh đại diện có thể sử dụng văn bản song ngữ.
Cách gọi API qwen-image-edit từ CometAPI
qwen-image-edit Giá API trong CometAPI,giảm giá 20% so với giá chính thức:
| Mã thông báo đầu vào | $2.00 |
| Mã thông báo đầu ra | $6.40 |
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước.
- Đăng nhập vào Bảng điều khiển CometAPI.
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.

Phương pháp sử dụng
- Chọn điểm cuối "qwen-image-edit" để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
- Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để chỉnh sửa hình ảnh:
- URL cơ sở: https://api.cometapi.com/v1/images/edits
- Tên Model: qwen-image-edit
- Xác thực:
Bearer YOUR_CometAPI_API_KEYcú đội đầu - Loại-Nội dung:
application/json.
Xem thêm API hình ảnh Qwen
