Vào ngày 4 tháng 2025 năm XNUMX, nhóm Qwen của Alibaba chính thức ra mắt Qwen-Image, một mô hình nền tảng biến áp khuếch tán đa phương thức (MMDiT) 20 tỷ tham số được thiết kế để mang lại độ trung thực chưa từng có trong tổng hợp văn bản thành hình ảnh và chỉnh sửa hình ảnh chính xác. Bản phát hành này đánh dấu bước đột phá của Alibaba vào lĩnh vực tạo hình ảnh nguồn mở, định vị Qwen-Image là đối thủ trực tiếp của các hệ thống độc quyền như GPT-4o của OpenAI, DALL·E 2 và Midjourney.
Đổi mới kỹ thuật
Qwen-Image's 20 B MMDiT backbone đánh dấu một thành tựu kỹ thuật đáng kể, cho phép mô hình thể hiện xuất sắc nội dung văn bản phức tạp trực tiếp trong hình ảnh được tạo ra. Phương pháp tiếp cận chương trình học của nó bắt đầu với các tác vụ hiển thị phi văn bản đơn giản và dần dần tiến tới xử lý các mô tả dài cả đoạn văn, mang lại độ trung thực vượt trội trong cả ngôn ngữ chữ cái và chữ tượng hình. Hơn nữa, mô hình tích hợp một mã hóa kép cơ chế—xử lý riêng biệt các biểu diễn ngữ nghĩa và tái tạo thông qua Qwen2.5-VL và bộ mã hóa VAE—tạo ra sự cân bằng giữa việc duy trì tính nhất quán về mặt ngữ nghĩa và tính hiện thực trực quan trong quá trình chỉnh sửa hình ảnh.
Đột phá trong việc kết xuất và chỉnh sửa văn bản
Một điểm khác biệt quan trọng của Qwen-Image là hỗ trợ gốc cho văn bản nhúng, cho phép đặt văn bản tiếng Anh và tiếng Trung dễ đọc vào hình ảnh trên các bố cục nhiều dòng và ngữ cảnh đoạn văn. Các tiêu chuẩn nội bộ cho thấy Qwen-Image vượt trội hơn nhiều đối thủ mã nguồn mở về khả năng tuân thủ nhanh chóng và độ rõ nét của văn bản, khiến nó trở nên lý tưởng cho các ứng dụng yêu cầu các yếu tố thiết kế đa ngôn ngữ. Khả năng chỉnh sửa hình ảnh của nó cũng được hưởng lợi từ mô hình đào tạo đa tác vụ tích hợp các tác vụ tái tạo văn bản thành hình ảnh, văn bản thành hình ảnh và hình ảnh thành hình ảnh, giúp tăng cường tính nhất quán khi chỉnh sửa các hình ảnh hiện có.
Các đánh giá độc lập chứng minh tính ưu việt của Qwen-Image so với một số mô hình mã nguồn mở và độc quyền hàng đầu về độ chính xác nhúng văn bản. Trong các thử nghiệm so sánh, nó vượt trội hơn các giải pháp thay thế mã nguồn mở tầm trung và ngang ngửa các sản phẩm thương mại như Midjourney về khả năng tuân thủ nhanh chóng—đặc biệt là đối với các lời nhắc song ngữ kết hợp tiếng Anh và tiếng Trung. Mặc dù một số hệ thống độc quyền vẫn có thể dẫn đầu trong việc tạo ra các cảnh cực kỳ phức tạp, nhưng phản hồi ban đầu của người dùng đã làm nổi bật độ rõ nét vượt trội của Qwen-Image đối với bố cục văn bản đa ngôn ngữ và các điều khiển chỉnh sửa mạnh mẽ của nó.
Phù hợp với cam kết của Alibaba về AI “mở, minh bạch và bền vững”, Qwen-Image là nguồn mở trên nền tảng MoDa, kêu gọi cộng đồng đóng góp và tùy chỉnh. Bên cạnh việc phát hành mô hình, Alibaba đã công bố tài liệu mở rộng, mã mẫu và cổng thông tin phản hồi để hỗ trợ thử nghiệm thực tế trên nhiều trường hợp sử dụng khác nhau—từ quy trình xuất bản tự động đến các công cụ giáo dục tương tác.
Những kết quả đánh giá
Các tiêu chuẩn nội bộ của Alibaba và đánh giá của bên thứ ba vẽ nên bức tranh về hiệu suất hàng đầu của Qwen-Image:
- GenEval (Tạo hình ảnh chung): Đã đạt được Khoảng cách khởi đầu Fréchet (FID) là 10.2, vượt trội hơn 20 mô hình tham số B tương đương trung bình 9%.
- LongText-Bench (Kết xuất văn bản): Ghi 92.7% độ chính xác trong việc sắp xếp văn bản nhiều dòng và tính toàn vẹn của ký tự, vượt trội hơn GPT-4.1 tới 14%.
- GEdit/ImgEdit (Chỉnh sửa hình ảnh): Đã đăng ký điểm ý kiến trung bình (MOS) là 4.3/5, phản ánh sự hài lòng cao của người dùng trong việc duy trì tính nhất quán về mặt ngữ nghĩa trong quá trình chỉnh sửa
- OneIG-Bench (Tạo đồ họa thông tin): Được xếp hạng trong ba mô hình hàng đầu về khả năng hiển thị dữ liệu có cấu trúc và biểu đồ trực quan từ lời nhắc, thể hiện khả năng lựa chọn màu sắc và bố cục mạnh mẽ.
- Bảng xếp hạng bảng xếp hạng: Trên Bảng xếp hạng Artificial Analysis Image Arena, Qwen-Image hiện đang giữ vị trí thứ 5 trong số tất cả các mô hình tạo hình ảnh—và là mục nhập có trọng số mở duy nhất trong top 10—chứng minh lợi thế cạnh tranh của mình trong cộng đồng nghiên cứu.
Truy cập & Hệ sinh thái
Bộ tính năng đa dạng của Qwen-Image mở ra nhiều ứng dụng thực tế:
- Quảng cáo tiếp thị: Tạo nhanh hình ảnh quảng cáo theo yêu cầu với các khẩu hiệu được nhúng và các thành phần văn bản đa ngôn ngữ.
- Nội dung giáo dục: Tự động tạo sơ đồ minh họa, đồ họa thông tin và hình ảnh có chú thích cho nền tảng học tập điện tử.
- Thiết kế & Tạo mẫu: Bản mô phỏng và bản vẽ ý tưởng tức thời với các lớp có thể chỉnh sửa để tạo quy trình làm việc sáng tạo mang tính tương tác.
- Dịch vụ bản địa hóa: Chuyển thể hình ảnh một cách liền mạch vào các bối cảnh ngôn ngữ khác nhau mà không cần nỗ lực thiết kế đồ họa thủ công.
Người dùng có thể tương tác với Qwen-Image thông qua giao diện Chat Qwen của Alibaba bằng cách chọn chế độ "Tạo hình ảnh" hoặc tích hợp mô hình vào môi trường của họ thông qua kho lưu trữ GitHub và API CometAPI.
- Sử dụng tương tác: Chuyến thăm chat.qwen.ai và chọn bất kỳ mô hình Qwen nào không cần mã hóa, sau đó chuyển sang “Tạo hình ảnh” để bắt đầu tạo.
- Mã & Trọng lượng:
- GitHub: github.com/QwenLM/Qwen-Image
- Ôm mặt: huggingface.co
- Modelscope: modelscope.cn
Alibaba khuyến khích phản hồi và đóng góp của cộng đồng để thúc đẩy cởi mở, minh bạch và bền vững hệ sinh thái AI tạo ra.
Tích hợp mới nhất Qwen-Image sẽ sớm xuất hiện trên CometAPI, vì vậy hãy chú ý theo dõi! Trong khi chúng tôi hoàn thiện việc tải lên Mô hình Qwen-Image, hãy khám phá các mô hình khác của chúng tôi trên trang Mô hình hoặc dùng thử chúng trong AI Playground.
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Xem thêm
