4 sierpnia 2025 roku zespół Qwen firmy Alibaba oficjalnie wystartował Obraz Qwen, 20-miliardowy model bazowy multimodalnego transformatora dyfuzyjnego (MMDiT) zaprojektowany w celu zapewnienia niespotykanej dotąd wierności w syntezie tekstu na obraz i precyzyjnej edycji obrazu. To wydanie oznacza śmiałe wejście Alibaby na rynek generowania obrazu w modelu open source, pozycjonując Qwen-Image jako bezpośredniego konkurenta dla zastrzeżonych systemów, takich jak GPT-4o firmy OpenAI, DALL·E 2 i Midjourney.
Innowacje techniczne
Qwen-Image's 20 B MMDiT Backbone stanowi znaczące osiągnięcie inżynieryjne, umożliwiając modelowi doskonałe renderowanie złożonych treści tekstowych bezpośrednio w generowanych obrazach. Jego podejście do nauki rozpoczyna się od prostych zadań renderowania nietekstowego i stopniowo przechodzi do obsługi opisów o długości akapitu, zapewniając wyjątkową wierność zarówno w językach alfabetycznych, jak i logograficznych. Co więcej, model zawiera podwójne kodowanie mechanizm — oddzielne przetwarzanie reprezentacji semantycznych i rekonstrukcyjnych za pomocą Qwen2.5-VL i kodera VAE — który zapewnia równowagę między zachowaniem spójności semantycznej a realizmem wizualnym podczas edycji obrazu.
Przełomy w renderowaniu i edycji tekstu
Kluczowym wyróżnikiem Qwen-Image jest jego natywne wsparcie dla osadzonego tekstu, umożliwiając umieszczanie czytelnego tekstu w języku angielskim i chińskim na obrazach w układach wielowierszowych i kontekstach akapitów. Wewnętrzne testy porównawcze pokazują, że Qwen-Image przewyższa wielu konkurentów z otwartym kodem źródłowym pod względem szybkości i przejrzystości tekstu, co czyni go idealnym rozwiązaniem dla aplikacji wymagających wielojęzycznych elementów projektowych. Jego możliwości edycji obrazów korzystają również z wielozadaniowego paradygmatu szkoleniowego, który integruje zadania rekonstrukcji tekstu na obraz, tekstu-obrazu na obraz i obrazu na obraz, zwiększając spójność podczas modyfikowania istniejących elementów wizualnych.
Niezależne oceny wykazują przewagę Qwen-Image nad kilkoma wiodącymi modelami open source i zastrzeżonymi pod względem dokładności osadzania tekstu. W testach porównawczych przewyższa on alternatywne rozwiązania open source ze średniej półki i dorównuje komercyjnym ofertom, takim jak Midjourney, pod względem szybkości działania – zwłaszcza w przypadku dwujęzycznych komunikatów łączących język angielski i chiński. Chociaż niektóre zastrzeżone systemy nadal mogą być liderami w generowaniu ultra-złożonych scen, wstępne opinie użytkowników podkreślają niezrównaną przejrzystość wielojęzycznych układów tekstu oraz solidne mechanizmy edycji.
Zgodnie z zobowiązaniem Alibaby do „otwartej, przejrzystej i zrównoważonej” sztucznej inteligencji, Qwen-Image open-sourced na platformie MoDa, zachęcając społeczność do wkładu i dostosowań. Oprócz wydania modelu, Alibaba opublikowała obszerną dokumentację, przykładowy kod i portal opinii, aby wspierać testy w warunkach rzeczywistych w różnych przypadkach użycia – od zautomatyzowanych procesów publikacji po interaktywne narzędzia edukacyjne.
Wyniki oceny
Wewnętrzne testy porównawcze Alibaby i oceny stron trzecich przedstawiają obraz wiodącej pozycji Qwen-Image:
- GenEval (generowanie obrazu ogólnego): Osiągnięto odległość rozpoczęcia Frécheta (FID) wynoszącą 10.2, przewyższając porównywalne modele 20 parametrów B średnio o 9%.
- LongText-Bench (renderowanie tekstu): Zdobył punkty 92.7% dokładność w rozmieszczaniu tekstu wielowierszowego i integralność glifów, przewyższająca GPT-4.1 o 14%.
- GEdit/ImgEdit (edycja obrazów): Zarejestrowano średni wynik opinii (MOS) na poziomie 4.3/5, co odzwierciedla wysoki poziom zadowolenia użytkowników z zachowania spójności semantycznej podczas edycji
- OneIG-Bench (Generacja infografik): Zajmuje miejsce w pierwszej trójce modeli pod względem wizualnego prezentowania ustrukturyzowanych danych i wykresów bezpośrednio z monitów, wykazując się przy tym dużymi możliwościami układu i doboru kolorów.
- Ranking tabeli liderów:W rankingu Artificial Analysis Image Arena Leaderboard program Qwen-Image zajmuje obecnie 5. miejsce wśród wszystkich modeli generowania obrazów i jest jedynym otwartym wpisem w pierwszej dziesiątce, co dowodzi jego przewagi konkurencyjnej w środowisku badawczym.
Dostęp i ekosystem
Wszechstronny zestaw funkcji Qwen-Image otwiera szereg zastosowań w praktyce:
- Marketing i reklama: Szybkie tworzenie spersonalizowanych materiałów wizualnych promocyjnych z osadzonymi hasłami i wielojęzycznymi elementami tekstowymi.
- Treść edukacyjna: Automatyczne generowanie ilustracyjnych diagramów, infografik i obrazów z komentarzami na potrzeby platform e-learningowych.
- Projekt i prototypowanie: Makiety i koncepcje graficzne tworzone na bieżąco z edytowalnymi warstwami na potrzeby interaktywnych, kreatywnych przepływów pracy.
- Usługi lokalizacyjne: Bezproblemowa adaptacja materiałów wizualnych do różnych kontekstów językowych bez konieczności ręcznego projektowania graficznego.
Użytkownicy mogą wchodzić w interakcję z Qwen-Image za pośrednictwem interfejsu Chat Qwen firmy Alibaba, wybierając tryb „Generowanie obrazu” lub integrować model ze swoimi środowiskami za pośrednictwem repozytorium GitHub i interfejsów API CometAPI.
- Interaktywne użycie: Odwiedzić czat.qwen.ai i wybierz dowolny model Qwen, który nie wymaga kodowania, a następnie przejdź do „Generowania obrazu”, aby rozpocząć tworzenie.
- Kod i wagi:
- GitHub: github.com/QwenLM/Qwen-Image
- Przytulanie Twarzy: huggingface.co
- Modelskop: modelscope.cn
Alibaba zachęca społeczność do wyrażania opinii i wkładu w celu wspierania otwarte, przejrzyste i zrównoważone ekosystemu sztucznej inteligencji generatywnej.
Najnowsza integracja Qwen-Image wkrótce pojawi się w CometAPI, więc bądźcie czujni! Podczas gdy finalizujemy przesyłanie modelu Qwen-Image, zapoznaj się z naszymi innymi modelami na stronie Modele lub wypróbuj je w AI Playground.
CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.
Zobacz także
