Qwen-Image үлгісі AI кескінін жасау мен өңдеуді қайта анықтай алады

CometAPI
AnnaAug 4, 2025
Qwen-Image үлгісі AI кескінін жасау мен өңдеуді қайта анықтай алады

4 жылдың 2025 тамызында Alibaba-ның Qwen командасы ресми түрде іске қосылды Qwen-сурет, 20 миллиард параметрлі мультимодальды диффузиялық трансформатордың (MMDiT) негізі үлгісі мәтіннен кескінге синтезде және кескінді дәл өңдеуде бұрын-соңды болмаған шынайылықты қамтамасыз етуге арналған. Бұл шығарылым Alibaba компаниясының Qwen-Image-ті OpenAI GPT-4o, DALL·E 2 және Midjourney сияқты меншікті жүйелерге тікелей қарсылас ретінде көрсете отырып, ашық бастапқы кескіндерді жасау аренасына батыл енуін көрсетеді.

Техникалық инновациялар

Qwen-Image 20 B MMDiT магистраль күрделі мәтіндік мазмұнды тікелей жасалған кескіндер ішінде көрсетуде үлгіге мүмкіндік беретін маңызды инженерлік ерлікті көрсетеді. Оның оқу жоспарын оқыту тәсілі мәтінді емес қарапайым тапсырмалардан басталады және алфавиттік және логографиялық тілдерде ерекше дәлдік беретін абзац ұзындығының сипаттамаларын өңдеуге біртіндеп ілгерілейді. Сонымен қатар, модель а қамтиды қос кодтау механизм — Qwen2.5-VL және VAE кодтары арқылы семантикалық және реконструктивтік көріністерді бөлек өңдеу — кескінді өңдеу кезінде семантикалық үйлесімділік пен көрнекі шынайылықты сақтау арасындағы тепе-теңдікті сақтайды.

Мәтінді көрсету және өңдеу саласындағы жетістіктер

Qwen-Image үшін негізгі дифференциатор - оның ендірілген мәтінге жергілікті қолдау, ол көп жолды орналасулар мен абзац мәтінмәндері бойынша кескіндерге анық ағылшын және қытай мәтіндерін орналастыруға мүмкіндік береді. Ішкі эталондар Qwen-Image жылдам ұстану және мәтін анықтығы бойынша көптеген ашық бастапқы бәсекелестерден асып түсетінін көрсетеді, бұл оны көптілді дизайн элементтерін қажет ететін қолданбалар үшін тамаша етеді. Оның кескінді өңдеу мүмкіндіктері, сондай-ақ бар көрнекі бейнелерді өзгерткен кезде үйлесімділікті арттыра отырып, мәтіннен кескінге, мәтіннен кескінге және кескіннен кескінге қайта құру тапсырмаларын біріктіретін көп тапсырманы оқыту парадигмасының пайдасын көреді.

Тәуелсіз бағалаулар мәтінді енгізу дәлдігінде Qwen-Image-тің бірнеше жетекші ашық бастапқы және меншікті үлгілерден артықшылығын көрсетеді. Салыстырмалы сынақтарда ол орташа диапазондағы ашық бастапқы баламалардан асып түседі және жылдам ұстану үшін Midjourney сияқты коммерциялық ұсыныстармен бәсекелеседі, әсіресе ағылшын және қытай тілдерін біріктіретін екі тілді сұрауларда. Кейбір меншікті жүйелер әлі де ультра күрделі көріністерді жасауға жетекшілік етуі мүмкін болса да, пайдаланушының ерте пікірлері Qwen-Image-тің көптілді мәтін макеттері үшін теңдесі жоқ анықтығын және оның сенімді өңдеу басқару элементтерін атап көрсетеді.

Alibaba-ның «ашық, мөлдір және тұрақты» AI міндеттемесіне сәйкес Qwen-Image ашық көздерден алынған MoDa платформасында қауымдастық үлестерін және теңшеулерін шақырады. Модель шығарылымымен қатар, Alibaba кең құжаттаманы, үлгі кодын және әртүрлі пайдалану жағдайларында – автоматтандырылған баспа құбырларынан интерактивті білім беру құралдарына дейінгі нақты әлемдегі тестілеуді қолдау үшін кері байланыс порталын жариялады.

Бағалау нәтижелері

Alibaba ішкі эталондары мен үшінші тарап бағалаулары Qwen-Image-тің жетекші өнімділігінің суретін салады:

  • GenEval (Жалпы кескін жасау): Fréchet Inception Distance (FID) деңгейіне жетті 10.2, салыстырмалы 20 B-параметрлі үлгілерден орташа есеппен 9%-ға асып түседі.
  • LongText-Bench (мәтінді көрсету): жинады 92.7% көп жолды мәтінді орналастырудың дәлдігі және глифтің тұтастығы, GPT-4.1-ден 14%-ға асып түседі.
  • GEdit/ImgEdit (суретті өңдеу): Орташа пікір бағасы (MOS) тіркелді 4.3/5, өңдеу кезінде семантикалық сәйкестікті сақтауда пайдаланушының жоғары қанағаттануын көрсетеді
  • OneIG-Bench (инфографиялық генерация): Құрылымдық деректер мен диаграммаларды тікелей сұраулардан көрнекі түрде көрсетуге арналған үздік үш модельдің қатарына еніп, күшті орналасу мен түс таңдау мүмкіндіктерін көрсетеді.
  • Көшбасшылар тақтасының рейтингі: Жасанды талдау Image Arena көшбасшылар тақтасында Qwen-Image қазіргі уақытта барлық кескін жасау үлгілері арасында 5-ші орынды иеленеді және зерттеу қауымдастығындағы бәсекеге қабілеттілігін көрсететін алғашқы ондықтағы жалғыз ашық салмақтағы жазба болып табылады.

Қол жеткізу және экожүйе

Qwen-Image-тің әмбебап мүмкіндіктер жиынтығы нақты әлемдегі қолданбалардың бірқатарын ашады:

  • Маркетинг және жарнама: Енгізілген ұрандар мен көптілді мәтін элементтері бар тапсырыс бойынша жарнамалық көрнекілерді жылдам жасау.
  • Білім беру мазмұны: Электрондық оқыту платформалары үшін иллюстрациялық диаграммаларды, инфографикаларды және аннотацияланған кескіндерді автоматтандырылған құру.
  • Дизайн және прототиптеу: Интерактивті шығармашылық жұмыс процестеріне арналған өңделетін қабаттары бар ұшатын макеттер және концепциялық өнер.
  • Локализация қызметтері: Қолмен графикалық дизайн күш-жігерінсіз көрнекі бейнелерді әртүрлі лингвистикалық контексттерге үздіксіз бейімдеу.

Пайдаланушылар Qwen-Image-пен Alibaba-ның Chat Qwen интерфейсі арқылы «Кескінді жасау» режимін таңдау арқылы өзара әрекеттесе алады немесе модельді GitHub репозиторийі және CometAPI API интерфейстері арқылы орталарына біріктіре алады.

  • Интерактивті қолдану: Бару chat.qwen.ai және кез келген кодталмаған Qwen үлгісін таңдаңыз, одан кейін жасауды бастау үшін «Кескінді жасау» опциясына ауысыңыз.
  • Код және салмақтар:
  • GitHub: github.com/QwenLM/Qwen-Image
  • Бет құшақтау: huggingface.co
  • Модельдер аймағы: modelscope.cn

Alibaba қоғамдастықтың кері байланысы мен үлестерін ынталандырады ашық, ашық және тұрақты генеративті AI экожүйесі.

Ең соңғы Qwen-Image интеграциясы жақын арада CometAPI сайтында пайда болады, сондықтан хабардар болыңыз! Qwen-Image үлгісін жүктеп салуды аяқтағанша, Үлгілер бетіндегі басқа үлгілерімізді зерттеңіз немесе AI ойын алаңында қолданып көріңіз.

CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.

Сондай-ақ, қараңыз

Толығырақ оқу

500+ модель бір API-да

20%-ға дейін жеңілдік