Kan Qwen-Image Model omdefinere AI-bildegenerering og -redigering?

august 2025 ble Alibabas Qwen-team offisielt lansert Qwen-bilde, en fundamentmodell for multimodal diffusjonstransformator (MMDiT) med 20 milliarder parametere, designet for å levere enestående gjengivelseskvalitet i tekst-til-bilde-syntese og presisjonsbilderedigering. Denne utgivelsen markerer Alibabas dristige inntreden i arenaen for åpen kildekode-bildegenerering, og posisjonerer Qwen-Image som en direkte utfordrer til proprietære systemer som OpenAIs GPT-4o, DALL·E 2 og Midjourney.

Tekniske innovasjoner

Qwen-bildene 20 B MMDiT Ryggraden markerer en betydelig ingeniørbragd, som gjør det mulig for modellen å utmerke seg i å gjengi komplekst tekstinnhold direkte i genererte bilder. Læringstilnærmingen i læreplanen begynner med enkle gjengivelsesoppgaver uten tekst og utvikler seg gradvis til å håndtere beskrivelser med avsnittslengde, noe som gir eksepsjonell gjengivelseskvalitet i både alfabetiske og logografiske språk. Dessuten inneholder modellen en dobbel koding mekanisme – separat behandling av semantiske og rekonstruktive representasjoner via Qwen2.5-VL og en VAE-koder – som finner en balanse mellom å opprettholde semantisk konsistens og visuell realisme under bilderedigering.

Gjennombrudd innen tekstgjengivelse og redigering

En viktig differensieringsfaktor for Qwen-Image er dens innebygd støtte for innebygd tekst, noe som gjør det mulig å plassere lesbar engelsk og kinesisk tekst i bilder på tvers av flerlinjede oppsett og avsnittskontekster. Interne testresultater viser at Qwen-Image overgår mange konkurrenter med åpen kildekode når det gjelder rask overholdelse og tekstklarhet, noe som gjør det ideelt for applikasjoner som krever flerspråklige designelementer. Bilderedigeringsfunksjonene drar også nytte av et fleroppgaveopplæringsparadigme som integrerer tekst-til-bilde, tekst-bilde-til-bilde og bilde-til-bilde-rekonstruksjonsoppgaver, noe som forbedrer konsistensen når man endrer eksisterende visuelle elementer.

Uavhengige evalueringer viser at Qwen-Images overlegenhet over flere ledende modeller med åpen kildekode og proprietære modeller når det gjelder nøyaktighet i tekstinnbygging. I sammenlignende tester overgår den mellomstore alternativer med åpen kildekode og konkurrerer med kommersielle tilbud som Midjourney når det gjelder rask overholdelse – spesielt på tospråklige instruksjoner som kombinerer engelsk og kinesisk. Selv om noen proprietære systemer fortsatt kan være ledende i å generere ultrakomplekse scener, fremhever tidlige tilbakemeldinger fra brukere Qwen-Images uovertrufne klarhet for flerspråklige tekstoppsett og robuste redigeringskontroller.

I samsvar med Alibabas forpliktelse til «åpen, transparent og bærekraftig» AI, er Qwen-Image åpen kildekode på MoDa-plattformen, og inviterer til bidrag og tilpasninger fra fellesskapet. Ved siden av modelllanseringen har Alibaba publisert omfattende dokumentasjon, eksempelkode og en tilbakemeldingsportal for å støtte testing i den virkelige verden på tvers av ulike brukstilfeller – fra automatiserte publiseringsprosesser til interaktive pedagogiske verktøy.

Evalueringsresultater

Alibabas interne referansetester og tredjepartsvurderinger gir et bilde av Qwen-Images ledende ytelse:

GenEval (generell bildegenerering): Oppnådde en Fréchet-startavstand (FID) på 10.2, og overgikk i gjennomsnitt sammenlignbare modeller med 20 B-parametere med 9 %.
LongText-Bench (tekstgjengivelse): scoret 92.7% nøyaktighet i plassering av tekst over flere linjer og glyffers integritet, og overgår GPT-4.1 med 14 %.
GEdit/ImgEdit (Bilderedigering): Registrerte en gjennomsnittlig meningsscore (MOS) på 4.3/5, noe som gjenspeiler høy brukertilfredshet med å opprettholde semantisk konsistens under redigeringer
OneIG-Bench (generering av infografikk): Rangert blant de tre beste modellene for visuell gjengivelse av strukturerte data og diagrammer direkte fra ledetekster, med sterke muligheter for layout og fargevalg.
Rangering av poengtavlePå ledertavlen i Artificial Analysis Image Arena har Qwen-Image for tiden 5. plass blant alle bildegenereringsmodeller – og er den eneste modellen i åpen vekt blant de 10 beste – noe som demonstrerer sitt konkurransefortrinn i forskningsmiljøet.

Tilgang og økosystem

Qwen-Images allsidige funksjonssett låser opp en rekke virkelige applikasjoner:

Markedsføring og reklame: Rask utforming av skreddersydde reklamegrafikk med innebygde slagord og flerspråklige tekstelementer.
Pedagogisk innhold: Automatisert generering av illustrerende diagrammer, infografikk og kommenterte bilder for e-læringsplattformer.
Design og prototyping: Mockups og konseptkunst på farten med redigerbare lag for interaktive kreative arbeidsflyter.
Lokaliseringstjenester: Sømløs tilpasning av visuelle elementer til ulike språklige kontekster uten manuell grafisk designinnsats.

Brukere kan samhandle med Qwen-Image via Alibabas Chat Qwen-grensesnitt ved å velge modusen «Bildegenerering», eller integrere modellen i sine miljøer gjennom GitHub-repositoriet og CometAPI API-ene.

Interaktiv bruk: Besøk chat.qwen.ai og velg en hvilken som helst ikke-kodende Qwen-modell, og bytt deretter til «Bildegenerering» for å begynne å lage.
Kode og vekter:
GitHub: github.com/QwenLM/Qwen-Image
Klemme ansiktet: huggingface.co
Modellomfang: modelscope.cn

Alibaba oppfordrer til tilbakemeldinger og bidrag fra lokalsamfunnet for å fremme en åpen, transparent og bærekraftig generativt AI-økosystem.

Den nyeste integrasjonen av Qwen-Image vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller opplastingen av Qwen-Image-modellen, kan du utforske de andre modellene våre på modellsiden eller prøve dem i AI-lekeplassen.

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Se også

Tekniske innovasjoner

Gjennombrudd innen tekstgjengivelse og redigering

Evalueringsresultater

Tilgang og økosystem

Les mer

500+ modeller i ett API