Alibaba Cloud lanserer Qwen-VLo multimodal modell, oppgradering av bildefunksjonalitet

AI-avdelingen til Alibaba Cloud er offisielt lansert. Qwen-VLo, den nyeste iterasjonen i Qwen multimodale modellserie, som markerer et betydelig fremskritt innen enhetlige syns- og språkfunksjoner. Qwen-VLo ble annonsert 28. juni 2025 og tilbyr både forståelses- og genereringsfunksjoner, og strekker seg langt utover forgjengerne til å inkludere høyoppløselig bildeoppretting og redigering drevet av naturlige språkmeldinger og visuelle input.

Qwen-VLo bygger på tidligere utgivelser som Qwen-VL og Qwen2.5-VL, og representerer det Alibaba beskriver som en «omfattende oppgradering» innen multimodal AI. Mens Qwen-VL primært fokuserte på å tolke visuell informasjon, og Qwen2.5-VL forbedret forståelsen av lang kontekst, integrerer Qwen-VLo disse styrkene i et enkelt rammeverk som er i stand til å håndtere toveis syns- og språkoppgaver. Det har plass til åpne instruksjoner, støtter flere språk – inkludert kinesisk og engelsk – og forbedrer resultatene for å konkurrere med menneskelige kunstneres.

Viktige funksjoner

Progressiv bildegenerering

Qwen-VLo konstruerer bilder trinnvis – fra venstre til høyre og topp til bunn – og forbedrer iterativt forutsagt innhold for å sikre konsistens og visuell harmoni. Denne mekanismen forbedrer både genereringseffektiviteten og brukerkontrollen over den kreative prosessen.

Støtte for dynamisk oppløsning

Ved å bruke dynamisk oppløsningstrening kan modellen håndtere vilkårlige input/output-oppløsninger og sideforhold. Brukere kan generere innhold skreddersydd for ulike scenarier – for eksempel webbannere, forsider på sosiale medier eller plakater med høy oppløsning – uten å være begrenset av faste formater.

Åpen redigering av instruksjoner

Gjennom naturlige språkinstruksjoner kan Qwen VLo utføre avanserte redigeringer som stiloverføringer («Bruk en Van Gogh-stil»), sammensatte transformasjoner («Legg til en solrik himmel») og flerfasetterte modifikasjoner i én enkelt instruksjon. Den støtter også uttrekking og redigering av tradisjonelle visuelle signaler som dybdekart, segmenteringsmasker og kantkonturer.

Flerspråklig interaksjon

Modellen aksepterer kommandoer på flere språk – for tiden støtter den kinesisk og engelsk – og dermed imøtekommer den en global brukerbase og bryter ned språklige barrierer i kreative arbeidsflyter.

Tilgjengelighet og tilgang

Qwen-VLo er for tiden tilgjengelig i forhåndsvisning via Qwen Chat-plattformen på chat.qwen.aiAlibaba Cloud har bemerket at brukere, som en forhåndsvisningsversjon, kan støte på sporadiske inkonsekvenser eller faktiske unøyaktigheter under genereringen. Utviklingsteamet jobber aktivt for å løse disse begrensningene før en bredere utrulling.

Under panseret har Alibabas AI-ingeniører optimalisert Qwen-VLo for distribusjon i både sky- og kantmiljøer. Ved å utnytte kvantisering med blandet presisjon og nye parametereffektive finjusteringsteknikker, opprettholder modellen høy ytelse på et kompakt databehandlingsnivå. Alibaba har også integrert adaptive inferensrørledninger for å balansere latens og kvalitet, noe som sikrer at Qwen-VLo kan betjene latensfølsomme applikasjoner – for eksempel interaktive designverktøy – samtidig som den skaleres til arbeidsbelastninger på bedriftsnivå på Alibaba Cloud.

Sammenligne med Qwen-VL-Plus/Max

Funksjon Dimensjon	Qwen-VL-Plus/Max	Qwen VLo
Bildeforståelse	Grunnleggende klassifisering, beskrivelse	Flerdimensjonal strukturgjenkjenning, forbedret kontekstuell forståelse
Bildegenerering	Begrenset stilstøtte	Høy presisjon, progressiv generering, sterke stilkontrollmuligheter
Multitasking evne	Krever oppgavespesifikk innspill	Enhetlig multitasking, støtter komplekse språkinstruksjoner
Flerspråklig interaksjon	Begrenset støtte	Innfødt støtte for kinesisk og engelsk, jevnere naturlig språkkontroll
Evne til å bevare detaljer	Mulig detaljtap i generering	Nøyaktig identifisering og rekonstruksjon av nøkkelstrukturer og semantikk

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

For å begynne, utforsk modellenes muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen.

Den nyeste integrasjonen av Qwen-VLo API vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller opplastingen av Qwen-VLo-modellen, kan du utforske de andre modellene våre på Modeller-siden eller prøv dem i AI lekeplassQwens nyeste modell i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.