AI-avdelingen til Alibaba Cloud er offisielt lansert. Qwen-VLo, den nyeste iterasjonen i Qwen multimodale modellserie, som markerer et betydelig fremskritt innen enhetlige syns- og språkfunksjoner. Qwen-VLo ble annonsert 28. juni 2025 og tilbyr både forståelses- og genereringsfunksjoner, og strekker seg langt utover forgjengerne til å inkludere høyoppløselig bildeoppretting og redigering drevet av naturlige språkmeldinger og visuelle input.
Qwen-VLo bygger på tidligere utgivelser som Qwen-VL og Qwen2.5-VL, og representerer det Alibaba beskriver som en «omfattende oppgradering» innen multimodal AI. Mens Qwen-VL primært fokuserte på å tolke visuell informasjon, og Qwen2.5-VL forbedret forståelsen av lang kontekst, integrerer Qwen-VLo disse styrkene i et enkelt rammeverk som er i stand til å håndtere toveis syns- og språkoppgaver. Det har plass til åpne instruksjoner, støtter flere språk – inkludert kinesisk og engelsk – og forbedrer resultatene for å konkurrere med menneskelige kunstneres.
Viktige funksjoner
Progressiv bildegenerering
Qwen-VLo konstruerer bilder trinnvis – fra venstre til høyre og topp til bunn – og forbedrer iterativt forutsagt innhold for å sikre konsistens og visuell harmoni. Denne mekanismen forbedrer både genereringseffektiviteten og brukerkontrollen over den kreative prosessen.
Støtte for dynamisk oppløsning
Ved å bruke dynamisk oppløsningstrening kan modellen håndtere vilkårlige input/output-oppløsninger og sideforhold. Brukere kan generere innhold skreddersydd for ulike scenarier – for eksempel webbannere, forsider på sosiale medier eller plakater med høy oppløsning – uten å være begrenset av faste formater.
Åpen redigering av instruksjoner
Gjennom naturlige språkinstruksjoner kan Qwen VLo utføre avanserte redigeringer som stiloverføringer («Bruk en Van Gogh-stil»), sammensatte transformasjoner («Legg til en solrik himmel») og flerfasetterte modifikasjoner i én enkelt instruksjon. Den støtter også uttrekking og redigering av tradisjonelle visuelle signaler som dybdekart, segmenteringsmasker og kantkonturer.
Flerspråklig interaksjon
Modellen aksepterer kommandoer på flere språk – for tiden støtter den kinesisk og engelsk – og dermed imøtekommer den en global brukerbase og bryter ned språklige barrierer i kreative arbeidsflyter.
Tilgjengelighet og tilgang
Qwen-VLo er for tiden tilgjengelig i forhåndsvisning via Qwen Chat-plattformen på chat.qwen.aiAlibaba Cloud har bemerket at brukere, som en forhåndsvisningsversjon, kan støte på sporadiske inkonsekvenser eller faktiske unøyaktigheter under genereringen. Utviklingsteamet jobber aktivt for å løse disse begrensningene før en bredere utrulling.
Under panseret har Alibabas AI-ingeniører optimalisert Qwen-VLo for distribusjon i både sky- og kantmiljøer. Ved å utnytte kvantisering med blandet presisjon og nye parametereffektive finjusteringsteknikker, opprettholder modellen høy ytelse på et kompakt databehandlingsnivå. Alibaba har også integrert adaptive inferensrørledninger for å balansere latens og kvalitet, noe som sikrer at Qwen-VLo kan betjene latensfølsomme applikasjoner – for eksempel interaktive designverktøy – samtidig som den skaleres til arbeidsbelastninger på bedriftsnivå på Alibaba Cloud.
Sammenligne med Qwen-VL-Plus/Max
| Funksjon Dimensjon | Qwen-VL-Plus/Max | Qwen VLo |
|---|---|---|
| Bildeforståelse | Grunnleggende klassifisering, beskrivelse | Flerdimensjonal strukturgjenkjenning, forbedret kontekstuell forståelse |
| Bildegenerering | Begrenset stilstøtte | Høy presisjon, progressiv generering, sterke stilkontrollmuligheter |
| Multitasking evne | Krever oppgavespesifikk innspill | Enhetlig multitasking, støtter komplekse språkinstruksjoner |
| Flerspråklig interaksjon | Begrenset støtte | Innfødt støtte for kinesisk og engelsk, jevnere naturlig språkkontroll |
| Evne til å bevare detaljer | Mulig detaljtap i generering | Nøyaktig identifisering og rekonstruksjon av nøkkelstrukturer og semantikk |
Komme i gang
CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.
For å begynne, utforsk modellenes muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen.
Den nyeste integrasjonen av Qwen-VLo API vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller opplastingen av Qwen-VLo-modellen, kan du utforske de andre modellene våre på Modeller-siden eller prøv dem i AI lekeplassQwens nyeste modell i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

