Alibaba Cloud udgiver Qwen-VLo multimodal model, opgradering af billedfunktioner

Alibaba Clouds AI-afdeling er officielt lanceret Qwen-VLo, den seneste iteration i sin Qwen multimodale modelserie, der markerer en betydelig forbedring inden for samlede syns- og sprogfunktioner. Qwen-VLo, der blev annonceret den 28. juni 2025, tilbyder både forståelses- og genereringsfunktioner, der går langt ud over sine forgængere og omfatter billedoprettelse og redigering i høj opløsning drevet af naturlige sprogprompter og visuelle input.

Qwen-VLo bygger videre på tidligere udgivelser som Qwen-VL og Qwen2.5-VL og repræsenterer, hvad Alibaba beskriver som en "omfattende opgradering" inden for multimodal AI. Mens Qwen-VL primært fokuserede på at fortolke visuel information, og Qwen2.5-VL forbedrede forståelsen af lange kontekster, integrerer Qwen-VLo disse styrker i et enkelt framework, der er i stand til at udføre tovejs visions-sprogsopgaver. Det rummer åbne instruktioner, understøtter flere sprog - herunder kinesisk og engelsk - og forfiner sine output, så det kan konkurrere med menneskelige kunstneres.

Nøglefunktioner

Progressiv billedgenerering

Qwen-VLo konstruerer billeder trinvis – fra venstre mod højre og fra top til bund – og forfiner iterativt det forudsagte indhold for at sikre konsistens og visuel harmoni. Denne mekanisme forbedrer både genereringseffektiviteten og brugerens kontrol over den kreative proces.

Understøttelse af dynamisk opløsning

Ved hjælp af dynamisk opløsningstræning kan modellen håndtere vilkårlige input/output-opløsninger og billedformater. Brugere kan generere indhold, der er skræddersyet til forskellige scenarier – såsom webbannere, forsider til sociale medier eller plakater i høj opløsning – uden at være begrænset af faste formater.

Åben instruktionsredigering

Ved hjælp af naturlige sprogprompter kan Qwen VLo udføre avancerede redigeringer såsom stiloverførsler ("Anvend en Van Gogh-stil"), sammensatte transformationer ("Tilføj en solrig himmel") og flerfacetterede ændringer i en enkelt instruktion. Den understøtter også udtrækning og redigering af traditionelle visuelle signaler som dybdekort, segmenteringsmasker og kantkonturer.

Flersproget interaktion

Modellen accepterer kommandoer på flere sprog – i øjeblikket understøttet af kinesisk og engelsk – og henvender sig dermed til en global brugerbase og nedbryder sproglige barrierer i kreative arbejdsgange.

Tilgængelighed og adgang

Qwen-VLo er i øjeblikket tilgængelig i forhåndsvisning via Qwen Chat-platformen på chat.qwen.aiAlibaba Cloud har bemærket, at brugere, som en forhåndsvisning af versionen, kan støde på lejlighedsvise uoverensstemmelser eller faktuelle unøjagtigheder under genereringen. Udviklingsteamet arbejder aktivt på at løse disse begrænsninger inden en bredere udrulning.

Under motorhjelmen har Alibabas AI-ingeniører optimeret Qwen-VLo til implementering på tværs af både cloud- og edge-miljøer. Ved at udnytte blandet præcisionskvantisering og nye parametereffektive finjusteringsteknikker opretholder modellen høj ydeevne på et kompakt computerniveau. Alibaba har også integreret adaptive inferenspipelines for at balancere latenstid og kvalitet, hvilket sikrer, at Qwen-VLo kan håndtere latenstidsfølsomme applikationer - såsom interaktive designværktøjer - samtidig med at den skaleres til arbejdsbelastninger i virksomhedsklassen på Alibaba Cloud.

Sammenligne med Qwen-VL-Plus/Max

Funktion Dimension	Qwen-VL-Plus/Max	Qwen VLo
Billedforståelse	Grundlæggende klassificering, beskrivelse	Multidimensionel strukturgenkendelse, forbedret kontekstuel forståelse
Billedgenerering	Begrænset stilunderstøttelse	Høj præcision, progressiv generering, stærke stilkontrolfunktioner
Multitasking-kapacitet	Kræver opgavespecifik input	Samlet multitasking, understøtter komplekse sproginstruktioner
Flersproget interaktion	Begrænset support	Indbygget understøttelse af kinesisk og engelsk, mere jævn kontrol over naturligt sprog
Evne til at bevare detaljer	Muligt tab af detaljer i generering	Præcis identifikation og rekonstruktion af nøglestrukturer og semantik

Kom godt i gang

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Til at begynde med, udforsk modellernes muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen.

Den seneste integration med Qwen-VLo API vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør upload af Qwen-VLo-modellen, kan du udforske vores andre modeller på Modeller side eller prøv dem i AI LegepladsQwens seneste model i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.