Alibaba Clouds AI-afdeling er officielt lanceret Qwen-VLo, den seneste iteration i sin Qwen multimodale modelserie, der markerer en betydelig forbedring inden for samlede syns- og sprogfunktioner. Qwen-VLo, der blev annonceret den 28. juni 2025, tilbyder både forståelses- og genereringsfunktioner, der går langt ud over sine forgængere og omfatter billedoprettelse og redigering i høj opløsning drevet af naturlige sprogprompter og visuelle input.
Qwen-VLo bygger videre på tidligere udgivelser som Qwen-VL og Qwen2.5-VL og repræsenterer, hvad Alibaba beskriver som en "omfattende opgradering" inden for multimodal AI. Mens Qwen-VL primært fokuserede på at fortolke visuel information, og Qwen2.5-VL forbedrede forståelsen af lange kontekster, integrerer Qwen-VLo disse styrker i et enkelt framework, der er i stand til at udføre tovejs visions-sprogsopgaver. Det rummer åbne instruktioner, understøtter flere sprog - herunder kinesisk og engelsk - og forfiner sine output, så det kan konkurrere med menneskelige kunstneres.
Nøglefunktioner
Progressiv billedgenerering
Qwen-VLo konstruerer billeder trinvis – fra venstre mod højre og fra top til bund – og forfiner iterativt det forudsagte indhold for at sikre konsistens og visuel harmoni. Denne mekanisme forbedrer både genereringseffektiviteten og brugerens kontrol over den kreative proces.
Understøttelse af dynamisk opløsning
Ved hjælp af dynamisk opløsningstræning kan modellen håndtere vilkårlige input/output-opløsninger og billedformater. Brugere kan generere indhold, der er skræddersyet til forskellige scenarier – såsom webbannere, forsider til sociale medier eller plakater i høj opløsning – uden at være begrænset af faste formater.
Åben instruktionsredigering
Ved hjælp af naturlige sprogprompter kan Qwen VLo udføre avancerede redigeringer såsom stiloverførsler ("Anvend en Van Gogh-stil"), sammensatte transformationer ("Tilføj en solrig himmel") og flerfacetterede ændringer i en enkelt instruktion. Den understøtter også udtrækning og redigering af traditionelle visuelle signaler som dybdekort, segmenteringsmasker og kantkonturer.
Flersproget interaktion
Modellen accepterer kommandoer på flere sprog – i øjeblikket understøttet af kinesisk og engelsk – og henvender sig dermed til en global brugerbase og nedbryder sproglige barrierer i kreative arbejdsgange.
Tilgængelighed og adgang
Qwen-VLo er i øjeblikket tilgængelig i forhåndsvisning via Qwen Chat-platformen på chat.qwen.aiAlibaba Cloud har bemærket, at brugere, som en forhåndsvisning af versionen, kan støde på lejlighedsvise uoverensstemmelser eller faktuelle unøjagtigheder under genereringen. Udviklingsteamet arbejder aktivt på at løse disse begrænsninger inden en bredere udrulning.
Under motorhjelmen har Alibabas AI-ingeniører optimeret Qwen-VLo til implementering på tværs af både cloud- og edge-miljøer. Ved at udnytte blandet præcisionskvantisering og nye parametereffektive finjusteringsteknikker opretholder modellen høj ydeevne på et kompakt computerniveau. Alibaba har også integreret adaptive inferenspipelines for at balancere latenstid og kvalitet, hvilket sikrer, at Qwen-VLo kan håndtere latenstidsfølsomme applikationer - såsom interaktive designværktøjer - samtidig med at den skaleres til arbejdsbelastninger i virksomhedsklassen på Alibaba Cloud.
Sammenligne med Qwen-VL-Plus/Max
| Funktion Dimension | Qwen-VL-Plus/Max | Qwen VLo |
|---|---|---|
| Billedforståelse | Grundlæggende klassificering, beskrivelse | Multidimensionel strukturgenkendelse, forbedret kontekstuel forståelse |
| Billedgenerering | Begrænset stilunderstøttelse | Høj præcision, progressiv generering, stærke stilkontrolfunktioner |
| Multitasking-kapacitet | Kræver opgavespecifik input | Samlet multitasking, understøtter komplekse sproginstruktioner |
| Flersproget interaktion | Begrænset support | Indbygget understøttelse af kinesisk og engelsk, mere jævn kontrol over naturligt sprog |
| Evne til at bevare detaljer | Muligt tab af detaljer i generering | Præcis identifikation og rekonstruktion af nøglestrukturer og semantik |
Kom godt i gang
CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.
Til at begynde med, udforsk modellernes muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen.
Den seneste integration med Qwen-VLo API vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør upload af Qwen-VLo-modellen, kan du udforske vores andre modeller på Modeller side eller prøv dem i AI LegepladsQwens seneste model i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.

