Alibaba Cloud lanceert multimodaal model Qwen-VLo, verbeterde beeldmogelijkheden

De AI-divisie van Alibaba Cloud is officieel gelanceerd Qwen‑VLo, de nieuwste versie in de Qwen multimodale modelserie, markeert een aanzienlijke vooruitgang in uniforme visie- en taalmogelijkheden. Qwen-VLo, aangekondigd op 28 juni 2025, biedt zowel begrip- als generatiefunctionaliteit en gaat daarmee ver boven zijn voorgangers uit met de creatie en bewerking van afbeeldingen met hoge resolutie, aangestuurd door natuurlijke taalprompts en visuele input.

Voortbouwend op eerdere releases zoals Qwen-VL en Qwen2.5-VL, vertegenwoordigt Qwen-VLo wat Alibaba omschrijft als een "omvattende upgrade" in multimodale AI. Waar Qwen-VL zich primair richtte op het interpreteren van visuele informatie en Qwen2.5-VL het begrip van lange contexten verbeterde, integreert Qwen-VLo deze sterke punten in één framework dat bidirectionele visuele-taaltaken aankan. Het ondersteunt open instructies, meerdere talen – waaronder Chinees en Engels – en verfijnt de output zodat deze die van menselijke kunstenaars evenaart.

BELANGRIJKSTE KENMERKEN

Progressieve beeldgeneratie

Qwen-VLo construeert afbeeldingen stapsgewijs – van links naar rechts en van boven naar beneden – en verfijnt de voorspelde content iteratief om consistentie en visuele harmonie te garanderen. Dit mechanisme verbetert zowel de generatie-efficiëntie als de controle van de gebruiker over het creatieve proces.

Ondersteuning voor dynamische resolutie

Door gebruik te maken van dynamische resolutietraining kan het model omgaan met willekeurige invoer-/uitvoerresoluties en beeldverhoudingen. Gebruikers kunnen content genereren die is afgestemd op diverse scenario's – zoals webbanners, social media-covers of posters met een hoge resolutie – zonder beperkingen door vaste formaten.

Open-ended instructiebewerking

Met behulp van natuurlijke taalprompts kan Qwen VLo geavanceerde bewerkingen uitvoeren, zoals stijloverdrachten ("Een Van Gogh-stijl toepassen"), samengestelde transformaties ("Een zonnige lucht toevoegen") en veelzijdige modificaties in één instructie. Het ondersteunt ook het extraheren en bewerken van traditionele visuele signalen, zoals dieptekaarten, segmentatiemaskers en randcontouren.

Meertalige interactie

Het model accepteert opdrachten in meerdere talen (momenteel worden Chinees en Engels ondersteund) en bedient daarmee een wereldwijde gebruikersbasis. Bovendien worden taalbarrières in creatieve workflows doorbroken.

Beschikbaarheid en toegang

Qwen‑VLo is momenteel beschikbaar in Preview via het Qwen Chat-platform op chat.qwen.aiAlibaba Cloud heeft opgemerkt dat gebruikers, aangezien het een preview-versie betreft, tijdens de generatie incidenteel inconsistenties of feitelijke onjuistheden kunnen tegenkomen. Het ontwikkelteam werkt actief aan het oplossen van deze beperkingen vóór een bredere uitrol.

Onder de motorkap hebben de AI-engineers van Alibaba Qwen-VLo geoptimaliseerd voor implementatie in zowel cloud- als edge-omgevingen. Door gebruik te maken van mixed-precision kwantificering en nieuwe parameter-efficiënte fine-tuningtechnieken, behoudt het model hoge prestaties binnen een compacte rekenomgeving. Alibaba heeft ook adaptieve inferentiepipelines geïntegreerd om latentie en kwaliteit in balans te brengen. Dit zorgt ervoor dat Qwen-VLo latentiegevoelige applicaties, zoals interactieve ontwerptools, kan bedienen en tegelijkertijd kan worden opgeschaald naar enterprise-grade workloads op Alibaba Cloud.

Vergelijk met Qwen-VL-Plus/Max

Functie Dimensie	Qwen-VL-Plus/Max	Qwen VLo
Beeldbegrip	Basisclassificatie, beschrijving	Herkenning van multidimensionale structuren, verbeterd contextueel begrip
Afbeelding genereren	Beperkte stijlondersteuning	Hoge precisie, progressieve generatie, sterke stijlcontrolemogelijkheden
Multitasking-mogelijkheden	Vereist taakspecifieke invoer	Geünificeerde multitasking, ondersteunt complexe taalinstructies
Meertalige interactie	Beperkte ondersteuning	Native ondersteuning voor Chinees en Engels, soepelere controle van natuurlijke taal
Vermogen tot detailbehoud	Mogelijk detailverlies bij generatie	Nauwkeurige identificatie en reconstructie van sleutelstructuren en semantiek

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

Om te beginnen, verken de mogelijkheden van modellen in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.

De nieuwste integratie Qwen-VLo API zal binnenkort verschijnen op CometAPI, dus blijf op de hoogte! Terwijl we de upload van het Qwen-VLo-model afronden, kunt u onze andere modellen bekijken op de Modellenpagina of probeer ze in de AI-speeltuinHet nieuwste model van Qwen in CometAPI is Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.