Alibaba Cloud wprowadza na rynek model multimodalny Qwen‑VLo, ulepszone możliwości obrazowania

Dział AI Alibaba Cloud oficjalnie uruchomiony Qwen-VLo, najnowsza iteracja w serii modeli multimodalnych Qwen, oznaczająca znaczący postęp w zakresie ujednoliconych możliwości widzenia i języka. Zapowiedziany 28 czerwca 2025 r. Qwen‑VLo oferuje zarówno funkcje rozumienia, jak i generowania, wykraczając daleko poza swoich poprzedników, obejmując tworzenie i edycję obrazów o wysokiej rozdzielczości sterowanych za pomocą podpowiedzi w języku naturalnym i danych wizualnych.

Opierając się na wcześniejszych wersjach, takich jak Qwen‑VL i Qwen2.5‑VL, Qwen‑VLo reprezentuje to, co Alibaba opisuje jako „kompleksową aktualizację” w multimodalnej AI. Podczas gdy Qwen‑VL skupiał się głównie na interpretowaniu informacji wizualnych, a Qwen2.5‑VL ulepszył rozumienie długiego kontekstu, Qwen‑VLo integruje te mocne strony w pojedyncze ramy zdolne do dwukierunkowych zadań wizyjno-językowych. Dostosowuje się do instrukcji otwartych, obsługuje wiele języków — w tym chiński i angielski — i udoskonala swoje wyniki, aby dorównywały wynikom artystów-ludzi.

Kluczowe funkcje

Progresywne generowanie obrazu

Qwen‑VLo konstruuje obrazy w sposób krok po kroku — od lewej do prawej i od góry do dołu — iteracyjnie udoskonalając przewidywaną treść, aby zapewnić spójność i harmonię wizualną. Ten mechanizm zwiększa zarówno wydajność generowania, jak i kontrolę użytkownika nad procesem twórczym.

Obsługa dynamicznej rozdzielczości

Wykorzystując dynamiczne szkolenie rozdzielczości, model może obsługiwać dowolne rozdzielczości wejścia/wyjścia i współczynniki proporcji. Użytkownicy mogą generować treści dostosowane do różnych scenariuszy — takich jak banery internetowe, okładki mediów społecznościowych lub plakaty o wysokiej rozdzielczości — bez ograniczeń stałych formatów.

Edycja instrukcji otwartych

Dzięki podpowiedziom języka naturalnego Qwen VLo może wykonywać zaawansowane edycje, takie jak transfery stylów („Zastosuj styl Van Gogha”), transformacje złożone („Dodaj słoneczne niebo”) i wieloaspektowe modyfikacje w jednej instrukcji. Obsługuje również wyodrębnianie i edycję tradycyjnych sygnałów wizualnych, takich jak mapy głębi, maski segmentacji i kontury krawędzi.

Interakcja wielojęzyczna

Model ten akceptuje polecenia w wielu językach (obecnie obsługiwany jest chiński i angielski), dzięki czemu zaspokaja potrzeby globalnej bazy użytkowników i przełamuje bariery językowe w kreatywnych procesach pracy.

Dostępność i dostęp

Qwen‑VLo jest obecnie dostępny w zapowiedź za pośrednictwem platformy Qwen Chat pod adresem czat.qwen.aiAlibaba Cloud zauważyła, że jako wersja zapoznawcza użytkownicy mogą napotkać sporadyczne nieścisłości lub nieścisłości faktyczne podczas generowania. Zespół programistów aktywnie iteruje, aby rozwiązać te ograniczenia przed szerszym wdrożeniem.

Inżynierowie AI Alibaba zoptymalizowali Qwen‑VLo pod kątem wdrożenia w środowiskach chmurowych i brzegowych. Wykorzystując kwantyzację o mieszanej precyzji i nowatorskie techniki dostrajania parametrów, model utrzymuje wysoką wydajność przy kompaktowej powierzchni obliczeniowej. Alibaba zintegrowała również adaptacyjne potoki wnioskowania, aby zrównoważyć opóźnienie i jakość, zapewniając, że Qwen‑VLo może obsługiwać aplikacje wrażliwe na opóźnienie — takie jak interaktywne narzędzia projektowe — jednocześnie skalując się do obciążeń klasy korporacyjnej w Alibaba Cloud.

Porównać do Qwen-VL-Plus/Max

Wymiar funkcji	Qwen-VL-Plus/Max	Qwen VLo
Zrozumienie obrazu	Podstawowa klasyfikacja, opis	Rozpoznawanie wielowymiarowych struktur, lepsze zrozumienie kontekstowe
Generowanie obrazu	Ograniczone wsparcie stylu	Wysoka precyzja, progresywne generowanie, silne możliwości kontroli stylu
Możliwość wielozadaniowości	Wymaga danych wejściowych specyficznych dla zadania	Zunifikowana wielozadaniowość, obsługuje złożone instrukcje językowe
Interakcja wielojęzyczna	Ograniczone wsparcie	Natywne wsparcie dla języka chińskiego i angielskiego, płynniejsza kontrola języka naturalnego
Możliwość zachowania szczegółów	Możliwa utrata szczegółów podczas generacji	Dokładna identyfikacja i rekonstrukcja kluczowych struktur i semantyki

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Na początek zapoznaj się z możliwościami modeli w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API.

Najnowsza integracja Qwen‑VLo API wkrótce pojawi się w CometAPI, więc bądźcie czujni! Podczas gdy finalizujemy przesyłanie modelu Qwen‑VLo, zapoznajcie się z naszymi innymi modelami na Strona modeli lub wypróbuj je w Plac zabaw AINajnowszy model Qwena w CometAPI to Interfejs API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.