Alibaba CloudがQwen-VLoマルチモーダルモデルをリリース、画像機能のアップグレード

アリババクラウドのAI部門が正式に発足 クウェン・Vロは、Qwenマルチモーダルモデルシリーズの最新版であり、統合された視覚・言語機能において大きな進歩を遂げています。28年2025月XNUMX日に発表されたQwen-VLoは、理解機能と生成機能の両方を備え、従来モデルをはるかに超えて、自然言語プロンプトと視覚入力に基づく高解像度画像の作成と編集機能を備えています。

Qwen-VLやQwen2.5-VLといった以前のリリースを基盤とするQwen-VLoは、アリババがマルチモーダルAIの「包括的なアップグレード」と呼ぶものです。Qwen-VLは主に視覚情報の解釈に重点を置き、Qwen2.5-VLは長文理解を強化しましたが、Qwen-VLoはこれらの強みを、双方向の視覚言語タスクを実行できる単一のフレームワークに統合しています。Qwen-VLoはオープンエンドの指示に対応し、中国語と英語を含む複数の言語をサポートし、人間のアーティストに匹敵する出力を実現します。

他社とのちがい

プログレッシブ画像生成

Qwen-VLoは、左から右、上から下へと段階的に画像を構築し、予測されたコンテンツを反復的に洗練させることで、一貫性と視覚的な調和を確保します。このメカニズムにより、生成効率とユーザーによるクリエイティブプロセスのコントロールが向上します。

ダイナミック解像度のサポート

動的解像度トレーニングを活用することで、このモデルは任意の入出力解像度とアスペクト比に対応できます。ユーザーは、固定フォーマットに制約されることなく、Webバナー、ソーシャルメディアのカバー、高解像度のポスターなど、さまざまなシナリオに合わせてカスタマイズされたコンテンツを生成できます。

オープンエンドの指示編集

Qwen VLoは自然言語プロンプトを通じて、スタイルの変換（「ゴッホ風を適用」）、複合変換（「晴れた空を追加」）、多面的な修正といった高度な編集を単一の指示で実行できます。また、深度マップ、セグメンテーションマスク、エッジアウトラインといった従来の視覚信号の抽出と編集もサポートしています。

多言語インタラクション

このモデルは複数の言語（現在は中国語と英語をサポート）のコマンドを受け入れるため、世界中のユーザーベースに対応し、クリエイティブなワークフローにおける言語の壁を打ち破ります。

可用性とアクセス

Qwen-VLoは現在、 プレビュー Qwenチャットプラットフォーム経由でチャット.qwen.aiAlibaba Cloudは、プレビューリリースであるため、生成中に不整合や事実上の誤りが発生する可能性があることをお知らせしています。開発チームは、より広範な展開に先立ち、これらの制限に対処するために積極的に取り組んでいます。

AlibabaのAIエンジニアは、クラウドとエッジ環境の両方に展開できるようQwen-VLoを最適化しました。混合精度量子化と革新的なパラメータ効率の高い微調整技術を活用することで、コンパクトなコンピューティングフットプリントで高いパフォーマンスを維持します。また、レイテンシと品質のバランスをとる適応型推論パイプラインも統合し、Qwen-VLoがインタラクティブなデザインツールなどのレイテンシに敏感なアプリケーションに対応しながら、Alibaba Cloud上でエンタープライズグレードのワークロードに拡張できることを実現しています。

と比較する Qwen-VL-Plus/Max

機能ディメンション	Qwen-VL-Plus/Max	クウェンVLo
画像の理解	基本的な分類、説明	多次元構造認識、文脈理解の強化
画像生成	限定的なスタイルサポート	高精度、プログレッシブジェネレーション、強力なスタイル制御機能
マルチタスク機能	タスク固有の入力が必要	統合マルチタスク、複雑な言語命令をサポート
多言語インタラクション	限定サポート	中国語と英語のネイティブサポート、よりスムーズな自然言語制御
詳細保存能力	生成時に詳細が失われる可能性がある	主要な構造と意味の正確な識別と再構築

スタートガイド

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

まず、モデルの機能を調べてみましょう。プレイグラウンドそして相談する APIガイド詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。

最新のQwen‑VLo API統合はまもなくCometAPIに登場しますので、お楽しみに！Qwen‑VLoモデルのアップロードが完了するまで、他のモデルもご覧ください。モデルページまたは、 AI プレイグラウンドQwenのCometAPIの最新モデルは Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.