Qwen-ImageモデルはAIによる画像生成と編集を再定義できるか

4年2025月XNUMX日、アリババのQwenチームが正式に発足した。 Qwen-Imageは、20億パラメータのマルチモーダル拡散変換（MMDiT）基盤モデルであり、テキストから画像への合成と高精度画像編集において、かつてない忠実度を実現します。このリリースは、アリババがオープンソース画像生成分野に大胆に参入したことを示すものであり、Qwen-ImageはOpenAIのGPT-4o、DALL·E 2、Midjourneyといった独自システムに直接挑戦する存在として位置付けられます。

技術革新

Qwen-Imageの 20億MMDiT バックボーンは、このモデルが複雑なテキストコンテンツを生成画像内に直接レンダリングする上で優れた性能を発揮する、重要なエンジニアリング上の成果です。カリキュラム学習アプローチは、単純な非テキストレンダリングタスクから始まり、段階的に段落長の説明の処理へと進み、アルファベット言語と表語言語の両方において卓越した忠実度を実現します。さらに、このモデルは デュアルエンコーディング このメカニズムは、Qwen2.5-VL と VAE エンコーダーを介して意味的表現と再構築的表現を個別に処理し、画像編集中に意味的一貫性の維持と視覚的リアリズムのバランスをとります。

テキストレンダリングと編集におけるブレークスルー

Qwen-Imageの重要な差別化要因は、 埋め込みテキストのネイティブサポート複数行レイアウトや段落コンテキストにおいて、画像内に読みやすい英語と中国語のテキストを配置できます。社内ベンチマークでは、Qwen-Imageはプロンプトへの準拠とテキストの明瞭性において多くのオープンソースの競合製品を凌駕しており、多言語デザイン要素を必要とするアプリケーションに最適です。また、Qwen-Imageの画像編集機能は、テキストから画像への変換、テキストから画像への変換、画像から画像への再構築タスクを統合したマルチタスクトレーニングパラダイムの恩恵を受けており、既存のビジュアルを変更する際の一貫性を高めます。

独立した評価により、Qwen-Imageはテキスト埋め込み精度において、複数の主要なオープンソースおよびプロプライエタリモデルよりも優れていることが実証されています。比較テストでは、プロンプト遵守率においてミッドレンジのオープンソース代替モデルを上回り、Midjourneyなどの商用製品に匹敵する性能を示しました。特に英語と中国語を組み合わせたバイリンガルプロンプトにおいては顕著です。一部のプロプライエタリシステムは依然として超複雑なシーンの生成において優位に立っていますが、初期のユーザーフィードバックでは、Qwen-Imageの多言語テキストレイアウトにおける比類のない明瞭性と、堅牢な編集コントロールが評価されています。

アリババの「オープンで透明性があり、持続可能な」AIへのコミットメントに沿って、Qwen-Imageは オープンソース MoDaプラットフォーム上で、コミュニティからの貢献とカスタマイズを呼びかけています。モデルのリリースに加えて、アリババは広範なドキュメント、サンプルコード、フィードバックポータルを公開し、自動公開パイプラインからインタラクティブな教育ツールまで、多様なユースケースにおける実際のテストをサポートしています。

評価結果

アリババの内部ベンチマークと第三者による評価は、Qwen-Image の優れたパフォーマンスを次のように示しています。

GenEval（一般的な画像生成）: フレシェ開始距離（FID）を達成 10.2同等の 20 個の B パラメータモデルよりも平均で 9 % 優れたパフォーマンスを発揮します。
LongText-Bench (テキストレンダリング): 得点 92.7％ 複数行テキストの配置とグリフの整合性の精度は GPT-4.1 を 14 % 上回りました。
GEdit/ImgEdit (画像編集): 平均オピニオンスコア（MOS）は 4.3/5編集中に意味の一貫性を維持することに対するユーザーの高い満足度を反映している
OneIG-Bench（インフォグラフィック生成）： プロンプトから直接構造化データとグラフを視覚的にレンダリングするモデルとして上位 3 位以内にランクされ、強力なレイアウトおよび色選択機能を実証しました。
リーダーボードランキング: 人工分析画像アリーナリーダーボードでは、Qwen-Image は現在、すべての画像生成モデルの中で 5 位にランクされています。また、トップ 10 の中で唯一のオープンウェイトエントリであり、研究コミュニティにおける競争力を証明しています。

アクセスとエコシステム

Qwen-Image の多彩な機能セットにより、さまざまな実際のアプリケーションが可能になります。

マーケティングと広告: 埋め込まれたスローガンと多言語テキスト要素を使用した特注のプロモーションビジュアルを迅速に作成します。
教育内容: eラーニングプラットフォーム向けの説明図、インフォグラフィック、注釈付き画像を自動的に生成します。
設計とプロトタイピング: インタラクティブなクリエイティブワークフローのための編集可能なレイヤーを備えたオンザフライのモックアップとコンセプトアート。
ローカリゼーションサービス: 手作業によるグラフィックデザインの手間をかけずに、ビジュアルをさまざまな言語コンテキストにシームレスに適応させます。

ユーザーは、Alibaba の Chat Qwen インターフェースで「イメージ生成」モードを選択して Qwen-Image と対話したり、GitHub リポジトリと CometAPI API を通じてモデルを自分の環境に統合したりすることができます。

インタラクティブな使用：訪問チャット.qwen.ai 非コーディングの Qwen モデルを選択し、「画像生成」に切り替えて作成を開始します。
コードと重み:
GitHub: github.com/QwenLM/Qwen-Image
ハグ顔: huggingface.co
モデルスコープ: modelscope.cn

アリババはコミュニティからのフィードバックと貢献を奨励し、 オープンで透明性があり、持続可能 生成 AI エコシステム。

最新の統合 Qwen-Image はまもなく CometAPI に表示される予定ですので、お楽しみに！Qwen-Image モデルのアップロードが完了するまで、モデルページで他のモデルを調べたり、AI プレイグラウンドで試したりしてください。

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

も参照してください

技術革新

テキストレンダリングと編集におけるブレークスルー

評価結果

アクセスとエコシステム

もっと読む

1つのAPIで500以上のモデル