アリババのQwenチームがリリース Qwen-画像編集 19 年 2025 月 20 日にリリース予定の Qwen-Image は、XNUMXB Qwen-Image バックボーン上に構築された画像編集バリアントで、正確なバイリンガル テキスト編集、デュアル モードのセマンティック + 外観コントロール、SOTA ベンチマーク パフォーマンスを約束します。アーキテクチャ、機能、使用方法について詳しく説明します。
Qwen-Image-Edit とは何ですか? なぜ重要なのですか?
Qwen-Image-Editは、アリババのQwenチームが19年2025月20日にリリースした画像編集基盤モデルで、XNUMX億パラメータのQwen-Imageバックボーンを基盤としています。Qwen-Imageの高度なテキストレンダリングをインタラクティブな画像編集に拡張し、画像内のバイリンガル(中国語/英語)テキスト編集、きめ細かな外観編集(削除/追加/レタッチ)、高レベルのセマンティック変換(オブジェクトの回転、新規ビュー合成、スタイル転送)などを実現します。チームによると、このモデルは画像を視覚言語エンコーダーとVAEエンコーダーの両方に入力することで、セマンティクスと外観を独立して制御します。
それは明確に設計されています 命令駆動型 画像編集: 入力画像と自然言語の指示 (英語と中国語をサポート) を提供すると、モデルは視覚的な一貫性を維持しながら、正確なテキスト編集、オブジェクトの追加/削除、スタイルや色の調整、さらにはより高レベルのセマンティック変換を実行できる編集済み画像を返します。
なぜこれが重要なのか: 画像編集はもはや「ペイントやマスク、合成」だけではありません。Qwen-Image-Editのようなモデルを使えば、編集内容を自然言語で記述し、タイポグラフィやレイアウトを維持しながら、これまでPhotoshopで細心の注意を払って作業していたような細かい部分の修正も行えます。この組み合わせは、プログラムによる繰り返し可能なビジュアル編集を必要とするクリエイティブ、eコマース、マーケティングチーム、そして自動化パイプラインにとって特に価値があります。
Qwen-Image-Edit を実際にどのように使用するのでしょうか? 開発者パスは何ですか?
利用可能な場所
Qwen-Image-Edit は次の方法で試すことができます。
- Qwen チャット (公式ウェブデモ) インタラクティブな編集用。
- ハギングフェイスモデルページ / スペース — すぐに試用できる公開モデルとデモ スペースが用意されています。
- Alibaba Cloud モデルスタジオ / DashScope API — 自動化された使用のためにエンドポイント、価格、割り当てが文書化された本番 API (HTTP + SDK)。
すぐに試せる方法
- 一度限りまたは実験的に使用する場合は、Hugging Face Space または Qwen Chat を使用してください。
- 統合(ウェブアプリ、バッチパイプライン、またはバックエンドサービス)には、提供されているHTTP APIまたはDashScope SDK(Python/Java)を使用して、DashScopeエンドポイント(Alibaba Cloud Model Studio)を呼び出します。Model Studioのドキュメントには、画像URLまたはBase64入力、否定プロンプト、ウォーターマークオプション、結果取得フローに関するcurlおよびSDKの例が含まれています。
Qwen-Image-Edit はどのように設計されていますか? 内部で何が行われているのでしょうか?
デュアルパス入力:セマンティクス + 外観
公式の説明によると、Qwen-Image-Edit は入力画像を次のように並行処理します。
- Qwen2.5-VL(ビジュアル言語エンコーダー) — セマンティック理解と高レベルの編集(オブジェクトの回転、ビューの合成、コンテンツの変更)を促進します。
- VAEエンコーダー/潜在出現パス — 低レベルの視覚的な外観(テクスチャ、ローカライズされた編集のための正確なピクセルの保持)を保持または操作します。
この分割により、モデルは対象領域に対して広範な意味の再想像またはピクセル保存編集のいずれかを実行できるようになります。
20Bイメージ基盤上に構築
編集モデルは20B Qwen-Image生成モデル(テキストレンダリング機能はQwen-Imageの中核を成していました)を拡張しており、編集バリアントは強力なレイアウト/テキスト理解と高精度な画像事前確率を継承しています。Qwen-Imageのリポジトリとブログでは、画像コードベースにApache 2.0ライセンスが適用されていることが示されており、コミュニティでの採用が加速しています。
パイプラインと実際のフロー
一般的なパイプライン (高レベル):
- 入力画像 (パブリック URL または Base64) に加えて、テキストによる指示/プロンプトと、オプションで対象を絞った編集用のマスク/境界ボックス。
- モデルは両方のエンコーダーに画像を取り込み、視覚言語エンコーダーはコンテキスト内でプロンプトを解釈し、意味的変換を提案し、VAE パスは外観の制約をエンコードします。
- これらのモダリティを組み合わせることで、デコーダーは編集済み画像を生成します。編集済み画像は、マスクされた領域はそのままに、グローバルに変更(セマンティック編集)またはローカルに変更(アピアランス編集)されます。出力は、TTL制限付きのOSSリンク(Alibaba Cloud使用時)として保存されます。
編集中、Qwen-Image-Editは同じ入力画像を両方のチャンネルに入力し、構造を変更するか外観を維持するかを決定します。この2トラックアーキテクチャにより、被写体の同一性を維持しながら、ピクセル精度の局所的な削除(例:隣接するピクセルに影響を与えずに髪の毛1本を削除する)から、根本的な意味的変更(例:ポーズの変更や新しい視点の生成)まで、幅広い操作が可能になります。また、チームは高度な拡散ツールとプロンプト強調ユーティリティを積極的に活用することで、連鎖編集の安定性を高めました。
Qwen-Image-Edit にはどのような機能がありますか?
デュアルトラック編集:意味的 + 外観的制御
Qwen-Image-Editは、シーン/レイアウト/オブジェクトを理解するセマンティックエンコーダと、テクスチャ、フォント、そして細粒度のピクセルディテールを保持する独立したアピアランスパスウェイという、明確に2トラックエディタとして設計されています。この設計により、モデルは高レベルの構成(ポーズ、オブジェクトのアイデンティティ、スタイル)を変更するか、ピクセル精度のローカル修正(オブジェクトを削除し、隣接するピクセルを同一に保つ)を行うかを判断できます。この分離は、近年の多くの高忠実度エディタの根底にあるアーキテクチャ上の考え方であり、Qwenのリリースノートでも強く強調されています。
実用的な意味合い: 「ロゴに触れずに左下の透かしを削除する」または「手の姿勢を変更する」ように要求すると、モデルは各タスクに異なる内部戦略を適用し、触れられていない領域の付随的なアーティファクトを削減します。
テキスト認識画像編集とバイリンガルサポート
このモデルの目玉機能の一つは 正確なテキスト編集 中国語と英語の両方のテキスト要素において、テキストを追加、削除、変更する際に、フォント、ストローク、間隔、レイアウトを維持しようとします。これは単に新しいテキストをレンダリングするだけでなく、元のタイポグラフィに一致させようとします。Qwenのチームは、この機能をドキュメントとモデルカードで繰り返し強調しています。
実用的な意味: パッケージ、ポスター、UI スクリーンショット、サイネージのワークフローは自動化できます。特に、正確なフォントの一致とバイリンガル編集が重要な場合に有効です。
マスキング、領域プロンプト、プログレッシブ編集
機能には、明示的なマスク入力(インペインティング/アウトペインティング用)、領域認識プロンプト(バウンディングボックスX内のみ変更を適用)、マルチターン/チェーン編集(出力を反復的に調整する)のサポートが含まれます。APIと拡散パイプラインは、ネガティブプロンプトとガイダンススケールのようなコントロールをサポートしており、編集の保守性と大胆性を調整できます。これらはプロダクション重視の編集パイプラインでは標準であり、Qwenのツールにも含まれています。
マルチタスクトレーニング:業界をリードする編集の一貫性
Qwen-Image-Editは、強化されたマルチタスクトレーニングパラダイムを通じて、テキストから画像への変換(T2I)、画像から画像への変換(I2I)、テキスト誘導画像編集(TI2I)など、様々なタスクをサポートします。特に注目すべきは、Qwen-Image-Editの「チェーン編集」機能です。例えば、書道の修正シナリオでは、モデルは複数回の反復処理を通じて、全体的なスタイルの一貫性を維持しながら、誤った文字を徐々に修正することができます。この機能は、クリエイティブな効率を大幅に向上させ、プロフェッショナルなビジュアルコンテンツ作成のハードルを下げます。
Qwen-Image-Edit のパフォーマンスはどうですか? 本当に SOTA ですか?
ベンチマークと主張
Qwenは、複数の編集ベンチマーク(チームは人間の嗜好テストと編集に特化したスイートに重点を置いている)において最先端のパフォーマンスを誇ると主張しており、コミュニティで一般的にGEdit-Bench(英語版と中国語版)と呼ばれる編集ベンチマークにおける具体的なスコアはカバレッジレポートに掲載されています。あるレポートでは、Qwen-Image-Editのスコアが約7.56(英語版)と7.52(中国語版)であるのに対し、GPT Image-1のスコアは約7.53(英語版)と7.30(中国語版)と報告されています。これらの数値は、特に中国語テキストと意味と外観が混在するタスクにおいてQwenが優位に立っていることを示しています。
Qwen-Image-Edit は GPT Image-1 (OpenAI) や FLUX.1Kontext と比べてどうですか?
以下では、チームが重視する実用的な軸(機能、テキスト レンダリング、展開、オープン性、各モデルの長所と短所)に沿って比較します。
- Qwen-画像編集 — デュアルトラック アーキテクチャ、強力なバイリンガル テキスト編集、オープン ウェイト (Apache-2.0)、20B イメージ バックボーン、意味と外観の混合編集用に明示的に調整されています。オンプレミスの制御や中国語/英語のタイポグラフィの忠実性が必要な場合に適したオプションです。
- gpt-image-1 (OpenAI) OpenAI API経由で利用可能な、非常に高性能なマルチモーダルジェネレーター/エディター。一般的な画像生成、テキストレンダリング、そして統合(Adobe / Figmaとのパートナーシップ)に優れており、クローズドな重み付け、マネージドAPI、幅広いエコシステムとの統合、そして製品の洗練度も備えています。OpenAIのドキュメントでは、APIにおける「ネイティブマルチモーダル」画像モデルと説明されています。
- FLUX.1コンテキスト — テキストファーストの画像編集製品として位置付けられ、Dev / Pro / Maxのモデルファミリーを備えています。ベンダーは、文字や一貫性を維持しながら、ターゲットを絞った編集を可能にするワークフローを重視しています。ホスト型UIとプロ仕様の製品群を備えた商用製品向けです。公開されている技術詳細(例:パラメータ数)は、Qwenに比べて限定的です。
能力と品質:
- テキストとタイポグラフィ: Qwenはバイリンガルテキストの忠実性を明確に売りにしています。OpenAIのgpt-image-1も正確なテキストレンダリングを特徴としており、既にデザインツールに統合されています。実際の違いは、OCR測定による精度とコーパスのフォントマッチングテストによって決まります。FLUXは強力なタイポグラフィ制御を謳っていますが、直接比較した数値ベンチマークは少ないです。
- セマンティック編集(ポーズ/視点): これら3つはすべて高レベル編集をサポートしています。Qwenのデュアルパスアプローチは、この組み合わせを想定して設計されています。OpenAIのモデルは非常に高性能で、大規模な製品グレードのプロンプトエンジニアリングの恩恵を受けています。FLUXはユーザーフレンドリーな編集フローを目指しています。GEdit-Benchのスナップショットでは、これまでに報告されているベンチマークにおいて、Qwenが総合スコアでわずかにリードしていることがわかります。
実用的な選択リスト(開発者向けガイダンス):
- 選択する Qwen-画像編集 バイリンガルテキスト編集(中国語と英語)、セマンティックと外観を組み合わせたワークフロー、そして容易なクラウドデモ/統合が重要な場合。地域に特化したUIやポスターに最適な選択肢です。
- 選択する GPT-画像-1 実証済みの指示の遵守と主流のデザインツール (Adobe、Figma) との統合を望み、ワンステップのクリエイティブな変換を優先する場合は、保存のトレードオフに注意してください。
- 選択する FLUX.1Kontext / 微調整された FluxKontext 微調整可能なスタックが必要であり(プライベートコーパスで再トレーニングまたは適応できる)、データセットのキュレーションに投資する準備ができている場合、最近の調査では、微調整後に競争力のあるスコアが示されています。
CometAPI を使って始める
CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。
最新の統合Qwen-Image-EditはまもなくCometAPIに登場しますので、お楽しみに!Qwen-Image-Editモデルのアップロードが完了するまで、他の画像編集モデルもご覧ください。 シードリーム3.0,FLUX.1 コンテキスト ,GPTイメージ1 ワークフローに組み込むか、AI Playgroundで試してみましょう。まずは、 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。
最終判定:Qwen-Image-Edit がスタックのどこに当てはまるか
Qwen-Image-Editは、「テキストファースト」の画像編集ワークフローへの大きな一歩であり、タイポグラフィとセマンティック理解が重要となる混合タスクにおいて際立った性能を発揮します。クラウドAPIによる迅速な統合と、オープンウェイトによる高度なカスタマイズなど、すぐにアクセスできますが、このような新しいリリースでは、ドメイン内での慎重なテストが必要です。連鎖編集、アイデンティティの保持、エッジフォント/スクリプトには、反復処理と迅速なエンジニアリングが必要になる場合があります。Qwenチームは積極的にモデルの調整を行っており、最新のバージョンの使用を推奨しています。 diffusers 最高の安定性を実現するためにコミットし、迅速な書き換えツールを提供しました。
ユースケースが大規模な本番環境(高スループット、保証されたレイテンシ、特別なセキュリティ)である場合は、クラウド API を他のマネージド ML サービスと同様に扱います。つまり、リージョン内でベンチマークを実施し、コストを計画し、堅牢なキャッシュと結果の永続性を実装します(OSS TTL の考慮事項)。
