Qwen-Image-Editは、Qwenチーム(Alibaba / QwenLMエコシステム)によって開発されたQwen画像ファミリーの編集ブランチです。20億パラメータのMMDiTバックボーン上に構築され、Qwen-Imageの高度なテキストレンダリング機能を堅牢な画像編集ワークフローへと明示的に拡張しています。このモデルは、編集の忠実度が重要となるタスクを対象としています。例えば、標識上のテキストを直接変更したり、フォントとレイアウトを維持したり、意味の一貫性を保ちながらオブジェクトを追加/削除したり、視点/ポーズの変換、きめ細かなスタイルの転送などです。
主な特徴
- 画像内の正確なテキスト編集(バイリンガル:中国語と英語) — フォント/サイズ/スタイルを可能な限り維持しながら、テキストを追加、削除、または置き換えます。
- デュアル編集モード: セマンティック + 外観 — 高レベルのセマンティック変更 (ポーズ、オブジェクトの置き換え、視点) と低レベルの外観編集 (スタイル転送、テクスチャ、ローカルレタッチ) をサポートします。
- マスク / 領域 / マルチターン編集 — 反復的な改良ワークフローのためのマスクされた修復、領域プロンプト、連鎖編集をサポートします。
- マルチ画像入力(最新バージョン): 2509 イテレーションでは、複数画像編集のサポート (例: 人物 + 人物、人物 + 製品)、改善された ID/製品/テキストの一貫性、ネイティブの ControlNet スタイルの入力が追加されました。
技術的な詳細
- ベーススケール/ファミリー: に基づいて構築 20Bパラメータ Qwen-Image基盤モデル(MMDiTスタイル拡散/マルチモーダルデザイン)。
- デュアルエンコーディング編集パイプライン: 編集モジュールは、(1) Qwen2.5-VLビジュアルエンコーダを介して意味表現を受け取り、(2) VAEエンコーダを介して再構成表現を受け取ります。両方の表現を並列に入力することで、編集ヘッドは意味の変化とピクセル忠実度のトレードオフが可能になります。この二重エンコーディングは、堅牢な編集を実現するための中核的なエンジニアリング上の選択です。
- 漸進的/カリキュラムトレーニング: 訓練は、より単純なテキストレンダリングと生成タスクから、複雑な段落レベルのテキストレンダリングとマルチタスク編集目標(T2I、TI2I、I2I再構築)へと段階的に進められました。このカリキュラムは、モデルのテキスト忠実度と編集安定性の向上に中心的な要因であると報告されています。
- モデルのフレーバー/モジュール: Qwen-Image-Edit は、Qwen2.5-VL コンポーネント、拡散編集ヘッド、および外観制御用の VAE コンポーネントを統合した MMDiT スタイルの 20B モデルとして説明されています。
ベンチマークパフォーマンス
主張されているクロスベンチマークSOTA: Qwenチームは、複数の公開画像生成および編集ベンチマークにおいて最先端(SOTA)またはトップレベルの結果を報告しています。これには以下が含まれます。 GenEval、DPG、OneIG-Bench (世代)と GEdit、ImgEdit、GSO (編集)。

制限事項と注意事項(実践的)
- アーティファクトとエッジケース: コミュニティテストでは、一部の高詳細編集で過飽和、肌の質感のアーティファクト、または合成の継ぎ目が時々発生することが示されています。コミュニティのライトニングフォークは、これらを軽減することを目的としています。
- コンピューティング/メモリ: 20Bモデルとフル精度編集パイプラインはGPUを大量に消費します。ローカル展開では、bfloat16/FP8と最適化されたサンプリングワークフローの恩恵を受けられます(VRAMとレイテンシを削減するために、4/8ステップの「ライトニング」バリアントが用意されています)。
- 安全性とIP: 他の汎用イメージングツールと同様に、Qwen-Image-Edit は著作権で保護された文字や機密性の高いコンテンツを生成する可能性があります。実稼働環境での使用には、モデレーション制御と権利のクリアランスが必要です。(一般的な企業のベストプラクティス)
- 故障モード: わかりにくい、または非常に珍しい文字や単語は、依然として誤ってレンダリングされたり、収束するために反復的な(「連鎖的な」)編集が必要になる場合があります(著者は、段階的な修正を必要とする珍しい中国語のグリフなどの例に言及しています)。
Qwen-Image-Editと他のオプションの比較
- 安定拡散/SDXL(インペインティング): SDXLとControlNet、そして専用のインペインティングパイプラインは高速で、幅広いコミュニティツールのサポートと多くのLoRAを備えており、一般的なインペインティングワークフローと速度/効率に優れています。Qwen-Image-Editの強みは次のとおりです。 ネイティブバイリンガルテキスト編集場合によってはより緊密なアイデンティティ/製品一貫性、そして統合されたセマンティクスと外観のトレードオフ。コミュニティの比較によると、Qwenは編集忠実度とテキスト準拠において上位にランクされることが多いものの、計算コストは高いことが示されています。
- クローズドソースエディタ(Adobe Firefly / DALL·E / Runway): クローズドAPIは非常に洗練されています(UI、統合モデレーション、レイテンシ保証など)。しかし、Qwen-Image-Editは、堅牢なバイリンガルテキスト編集を専門とし、ローカル展開も可能な、完全にオープンな代替手段として際立っています。実用的な選択は、ローカルコントロール/オープンライセンスが必要か、洗練されたクラウドUXが必要かによって大きく異なります。
実用的なユースケース
- ポスターと看板の編集 — フォント/テクスチャを維持しながらポスターのテキストを変更します。
- 製品マーケティング / ポスター作成 — アイテムを追加/削除し、電子商取引画像の製品 ID を維持します。
- 肖像画のアイデンティティ保存編集 — アイデンティティの一貫性を保ちながらポーズの変更やスタイルの転送が可能 (2509 で改善)。
- 修復と書道修正 — 古い写真の修復と手書き・印刷文字の段階的な修正。
- クリエイティブ/デザインワークフロー — 複数画像の構成編集、ミーム生成、バイリンガルテキストが含まれるアバターのスタイリング。
CometAPIからqwen-image-edit APIを呼び出す方法
qwen-image-edit CometAPI の API 価格、公式価格より 20% オフ:
| 入力トークン | $2.00 |
| 出力トークン | $6.40 |
必要な手順
- ログインする コムタピまだユーザーでない方は、まずはご登録をお願いいたします。
- あなたにサインインします CometAPIコンソール.
- インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。

使用方法
- 「qwen-image-edit」エンドポイントを選択し、APIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。
- 交換するアカウントの実際の CometAPI キーを使用します。
- コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
- API 応答を処理して、生成された回答を取得します。
CometAPIは、シームレスな移行のために完全に互換性のあるREST APIを提供します。 画像編集:
- ベースURL: https://api.cometapi.com/v1/images/edits
- モデル名: qwen-画像編集
- 認証:
Bearer YOUR_CometAPI_API_KEYヘッダ - コンテンツタイプ:
application/json.
