Qwen-image API

CometAPI
AnnaNov 12, 2025
Qwen-image API

Qwen-Image 画像生成と画像編集 基礎モデル Qwenファミリーの 高忠実度のテキストレンダリング, 正確な編集、および一般的なテキストから画像への生成。 テキスト認識生成, バイリンガルテキストレンダリング (特に中国語と英語が得意) きめ細かなコンテキスト内編集この発表では、 理解する + 生成する 設計哲学(統合パイプラインでトレーニングされた画像理解タスクと生成タスク)。

主な特徴

  • 画像内のネイティブ/高品質のテキストレンダリング — 生成された画像(ポスター、パッケージ、スクリーンショット)内で判読可能で意味的に正確なテキストを生成することに優れています。これは、以前の多くの画像モデルが苦労していた領域です。
  • 高忠実度のマルチモーダル出力 — 優れたディテールと言語を考慮したレイアウトを備えた、写実的で様式化された画像を生成します。
  • スタイルの転送とディテールの強化 — シーンの一貫性を保ちながら、一貫した芸術的なスタイルを適用したり、ローカルの詳細を強調したりできます。

技術的な詳細 - Qwen-Imageの仕組み

アーキテクチャとコンポーネント (キーワード: MMDiT、Qwen2.5-VL)。 このモデルは MMDiTベース 画像合成用の拡散変換器と 視覚言語エンコーダ (Qwen2.5-VL)はプロンプトと視覚的コンテキストを解釈します。この分離により、モデルは 意味的ガイダンス および ピクセルの外観 異なる方法で処理することで、テキストの忠実度と編集の一貫性が向上します。公式リポジトリと技術レポートでは、メインのT2Iモデルのバックボーンパラメータは20億個であると記載されています。

トレーニング パイプライン (キーワード: カリキュラム学習、データ パイプライン)。 難しいテキストレンダリングを解決するために、Qwen-Imageは 進歩的なカリキュラム: よりシンプルな非テキスト画像から始め、徐々に複雑でテキストが豊富な例、そして段落レベルの入力まで学習していきます。チームは、大規模なデータ収集、慎重なフィルタリング、合成による拡張、そしてバランス調整を含む包括的なパイプラインを構築し、モデルが学習中に多くのリアルなテキスト/写真構成を認識できるようにしました。この戦略的なカリキュラムこそが、このモデルが多言語テキストレンダリングにおいて優れた性能を発揮する主な理由です。

編集メカニズム(キーワード:デュアルエンコーディング、VAE + VL エンコーダー)。 編集のために、システムは 元の画像を2回送ります: Qwen2.5-VLエンコーダに一度入力して 意味制御 そしてVAEエンコーダーに一度入力して 再建外見情報デュアルエンコーディング設計により、編集モジュールはアイデンティティと視覚的な忠実度を維持しながら、意味的な変更(たとえば、無関係な領域を劣化させることなくオブジェクトの置き換えやテキストコンテンツの変更など)が可能になります。

ベンチマークパフォーマンス

Qwen-Image は、生成と編集の両方において、複数の公開ベンチマークで SOTA またはほぼ SOTA のパフォーマンスを達成しており、特にテキスト レンダリング タスクと実際の構成ベンチマーク (T2I-CoreBench や厳選された画像編集スイートなど) で優れた結果を示しています。

Qwen-image API

Qwen-Imageと他の主要モデルの比較

相対的な強み: テキストレンダリングとバイリンガルテキストの忠実性 このモデルは、多くの生成的競合モデル(例:DALL·E 3、SDXL、Midjourney)に対して際立った優位性を持っています。これらの競合モデルは、純粋に芸術的な構成や文体の多様性においては優れているものの、密集した複数行テキストや中国語テキストのレイアウトにおいては劣る傾向があります。複数のコミュニティによる比較やモデル作成者によるベンチマーク表は、この特徴を裏付けています。

相対的なトレードオフ: クローズドで高度に調整された商用システムと比較すると、Qwen-Imageは 後処理 または、独立したテストによると、いくつかのコンテキスト(曲面ワーピング、フォトリアリスティック合成)で同一のリアリティを実現するためのプロンプト/アダプタの調整。 テンプレート化されたデザイン、パッケージのモックアップ、またはバイリンガルテキストレイアウト、Qwen-Image が好まれる傾向があります。


典型的な高価値ユースケース

  • パッケージと製品のモックアップ: ラベルやパッケージの試作のための正確なテキストと複数行のレイアウト。
  • 広告とデザイン案: テキストの忠実度が重要な場合の迅速なプロトタイピング (ポスター、バナー)。
  • 文書化された画像の生成: 読み取り可能なコンテンツ (メニュー、標識、インターフェース) を含む画像を生成します。
  • 画像編集パイプライン: スタイルと視点を維持しながら、対象を絞った編集 (テキストの置換、オブジェクトの追加/削除)。

CometAPIからqwen-image APIを呼び出す方法

qwen-image CometAPI の API 価格、公式価格より 20% オフ:

必要な手順

  • ログインする コムタピまだユーザーでない方は、まずはご登録をお願いいたします。
  • あなたにサインインします CometAPIコンソール.
  • インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。

Qwen-image API

使用方法

  1. 「qwen-image」エンドポイントを選択し、APIリクエストを送信し、リクエストボディを設定してください。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。
  2. 交換するアカウントの実際の CometAPI キーを使用します。
  3. コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
  4. API 応答を処理して、生成された回答を取得します。

CometAPIは、シームレスな移行のために完全に互換性のあるREST APIを提供します。 画像生成:

「qwen-image」モデルではパラメータ「n」は必要なく、1つの画像のみを出力できます。

参照 Gemini 2.5 フラッシュイメージ API (Nano-Banana)

もっと読む

1つのAPIで500以上のモデル

最大20%オフ