/
ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/Aliyun/Qwen Image
Q

Qwen Image

Per forespørsel:$0.028
Qwen-Image は、2025年に Alibaba の Tongyi Qianwen チームからリリースされた革新的な画像生成基盤モデルです。パラメータ規模は 20 billion で、MMDiT(Multimodal Diffusion Transformer)アーキテクチャに基づいています。本モデルは、複雑なテキストレンダリングや精密な画像編集において大きなブレークスルーを達成し、特に中国語のテキストレンダリングで卓越した性能を示しています。 DeepL.com(無料版)で翻訳しました。
Ny
Kommersiell bruk
Oversikt
Funksjoner
Priser
API
Versjoner

主要な特長

  • 画像内のネイティブ/高品質なテキストレンダリング — 生成画像(ポスター、パッケージ、スクリーンショット)において、可読で意味的に正確なテキストを生成することに優れています。これは多くの先行画像モデルが苦手としていた領域です。
  • 高忠実度のマルチモーダル出力 — フォトリアルからスタイライズまで、細部の描写と「言語に配慮したレイアウト」に優れた画像を生成します。
  • スタイル転写とディテール強化 — シーンの整合性を保ちつつ、一貫した芸術的スタイルの適用や局所的なディテール強化が可能です。

技術的詳細 — Qwen-Image の仕組み

アーキテクチャとコンポーネント(キーワード: MMDiT, Qwen2.5-VL)。 モデルは、画像合成のためのMMDiT ベースの拡散トランスフォーマーと、プロンプトや視覚的コンテキストを解釈する視覚言語エンコーダ(Qwen2.5-VL)を組み合わせています。この分離により、モデルは意味的ガイダンスとピクセルの外観を異なるものとして扱え、テキストの忠実度と編集の一貫性が向上します。公式リポジトリおよび技術レポートでは、メインの T2I モデルに 20B-parameter バックボーンを採用していると記載されています。

学習パイプライン(キーワード: カリキュラム学習、データパイプライン)。 困難なテキストレンダリングを解決するため、Qwen-Image は段階的カリキュラムを採用しています。まずテキストを含まない単純な画像から始め、段落レベルの入力に至るまで、より複雑でテキストの多い例へと徐々に訓練を進めます。大規模収集、厳密なフィルタリング、合成的拡張、バランシングを含む包括的なパイプラインを構築し、学習中に現実的なテキスト/写真の構成を数多く経験させています。この戦略的なカリキュラムこそが、多言語テキストレンダリングにおける卓越性の主要因です。

編集メカニズム(キーワード: 二重エンコーディング、VAE + VL エンコーダ)。 編集では、元画像を2 回入力します。1 度は Qwen2.5-VL エンコーダへ送り意味的制御を行い、もう 1 度は VAE エンコーダへ送り再構成のための外観情報を取得します。この二重エンコーディング設計により、編集モジュールはアイデンティティと視覚的忠実度を維持しながら意味的な変更を可能にします。例えば、無関係な領域を劣化させることなく、オブジェクトの置換やテキスト内容の変更が行えます。

ベンチマークでの性能

Qwen-Image は、生成と編集の双方において複数の公開ベンチマークで SOTA またはそれに近い性能を達成しており、特にテキストレンダリング課題や現実世界の構成ベンチマーク(例: T2I-CoreBench や厳選された画像編集スイート)で強力な結果を示します。

Qwen-image API

他の主要モデルとの比較

相対的な強み: テキストレンダリングとバイリンガルのテキスト忠実度は、本モデルの際立った優位点です。多くの生成系競合(例: DALL·E 3、SDXL、Midjourney)は、純粋なアート性やスタイルの多様性ではしばしば優れていますが、密度の高い複数行テキストや中国語のレイアウトでは弱い傾向があります。この評価は、コミュニティ比較や著者のベンチマーク表によって裏付けられています。

相対的なトレードオフ: クローズドで高度にチューニングされた商用システムと比べると、独立テストによれば、特定の文脈(曲面ワーピング、フォトリアルな合成)で同等のリアリズムに到達するには後処理やプロンプト/アダプタの調整が必要となる場合があります。一方で、テンプレート化されたデザイン、パッケージのモックアップ、バイリンガルのテキストレイアウトを優先するユーザーには、Qwen-Image が有利に働く傾向があります。


代表的かつ高価値なユースケース

  • パッケージング&製品モックアップ: ラベルやパッケージ試作における正確なテキストと複数行レイアウト。
  • 広告&デザイン草案: テキスト忠実度が重要な場面での迅速なプロトタイピング(ポスター、バナー)。
  • 文書化指向の画像生成: 可読な内容を必ず含む必要がある画像の生成(メニュー、標識、インターフェース)。
  • 画像編集パイプライン: スタイルとパースを保ちながら、対象を絞った編集(テキスト置換、オブジェクトの追加/削除)。
  • Qwen image API へのアクセス方法

Step 1: Sign Up for API Key

cometapi.com にログインしてください。まだユーザーでない場合は、まず登録を行ってください。CometAPI コンソールにサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API token で “Add Token” をクリックし、トークンキー sk-xxxxx を取得して送信します。

Step 2: Send Requests to Qwen image API

API リクエストを送信するエンドポイント “qwen-image ” を選択し、リクエストボディを設定します。リクエスト方法およびリクエストボディは当社サイトの API ドキュメントから取得できます。当社サイトは利便性のため Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。base url は Images 形式(https://api.cometapi.com/v1/images/generations)で CometAPI 経由です。

質問やリクエスト内容を content フィールドに挿入してください — モデルが応答する対象はこのフィールドです .

Step 3: Retrieve and Verify Results

API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。

Funksjoner for Qwen Image

Utforsk nøkkelfunksjonene til Qwen Image, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for Qwen Image

Utforsk konkurransedyktige priser for Qwen Image, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan Qwen Image kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Per forespørsel:$0.028
Per forespørsel:$0.035
-20%

Eksempelkode og API for Qwen Image

Qwen-Image は、高忠実度なテキストレンダリング、精密な編集、そして汎用的なテキストから画像への生成を目的として設計された、Qwen ファミリーの画像生成・画像編集の基盤モデルです。テキストを考慮した生成、二言語テキストレンダリング(とりわけ中国語と英語に強い)、および細粒度のインコンテキスト編集を実行できるよう設計されています。本リリースは、「理解+生成」を組み合わせた設計思想を強調しています(画像理解タスクと生成タスクを統一パイプラインで学習)。

Versjoner av Qwen Image

Grunnen til at Qwen Image har flere øyeblikksbilder kan inkludere potensielle faktorer som variasjoner i utdata etter oppdateringer som krever eldre øyeblikksbilder for konsistens, å gi utviklere en overgangsperiode for tilpasning og migrering, og ulike øyeblikksbilder som tilsvarer globale eller regionale endepunkter for å optimalisere brukeropplevelsen. For detaljerte forskjeller mellom versjoner, vennligst se den offisielle dokumentasjonen.
version
qwen-image
qwen-image-edit
qwen-image-edit-plus-2025-10-30
qwen-image-max-2025-12-30

Flere modeller