FLUX.2 は、Black Forest Labs が新たに発表した画像生成および編集モデルのファミリーであり、プロダクション グレードの忠実度、マルチ参照編集 (最大 10 参照)、オープン ウェイトの Dev からプロダクション Pro、および制御可能な Flex 層までの展開可能なバリアントを提供します。
FLUX.2とは何ですか?
FLUX.2は、Black Forest Labsのプロダクショングレードの画像生成+編集ファミリーです。マルチリファレンスコンディショニング、改良された潜在空間(VAE)、高度な制御プリミティブ(16進カラーステアリング、JSONプロンプト、ポーズガイダンス)を統合し、クリエイティブワークフローと商用ワークフローの両方で一貫性のある高忠実度の結果を提供します。単一のモデルファミリーでテキスト→画像生成とマルチリファレンス画像編集の両方をサポートし、BFLはホスト型APIエンドポイントと、研究およびローカル推論用のオープンウェイトアーティファクトを提供しています。この製品は、研究者/開発者向けのオープンウェイト(FLUX.2 )、次のような生産モデルをホストしました Flux.2 プロ、カスタマイズ可能なホストエンドポイントなど Flux.2 フレックス.
主な機能
- 複数参照編集: アイデンティティとスタイルの一貫性を維持しながら、最大8~10枚の参照画像を1つの出力に組み合わせることができます。これは、広告、製品モックアップ、またはクリエイティブバリエーション間でのキャラクターの連続性を維持する場合に特に役立ちます。
- 高解像度(最大4MP): 最大 4 メガピクセル (アスペクト比に応じて、たとえば 2048×2048 以上) を出力します。
- フォトリアリズム + 細部までこだわったディテール: 以前のオープン モデルと比較して、手、顔、テクスチャ、空間認識能力が向上しました。
- 構造化プロンプトと JSON プロンプト: FLUX.2 は、UI コントロール (シーン、サブジェクト、スタイル、照明、カメラ) に自然にマップされる構造化/JSON プロンプトをサポートし、プログラムによる再現可能な生成を可能にします。
- タイポグラフィと色の忠実度: ブランドに敏感なワークフローに適した、非常に優れたテキスト レンダリングと正確なカラー (16 進数) ステアリング。
- コンテンツの出所と安全性: Pro API は、生成された画像に暗号化署名された C2PA メタデータを適用し、許可されていないコンテンツ カテゴリに対して階層化されたフィルタリングを実行します。
Pro vs Flex vs Dev: どのモデルを選択するか?
| バリアント | レイテンシーとコスト | 品質 | コントロールと機能 | マルチ参照 |
|---|---|---|---|---|
| FLUX.2 | 低レイテンシ(一般的な API 設定では 10 秒未満)に最適化されており、コンテンツ フィルターと、出所を示す暗号署名された C2PA メタデータが含まれています。 | 最高(4MP、最高の忠実度) | フル機能、本番環境SLA | 最大 8 (API、9MP 制限) |
| FLUX.2 | より高いレイテンシ pro ただし、調整可能な推論ハイパーパラメータ(ステップ、ガイダンススケールなど)を公開します。 | ハイ | 調整可能な忠実度と多様性、調整可能な推論ステップ、ガイダンス スケール、および品質と速度のトレードオフのためのその他のサンプリング制御。 | 最大10 |
| FLUX.2 | ハードウェアに依存 | 強い(オープンウェイト) | 完全な編集 + マルチ参照; オープンチェックポイント | 推奨最大6 |
| FLUX.2 | エッジ/低リソース | 中程度(蒸留) | 高速で小さなVRAMフットプリント |
いつどれを選ぶか
- 選択する devの ローカルで実行する必要がある場合、アルゴリズムの調査が必要な場合、またはオープンウェイトのカスタマイズが必要な場合(および高いハードウェア要件を受け入れる場合)。
- 選択する 以下のために 安全性と来歴の機能が組み込まれた、予測可能で低レイテンシのプロダクションイメージが必要な場合。
- 選択する フレックス 生成ハイパーパラメータ (チューニング手順、ガイダンス スケールなど) を反復処理していて、そのコントロールを公開する管理エンドポイントが必要な場合。
FLUX.2 はどのように機能しますか?
FLUX.2 は、3 つの主要なアーキテクチャ要素を統合します。
1. 整流変圧器バックボーン
FLUX.2の核となるのは フローマッチング/整流フロー 学習済み潜在空間で動作するTransformerアーキテクチャ(一部の制作パイプラインにおける拡散法の現代的な代替手段)。このバックボーンは、高忠実度のレンダリングと空間推論を可能にし、複数の参照間の一貫性を向上させます。「フローマッチング」アプローチは、従来の拡散法と比較して、サンプリング速度と忠実度において異なるトレードオフを提供します。
2. 新しい変分オートエンコーダー (VAE)
専用のオートエンコーダが画像を圧縮し、FLUX.2の生成・編集タスクに最適化された潜在表現を生成します。BFLによると、新しいVAEは圧縮率と忠実度(学習ダイナミクスの向上と、前世代よりも高品質な再構成)を向上させています。VAEは、4MPへのクリーンなアップスケーリングとディテールの向上に大きく貢献しています。
3. 長文脈視覚言語モデル(VLM)
VLM(公開された論文ではミストラル級の視覚言語エンコーダーと関連があると報告されている)は、言語条件付けと実世界知識を提供することで、プロンプトの忠実性を高め、複雑な指示(ポーズガイダンス、コンテキスト編集など)へのモデルの追従性を向上させる。VLMをフローバックボーンと組み合わせることで、FLUX.2はより大きなコンテキストウィンドウにおける構成と意味論について推論できるようになる。
これらの部分がどのように相互作用するか(実行時フロー)
- エンコード入力: 参照画像は VAE を介して潜在トークンにエンコードされ、テキスト プロンプトは VLM によってエンコードされます。
- クロスモーダル融合: トランスフォーマー バックボーンは、画像の潜在情報とテキスト トークンを取り込み、空間関係、ID 機能、編集指示をモデル化します。
- フローベースの生成: 整流フローサンプラーは、融合された表現に基づいて潜在画像を生成または編集します。
- デコード: VAE は潜在情報をピクセル空間にデコードし、オプションで最終的な色制約と透かし/C2PA メタデータを適用します。
このアーキテクチャが重要な理由
この組み合わせにより、3つの実用的な利点が得られます。(1) 多参照コヒーレンス アイデンティティとスタイルは潜在意識の中で明示的にモデル化されるからである。(2) より良いテキストとタイポグラフィ VLMと画像潜在空間のより緊密な統合により(3) スケーラブルな展開オプション — 同じ基本モデル ファミリを、ローカル使用向けのオープン ウェイト (dev)、管理された低レイテンシ サービス (pro)、または開発者向けの調整可能なサービス (flex) として出荷できます。
FLUX.2 はどのように優れていますか?
ベンチマークでのパフォーマンス
Black Forest Labsは、FLUX.2 が、人間の嗜好/勝率の直接比較テストとELO対コスト分析において、複数のオープンウェイトの同世代のゲーム機を上回る性能を示した比較評価とグラフを公開しました。公開されたベンダー/プレス向け概要では、以下の点が報告されています。
- テキスト→画像の勝率: FLUX.2 が報告されました 約66.6% 勝率(Qwen-Image 約 51.3%、Hunyuan Image 3.0 48.1% に対して)。
- 単一参照編集: 約59.8% 勝率(Qwen-Image が約 49.3%、FLUX.1 Kontext が 41.2%)。
- 複数参照編集: 約63.6% 勝率(Qwen-Imageの場合は約36.4%)。
- ELOとコスト: FLUX.2 ファミリー (Pro、Flex、Dev) は、高品質で比較的低コストのバンド (ベンダーの価格表ではイメージあたり約 2 ~ 6 セントで動作し、ELO ≈ 1030 ~ 1050) でクラスター化されています。
マルチ参照生成
FLUX.2 の最大の特徴の 1 つは、複数の参照画像を使用して複数の一貫した出力を生成できることです。
たとえば、商品を撮影する場合、さまざまな角度、さまざまな照明条件、さまざまな背景で撮影した複数の写真をアップロードし、同じ画像の複数のバリエーションを一度に生成できます。
この機能を使用すると、電子商取引 Web サイト、広告バナー、ソーシャル メディアの画像セットなどの製品カタログ写真をすばやく一括生成できます。
従来の単一画像生成とは異なり、このマルチ参照メカニズムは、一貫性と整合性を重視する実際のワークフローに最適です。
高解像度、ビジネス品質(最大 4MP)
FLUX.2 は最大 4 メガピクセル (約 2000 ~ 3000 ピクセル) の出力をサポートし、広告、印刷、看板、ポスターなどの実用的な用途に適した画質を提供します。
テキスト、ロゴ、UI モックアップ、インフォグラフィックなどを完璧に処理するため、芸術的な創作だけでなく、デザインや商業的な用途にも適しています。
同時に、フォントやテキストのレンダリング品質も向上し、広告バナーや製品ラベルの作成に適したものになりました。
ローカルGPU実行をサポート: 低コスト、参入障壁が低い
これまで、多くの高性能画像生成モデルは、膨大な計算リソースを備えたデータセンターでのみ実用化されていました。しかし、FLUX.2は、VRAM消費量を抑えながら、標準GPU(NVIDIA RTXなど)で実行できるように最適化されています。
モデルはクラウド経由でアクセスする必要がなくなり、ローカルで編集および生成できるため、コストが大幅に削減され、運用の柔軟性が向上します。
これは企業だけでなく、個人のクリエイターや小規模チームにとっても大きなメリットとなります。
統合された作成と編集のワークフロー
FLUX.2 は、テキストから画像への変換 (テキスト → 画像の生成) だけでなく、画像から画像への変換 (既存の画像の編集とスタイル設定) もサポートします。
これにより、「新しい画像を一から描く」、「既存の写真を編集・レタッチする」、「複数の画像を再利用して均一なバリエーションを作成する」などのタスクを、一貫して 1 つのモデルで実行できるようになります。
例えば、商品写真の背景を別の雰囲気のものに変更したり、ソーシャルメディア用にサイズを変更したりすることも簡単です。
Flux.2 APIへのアクセス方法
CometAPI が Flux.2 API を統合したことをお知らせいたします。Replicate フォーマットモデル(Replicate 公式価格より低価格)と FLUX.2 エンドポイントのサポートを開始しました。
- ブラックフォレストラボ/flux-2-pro
- ブラックフォレストラボ/flux-2-dev
- ブラックフォレストラボ/フラックス2フレックス
今すぐ構築を開始 予測の作成 – APIドキュメント,
まずは試してみませんか? FLUX.2 とをテストする 遊び場 CometAPIに登録してログインした後、 今すぐAPIを使って構築を始めましょう: 予測の作成 – APIドキュメント.
FLUX.2は単なるモデルドロップではありません。制作現場の現実、すなわち忠実度、編集性、複数参照の一貫性、そして実用的なデプロイメントパス(マネージドAPIとオープンチェックポイント)に対応する、ファミリーレベルの製品戦略です。大規模なビジュアルコンテンツを制作する組織にとって、FLUX.2は、チームが技術的な導入と堅牢なライセンスガバナンスおよび品質管理を組み合わせることで、大きな生産性向上を実現します。
FLUX.2の主な用途と想定される使用例
商品ビジュアル/Eコマースカタログ作成
電子商取引の企業やブランドでは、さまざまな照明、背景、カラーモードを使用して、さまざまな角度から多数の製品写真を撮影することが求められています。
- FLUX.2 を使用すると、実際にコンテンツを撮影しなくても、視覚的に一貫性のある複数のエフェクトをすばやく生成できます。
- これにより、写真撮影コスト、時間、管理コストを削減しながら、製品カタログを迅速に拡張できます。
広告・マーケティング資料の作成
広告バナー、SNS投稿画像、プロモーションキャンペーンビジュアル、広報ポスターなど、デザイン素材の需要は多岐にわたります。
- テキストによる説明を入力するだけで、希望するスタイル、構成、雰囲気の画像が得られるため、デザイナーや広告主の負担が大幅に軽減されます。
- さらに、複数の参照画像を使用してバリエーションを生成できるため、クリエイティブなアイデアのA/Bテストや、複数の言語・地域に対応した資料の作成にも適しています。
ユーザーインターフェース/ユーザーエクスペリエンスデザイン、プロトタイピング
FLUX.2 はロゴ、フォント、レイアウト、背景の編集もサポートしているため、写真生成だけでなくデジタル製品のビジュアルデザインにも適しています。
- 予備デザイン、ワイヤーフレーム、イベント Web サイト、アプリケーション画面のモックアップなどをすばやく作成できます。
- これはコスト効率の高い制作ソリューションであり、特にスタートアップや小規模なデザインチームに適しています。
芸術作品/創作作品および個人使用
もちろん、純粋に「アートワーク」「イラスト」「グラフィックデザイン」に使用することもできます。
- テキスト プロンプトと参照画像を使用して、さまざまな雰囲気とスタイルの作品を作成することで、創造的な視野を広げます。
- また、画像編集機能を使用して、既存の写真を芸術的なスタイルに自由に再利用したり、幻想的な風景やキャラクター デザインを試したりすることもできます。
既存モデルや競合製品との差別化 - FLUX.2 を選ぶ理由
他のAI画像生成モデルとの比較
現在、AI画像生成の分野には、従来の拡散モデルや最新の競合モデルなど、オープンソースおよび商用の様々なモデルが存在します。では、なぜFLUX.2がそれほど魅力的なのでしょうか?その理由は次のとおりです。
- 統合された生成と編集:多くのモデルは「生成(テキストから画像)」または「編集(画像から画像)」のいずれかに重点を置いています。FLUX.2 は両方の機能を同時にサポートし、一貫性の高いワークフローを実現します。
- 複数の参照入力: 複数の参照画像を利用して、製品の写真撮影を容易にし、視覚的な一貫性を保ちます。
- 商用品質と高解像度: 広告、製品写真、印刷用に 4MP をサポートします。
- 簡単なローカル実行: クラウドに依存せず、標準の GPU で実行できるため、コストと柔軟性の両方で利点があります。
- 柔軟なモデル選択: 標準から商用、研究用途まであらゆるものをカバーするさまざまなモデルを提供しており、ニーズと予算に最適なものを選択できます。
これにより、FLUX.2 は、プロフェッショナルなワークフロー、商用利用、大量生産、コストと速度が重要となるプロジェクトにとって強力な選択肢となります。
最終的な考え:
FLUX.2は実用的な交差点に位置しており、 オープンウェイト研究オプション 制御と再現性を必要とするチーム向け 管理された本番環境API 低レイテンシ、予測可能な出力、そして出所を重視するチーム向け。BFLは、オープンバージョンとマネージドバージョン(開発版/プロ版/フレックス版)の両方をリリースすることで、実験、反復設計、本番環境といった異なるワークフローにおいて、忠実度、速度、カスタマイズ、ガバナンスの間で異なるトレードオフが必要となることを認識しています。
開発者はアクセスできる Flux.2 開発 API, Flux.2 フレックス API および Flux.2 プロ API CometAPIを通じて。まずは、CometAPIのモデル機能を プレイグラウンドアクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 とeタピ 統合を支援するために、公式価格よりもはるかに低い価格を提供します。
準備はいいですか?→ 今すぐCometAPIに登録しましょう !
