FLUX.2 は Black Forest Labs による第2世代の画像生成・画像編集モデルファミリー(2025年11月25日リリース)です。プロダクション水準のフォトリアリズム、最大 4MP のマルチリファレンス編集、構造化/JSON プロンプト、そしてマネージドエンドポイント(Pro、Flex)とオープンウェイト(Dev)の選択肢を提供します。
朗報として、CometAPI は Flux.2 API を統合しました。本ガイドでは FLUX.2 の概要、API の呼び出し方、そして高度なワークフロー(テキスト→画像、柔軟なコントロール、マルチリファレンス編集)を、コード例とベストプラクティスとともに解説します。
FLUX.2 とは何か、なぜ重要なのか?
FLUX.2 は FLUX ファミリーの後継であり、高忠実度のテキスト→画像生成と、プロダクション解像度(約 4 メガピクセルまで)でのマルチリファレンス画像編集に特化して設計されています。デモ用途ではなく実際のクリエイティブワークフロー(ブランドセーフなアセット、複数リファレンス間でのキャラクターやスタイルの一貫性、優れたタイポグラフィや微細描写)を見据えており、生成画像と実写のギャップを埋めることを目指しています。
FLUX.2 が狙う主な成果
- 広告、商品画像、UI モックアップに適したフォトリアリスティックな出力
- ネイティブなマルチリファレンス編集:複数の入力画像から要素を単一の編集で合成・入れ替え・構成
- 用途別のバリアント:開発者向けのオープン提供モデル、プロダクション最適化の Pro エンドポイント、低レベル制御のための Flex エンドポイント
大局的には、FLUX.2 は潜在生成のバックボーン(flow/transformer アーキテクチャ)に、意味的なグラウンディングのためのビジョン言語モデルを組み合わせ、新たに学習された VAE によりバリアント間で共有の潜在空間を提供します。この設計により、表現を学習可能なまま高い忠実度で生成と再構成(編集)の双方を実現します。特にオープンな VAE は、ホスト型とセルフホスト型のワークフローにおいて潜在空間を標準化する点が注目に値します。
重要性:言語と潜在フローのマッチングを結合することで、プロンプト追従性が強化され(複合的・多段の指示が予測どおりに機能)、タイポグラフィが改善され、複数リファレンスを用いた生成と編集を単一アーキテクチャでサポートします。クリエイターにとっては、複雑な指示や混合入力(テキスト+画像)でもより信頼性の高い出力が得られることを意味します。
FLUX.2 API へのアクセス方法
環境の準備
CometAPI に登録・ログインし、プロフィールパネルから API キーを取得してください。理想的には、開発者として API に関する基本的な知識があるとよいでしょう(本ガイドでサポートしますので心配は不要です)。
あとは、希望するリクエスト方式と適切な Flux.2 モデルを選択する必要があります。
必要なエンドポイントと認証
Replicate Predictions API は、標準的な Replicate 形式を通じて Black Forest Labs の各種 FLUX モデルを用いた高品質な画像生成にアクセスする手段を提供します。この API は幅広い FLUX モデルバリアントをサポートしており、迅速なプロトタイピングからプロフェッショナルグレードの画像生成まで、用途に合わせて最適化されています。ユーザーは URL パス(https://api.cometapi.com/replicate/v1/models/{models}/predictions)内のモデル名を変更するだけで、さまざまなモデル間をシームレスに切り替えられ、クリエイティブ用途や商用用途に柔軟に対応できます。
CometAPI は https://api.cometapi.com/flux/v1/{model} 配下でマネージドエンドポイントを公開しており、画像生成と編集のために flux-2-pro、flux-2-flex、そして flux-2-flex といった名称のエンドポイントを提供しています。リクエストには x-key ヘッダーでの API キー指定が必要です。
モデルファミリーと計算リソースのトレードオフ
- FLUX.2(オープンウェイト) — ローカルでの制御、研究実験、独自インフラでの推論実行が必要な場合に使用。Dev はオープンウェイト(32B)で、探索的研究や微調整に優れます。設定自由度は高い一方、インフラや最適化は自己責任となります。
- FLUX.2 pro — 速度・品質・コストの最良バランスを持つプロダクション向け。予測可能なレイテンシ、一貫したプロンプト遵守、迅速なスループットに調整され、API 経由で最大 8 枚のリファレンス画像(合計 9MP)をサポート。高ボリューム編集で信頼性と予測可能な料金が必要な場合に最適です。
- FLUX.2(マネージド+コントロール性) — 低レベルの生成制御(例:
steps、guidance)を公開し、より多くのリファレンス(最大 10)と、レイテンシやコスト増と引き換えにわずかに高い品質/ディテールをサポート。最終的なクリエイティブコントロール(タイポグラフィの忠実性、正確な色、非常に緻密な構図調整)が必要なときは Flex を使用します。
まずは Dev や低コストな Pro プランで試作し、スケールには Pro、厳密な最終レンダリングには Flex に移行しましょう。
FLUX.2 API の使い方
リクエストのライフサイクル(タスク+ポーリングモデル)
編集/生成リクエストへの応答は、polling_url と id を含む「タスクオブジェクト」です。まずリクエストを作成し、その後ポーリング(または Webhook)で署名付きの結果 URL を取得します。署名付き URL は短命(通常約 10 分)なので、出力は迅速に取得してください。
ホスト型 API は非同期タスクモデルに従います。
- 生成リクエストを POST →
task idとpolling_url、見積もりcostが返る polling_urlをポーリングしてstatus == "Ready"になったら、画像結果(base64 またはホストされた URL が多い)を取得
例:Python(requests)— 送信 & ポーリング
import time, requests, os
API_KEY = os.environ
API_URL = "https://api.cometapi.com/flux/v1/flux-2-pro"
payload = {
"prompt": "A high-end product photo of a ceramic mug on a wooden desk, soft window light.",
"width": 1024, "height": 1024, "seed": 42
}
r = requests.post(API_URL, headers={"x-key": API_KEY, "accept":"application/json"}, json=payload)
r.raise_for_status()
task = r.json()
polling_url = task
while True:
time.sleep(0.5)
status_r = requests.get(polling_url, headers={"x-key": API_KEY})
status_r.raise_for_status()
status = status_r.json()
if status == "Ready":
print("Result URL:", status)
break
elif status in ("Error", "Failed"):
print("Generation failed:", status)
break
このパターン(送信 → ポーリングまたは Webhook)は、マネージドエンドポイントにおける基本的な同期/非同期フローです。
画像編集 — 最小例(入力 URL を使った curl)
curl -X POST "https://api.cometapi.com/flux/v1/flux-2-pro" \
-H "accept: application/json" \
-H "x-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"prompt": "Replace the background with a sunlit seaside boardwalk, keep the person intact and match lighting",
"input_image": "",
"width": 2048,
"height": 1536
}'
マルチリファレンス編集では、input_image、input_image_2、input_image_3、… を使用します(Pro は API 経由で最大 8 つのリファレンスをサポート、Flex は最大 10、Dev はメモリに応じて推奨最大約 6)。
どの基本パラメータを送るべきか?
重要なリクエストボディ項目(画像編集/生成)には以下が含まれます。
guidanceとsteps— きめ細かな制御を可能にします。prompt(string)— 最大 32K トークン;詳細な自然言語または構造化 JSON。input_image(string)— 編集では必須(URL または base64)。input_image_2…input_image_9— マルチリファレンス画像。width/height— 16 の倍数;出力は最大 4MP。seed— 再現性のための整数。safety_tolerance— モデレーションレベル。
FLUX.2 Pro を使ってプロフェッショナルなテキスト→画像生成を行うには?
FLUX.2 Pro は、信頼性の高い高品質出力のためにチューニングされています。ブランドレベルで一貫した結果、迅速なターンアラウンド、エンタープライズ SLA が必要な場合に使用してください。
ワークフロー手順 — プロダクション用イメージ
- プロンプトの前処理:短い「意図」行と、構造化された属性セクション(ライティング、レンズ、ムード、ブランドカラーの HEX コード)を併用します。FLUX.2 は HEX カラーの誘導をサポートし、ブランドパレットの維持に役立ちます。
- 保守的なデフォルトから開始:steps 30–50、guidance スケール 6–9.0。細部が必要なら steps を、プロンプトへの忠実性を高めたいなら guidance を上げます。
- 再現性のために
seedと決定論的サンプリングを使用。 - Pro エンドポイントでのマルチトライサンプリング:並列に N 個のバリエーションを生成してベストを選択—手動のハイパーパラメータ調整より低コストかつ高速です。
- ポストプロセス:デノイズ、軽微なトーンマッピング、ベクタ風の微調整などを決定論的パイプラインで。ネイティブ出力を超える解像度が必要なら、小型の GAN や超解像ステップを検討します。
なぜ有効か: Pro は速度と忠実度のバランスがよく、生成後の安全/コンテンツフィルタを適用することが多いため、顧客向けアセットの標準として妥当です。
画像生成のベストヒント
1. 構造化プロンプトはプロダクションで強力。 優先度で整理:被写体 → アクション → スタイル → コンテキスト。多数の画像で決定論的な構図が必要な場合は JSON プロンプト(scene, subjects, camera, lighting, color_palette)を使用します。JSON スキーマ例(擬似):
{
"scene": "product shot",
"subjects": [
{"type":"mug","pose":"center","style":"ceramic, matte"},
{"type":"background","style":"wooden desk, window light"}
],
"camera": {"focal_length":"85mm","aperture":"f2.8","angle":"slightly above"}
}
2. 再現性: 後から再現するために seed を渡します。プロンプト+seed → 画像の対応表をカタログ化して追跡可能性を確保します。
3. バッチ & オーケストレーション: 大規模運用では Pro に多数のリクエストを並列送信。ただしスロットリング回避のためにレート制限を行う。レイテンシの予測性のため Pro を優先。準備完了時には署名付き結果を速やかにダウンロードするため、ジョブキューとワーカープールを活用。
4. モデレーション & セーフティ: safety_tolerance でモデレーションの厳しさを制御。Pro エンドポイントには利用ポリシーとコンテンツモデレーションフックが含まれることが多いため、公開前にサーバーサイドのチェックを統合。
5. ポストプロセシング: Pro の出力は高品質ですが、軽微なレタッチが必要な場合があります。パイプラインに自動化された後処理(トリミング、カラーグレーディング、合成)を組み込み、ブランド感度の高いアセットには人手レビューを維持します。
FLUX.2 Flex エンドポイントで出力をカスタマイズするには?
Flex は「外科的精度」のバリアントで、steps、guidance、ネガティブプロンプト、タイルサイズ、リファレンス数などを細かく調整して出力を正確に形作れます。
Flex を選ぶべき場面
- 正確なタイポグラフィ表現が必要(UI モック、ラベルなど)
- 複数リファレンスを、ポーズやライティングの制御とともに合成したい
- 高度なプロンプト手法(構造化プロンプト、制約の連鎖)を実験したい
例 — Flex の制御キーとその効果
steps— 多いほど細部が向上(レイテンシ増の対価)guidance_scale— 高いほどテキストプロンプトに忠実、低いほど創造性が増すnegative_prompt— 明示的に要素を排除(例:「no watermark, no extra fingers」)tile_size/tiled_inference— 超高解像度生成のため、タイル化でメモリと速度をトレードreference_weights— 一部エンドポイントではリファレンスの重み付けにより、どの画像がポーズ/スタイルに強く影響するかを調整
実践的ヒント: 複雑な構図では、まず低ステップ・低ガイダンスのプレビューで構図を確認し、その後ステップとガイダンスを上げてアップスケールする 2 パス方式が有効です。コストを抑えつつ精密な最終出力が得られます。
例:steps と guidance を指定した Flex リクエスト
curl -X POST "https://api.bfl.ai/v1/flux-2-flex" \
-H "Content-Type: application/json" \
-H "x-key: $BFL_API_KEY" \
-d '{
"prompt": "Cinematic movie poster, bold typography at top, main character centered, dramatic rim lighting",
"width": 1536, "height": 2048,
"steps": 50,
"guidance": 7.5,
"seed": 99999
}'
Tip: 最終的なクリエイティブ承認の段階では Flex、大規模で高速なパイプラインには Pro を使い分けましょう。Flex はタイポグラフィや微細描写のタスクで明確に高い制御性を発揮します。
本番運用のベストプラクティス
以下は FLUX.2 をスケール統合する際の実戦的パターンと実務的アドバイスです。
1) メガピクセルとキャッシュの管理でコストを制御
FLUX.2 の課金は、入力+出力のメガピクセルに基づきます。高ボリューム生成では、低解像度・少ステップのプレビューを優先し、最終出力のみ高 MP に引き上げます。同一ジョブを再レンダリングしないよう、生成アセット(または差分)をキャッシュします。レスポンスに含まれる cost を常に表示・記録しましょう。
2) ティアの使い分け:プレビュー vs 最終レンダリング
- プロトタイピングや多数のバリエーションには、低ステップの Pro レンダーを高速で回す
- 最終承認済み出力で忠実度が重要な場合は、Flex または高 MP の Pro 実行を使う
このハイブリッド手法で、スループットと最終品質のバランスを取ります。
3) プロンプトエンジニアリング → 構造化プロンプト & JSON
決定論的な構図(シーンのオブジェクト、カメラ、ポーズ、HEX カラースウォッチ)が必要な場合は、FLUX.2 の構造化 JSON プロンプトを活用してください。反復的なプロンプト調整を減らし、再現性の高いバッチ生成につながります。Cloudflare の例では、マルチパートフォームに JSON プロンプトを埋め込んでいます。
4) 再現性のための seed とバージョン管理
再現性が必要な場合は seed を渡し、メタデータにモデルバージョン/タイムスタンプを記録します。決定論的なアセットパイプラインでは、プロンプト、seed、モデルバリアント、解像度、リファレンス画像のハッシュをマニフェスト化してください。これによりトレーサビリティとロールバックの選択肢が向上します。
結論
FLUX.2 は「印象的なデモ」と「プロダクションのクリエイティブツール」のギャップを埋めることを狙っています。マルチリファレンス編集、高解像度出力、一連のホスト型エンドポイント(加えてオープンな推論コードや量子化済みのコンシューマービルド)により、チームには実用的な選択肢が広がります。研究やカスタマイズにはローカル実行、安定したプロダクションパイプラインにはホスト型の Pro/Flex エンドポイント、といった使い分けが可能です。
開発者は、CometAPI を通じて Flux.2 Dev API、Flux.2 Flex API、Flux.2 Pro API にアクセスできます。まずは Playground で CometAPI のモデル機能を試し、詳細は API guide を参照してください。アクセス前に、CometAPI にログインして API キーを取得していることを確認してください。CometAPI は統合を支援するため、公式価格より大幅に低い価格を提供しています。
Ready to Go?→ Sign up for CometAPI today !
