使用 Flux.1 Kontext 進行多影像參考:逐步指南

CometAPI
AnnaAug 1, 2025
使用 Flux.1 Kontext 進行多影像參考:逐步指南

Flux.1 Kontext 的「多影像參考」功能代表了 AI 驅動的影像編輯和生成工作流程處理多種視覺輸入的範式轉移。透過允許創作者同時輸入多張參考影像,Flux.1 Kontext 可以在所有輸入中保持一致的風格、姿勢和光照,從而實現統一的批量編輯、一致的風格轉換和複雜的場景構圖。下文將探討使用 Flux Kontext 掌握多影像參考處理的基礎、最新突破和最佳實踐。

什麼是 Flux.1 Kontext,為什麼它會改變影像編輯?

Flux.1 Kontext 代表了多模態影像生成和編輯領域的最新進展,它基於 Flux 系列基於流的 Transformer 模型構建。由 Black Forest Labs 開發的 Flux 模型基於整流流 Transformer 模組,可擴展至 12 億個參數,從而提供高保真文本轉圖像的合成和編輯功能。與傳統的文字轉圖像流程不同,Flux.1 Kontext 透過以下方式擴展了這些基礎: 在上下文中 編輯:使用者不僅可以提供文字提示,還可以提供一個或多個參考圖像,從而使模型能夠從語義上理解視覺概念並將其應用於新穎的輸出。

Flux.1 Kontext 的意義在於其統一的架構-被稱為 產生流匹配— 可同時處理 本地編輯 (例如,改變照片中物體的顏色)和 全球轉型 (例如,生成場景的新視圖)在單一模型中實現。這消除了對單獨編輯和生成模型的需求,從而簡化了工作流程,並減少了創意專業人士的上下文切換。


Flux.1 Kontext 有哪些不同的變體?

Flux.1 Kontext 有三種主要版本,每種版本都適用於不同的用例和授權模式:

  1. Flux.1Kontext 開發:非商業許可下的源可用模型,主要用於實驗和整合到本地 GPU 驅動的工作流程中。
  2. Flux.1 Kontext Pro:專有的、可透過 API 存取的模型,提供行業級的效能、一致的結果和商業支援。
  3. Flux.1 Kontext Max:高階層具有增強的排版處理、最大吞吐量和改進的邊緣情況保真度。

這些變體共同確保研究人員和企業用戶都可以利用多模式編輯,無論他們優先考慮可自訂性還是生產穩定性。

Flux.1 Kontext 中的「多圖像引用」是什麼?

多圖像參考是指向 AI 模型提供多個範例圖像的過程,以便模型能夠推斷出共通的特徵(例如風格、光照或主體身份),並在所有輸入中應用一致的編輯或產生尊重這些屬性的全新內容。與單一影像調節不同,這種方法使創作者能夠在批次輸出中強制保持一致性,從而減少手動潤色並確保視覺連貫性。

Flux.1Kontext 如何實作多圖引用?

Flux.1 Kontext 多圖像功能的核心是其 流量匹配 框架。 Flux.1 Kontext 並非孤立地處理每個參考影像,而是將影像嵌入和文字標記連接成一個統一的序列。然後,基於 Transformer 的流匹配器學習在潛在空間中對齊和合併這些嵌入,從而有效地捕捉單一和聯合的視覺語義。

傳統的多參考方法通常會對嵌入進行平均,或依賴大量的微調(例如,LoRA)。 Flux.1 Kontext 的流匹配方法:

  • 保持一致性 跨越多個回合,保持物件身分和風格。
  • 減少降解,這在迭代編輯管道中很常見。
  • 支援互動費率,在應用程式中實現近乎即時的預覽。

哪些工作流程支援與 Flux.1 Kontext 進行多影像整合?

Flux.1 Kontext 的設計確保無縫整合到基於 GUI 和程式碼驅動的管道:

ComfyUI 集成

利用 ComfyUI 的節點式介面,使用者可以將多幅參考影像直接輸入到專用的「Flux.1 Kontext Dev」節點。此節點接收影像清單和文字提示,並輸出統一的擴散圖結果。主要有兩種模式:

  • 連接模式:依序附加嵌入,非常適合簡單的複合任務。
  • 交叉注意模式:交錯注意力圖以實現更深層的語義混合,更適合複雜的風格合併。
    提示技巧(例如指定每個影像的權重和接縫混合標記)有助於防止顏色變化和可見連接()。

API 優先方法(複製、CometAPI)

開發者可以透過 RESTful 端點與 Flux.1 Kontext Max 或 Pro 互動。 API 架構通常包括:

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

JavaScript、Python 和 Go 中的 Playground 和 SDK 支援使得將多重影像調節合併到 Web 或行動應用程式中變得非常簡單。

使用 CometAPI 的 Flux.Kontext API 進行多圖像參考

以下是向 FLUX 1 Kontext API 提交多圖像引用請求的逐步指南。它涵蓋身份驗證、請求構建(包含兩個引用圖像)、結果處理以及最佳實踐。


1.如何使用 FLUX.1 Kontext API 進行身份驗證?

如果您正在使用 Replicate 託管的 FLUX 1 Kontext 應用程序,請在 Replicate → 您的帳戶 → API 令牌登入。

取得您的 API 金鑰: 註冊並登入 彗星API,從您的儀表板檢索您的持有者令牌。

在標題中包含密鑰 Authorization: Token YOUR_API_TOKEN 或者,對於 bearer-style API: Authorization: Bearer YOUR_API_TOKEN


2.哪個端點處理兩張影像融合?

對於「合併兩個影像」模型的複製(flux-kontext-apps/multi-image-kontext-pro),請將您的貼文寄至:

https://api.replicate.com/v1/predictions

對於 CometAPI 的託管 API,它將是:

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

注意:在 CometAPI 中,僅 flux-kontext 支援多重影像引用,若要呼叫以下不同的模型,需要在 url 中的模型後切換模型名稱:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

兩個端點都期望 JSON 負載包含 prompt, input_image_1input_image_2 .


3. 請求負載是什麼樣的?

以下是記錄的最小 JSON 模式 multi-image-kontext-pro:

類型簡介
prompt關於如何組合或轉換兩個輸入影像的文字描述
input_image_1第一張圖片的 URL 或 Base64 資料 URI (JPEG/PNG/WebP/GIF)
input_image_2第二張圖片的 URL 或 Base64 資料 URI
aspect_ratio枚舉(可選) match_input, 1:1, 16:9等。預設為 match_input

小提示: 您可以傳遞公共託管的 URL 或內聯 Base64 資料 URI——Base64 對於一次性腳本來說很方便,但可能會降低非常大的檔案的速度。

現在 CometAPI 支援上傳最多 4 張參考映像(之前僅支援單張圖片)


4.如何使用 cURL 發送多圖像請求?

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'
  • 更換 version 具有來自 Replicate 的最新模型版本 ID 的欄位。
  • 在 CometAPI 上交換 /predict 端點和用途 "file": { ... } 根據他們的文檔。

5. 如何在 Python 中執行相同操作?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)
  • 勾選 data (「開始」 → 「處理」 → 「成功」)進行輪詢,直到準備好。

6. 如何處理和顯示結果?

預測完成後,模型將返回融合影像的 URI:

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

取得該 URL(或將其直接嵌入到您的應用程式/UI 中)。

如何最大化結果:最佳實踐?

您應該選擇哪些參考影像?

  • 同質性:選擇具有一致風格、主題比例和照明的影像以實現最佳均勻性。
  • 風格遷移的多樣性:應用新風格時,請提供各種範例來展示所需的全部效果。
  • 高解析度輸入:品質較好的參考資料可以產生更清晰的生成輸出,特別是對於紋理和臉部特徵等精細細節。
  • 圖片尺寸限制: 將每個輸入保持在 10 MB 以下(複製標準)以避免逾時。
  • 格式: JPEG、PNG、GIF 和 WebP 效果最佳;避免使用外來格式。

提示工程:

  • 明確一點:“保留影像 1 中的臉部特徵”
  • 使用權重:“影像1優先級高,影像2優先級低”
  • 速率限制: 檢查您的計劃的 QPS 限制;仔細批量請求。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 FLUX.1 上下文 (模型: flux-kontext-pro ; flux-kontext-max) 透過 彗星API,列出的最新模型版本截至本文發布之日。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。


結論

使用 FLUX 1 Kontext 進行多圖像引用代表了生成式 AI 工作流程的範式轉移。透過在單一流匹配架構中統一文字和多種視覺輸入,它使創作者能夠以更少的步驟實現複雜且一致的輸出。最近的突破——從 ComfyUI 中的圖像拼接節點到低精度量化優化和 CometAPI API——極大地擴展了多圖像處理的可存取性、效能和創作潛力。

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣