什麼是 Flux.2,並且 Flux 2 現在可在 CometAPI 上使用

CometAPI
AnnaNov 26, 2025
什麼是 Flux.2,並且 Flux 2 現在可在 CometAPI 上使用

FLUX.2 是 Black Forest Labs 新近發佈的一系列影像生成與編輯模型,具備生產級保真度、多參考編輯(最多 10 個參考),並提供可部署的多種級別,從開放權重的 Dev 到生產級 Pro,以及可控的 Flex 層級。

什麼是 FLUX.2?

FLUX.2 是 Black Forest Labs 的生產級影像生成 + 編輯家族,結合了多參考條件化、重新設計的潛在空間(VAE),以及進階控制原語(十六進位顏色導引、JSON 提示、姿態引導),為創意與商業工作流程提供一致且高保真的結果。它在單一模型家族中同時支援文字→影像生成與多參考影像編輯,BFL 提供託管的 API 端點以及適用於研究與本地推理的開放權重構件。該產品透過多個發佈渠道提供:面向研究人員/開發者的開放權重(FLUX.2)、託管的生產模型如 Flux.2 Pro,以及可自訂的託管端點如 Flux.2 Flex

主要能力

  • 多參考編輯:在單次輸出中結合多達 8–10 張參考影像,同時維持身份與風格一致性。這對廣告、產品模型圖或創作變體中的角色連貫性特別有用。
  • 高解析度(最高 4MP):輸出可達 4 百萬像素(例如 2048×2048 或更大,取決於長寬比)。
  • 寫實度與細節:相較先前開放模型,在手部、面部、材質與空間推理等方面有所提升。
  • 結構化提示與 JSON 提示:FLUX.2 支援結構化/JSON 提示,能自然對應到 UI 控制(場景、subjects[]、風格、光線、相機),便於程式化且可重現的生成。
  • 文字與顏色保真:在文字渲染與精準色彩(十六進位)導引方面表現突出,適用於對品牌敏感的工作流程。
  • 內容溯源與安全:Pro API 會在產出影像上套用以密碼學方式簽署的 C2PA 中繼資料,並對不允許的內容類別執行分層過濾。

Pro vs Flex vs Dev:該選哪個模型?

VariantLatency & costQualityControl & featuresMulti-reference
FLUX.2針對低延遲最佳化(在典型 API 設定中 <10s),包含內容過濾與以密碼學簽署的 C2PA 中繼資料以供溯源。最高(4MP,最佳保真度)完整功能,生產級 SLA最多 8(API,9MP 上限)
FLUX.2相較於 pro 延遲較高,但提供可調整的推理超參數(步數、引導係數等)可在保真度與多樣性間調和;可調整推理步數、引導係數與其他採樣控制,以兼顧品質/速度最多 10
FLUX.2視硬體而定強(開放權重)完整編輯 + 多參考;開放檢查點建議上限 6
FLUX.2邊緣/低資源中等(蒸餾版)速度快、顯存佔用小

何時選用哪個

  • 若必須在本地執行、需要演算法研究或需要開放權重的自訂(並接受高硬體需求),請選擇 dev。
  • 若需要可預期、低延遲的生產影像,並內建安全與溯源功能,請選擇 pro。
  • 若你在迭代生成超參數(調整步數、引導係數等),並希望由受管端點提供這些控制,請選擇 flex。

FLUX.2 如何運作?

FLUX.2 結合三個主要架構元素:

1. Rectified-flow Transformer 主幹

FLUX.2 的核心是採用在學習到的潛在空間中運作的「流匹配/校正流」Transformer 架構(在某些生產流程中是傳統擴散的現代替代方案)。此主幹帶來高保真渲染與空間推理,提升跨多參考的一致性。「流匹配」在採樣速度與保真度上,相較經典擴散,帶來不同的取捨。

2. 新的變分自編碼器(VAE)

專門打造的自編碼器將影像壓縮為針對 FLUX.2 之生成與編輯任務最佳化的潛在表示。據 BFL 所述,新的 VAE 改善了可壓縮性與保真度(較先前世代有更佳的學習動態與更高品質的重建)。VAE 是實現乾淨上采樣至 4MP 與細節改進的關鍵因素。

3. 長上下文視覺–語言模型(VLM)

VLM(公開說明中提到與 Mistral 級視覺–語言編碼器相關)提供語言條件化與真實世界知識,使提示更貼合,並更擅長遵循複雜指令(姿態引導、情境化編輯等)。將 VLM 與流式主幹結合,讓 FLUX.2 能在更大的上下文視窗下推理構圖與語義。

這些模組如何互動(執行時流程)

  1. 編碼輸入:參考影像透過 VAE 編碼為潛在權標;文字提示由 VLM 編碼。
  2. 跨模態融合:Transformer 主幹攝取影像潛在表示 + 文字權標,並建模空間關係、身份特徵與編輯指令。
  3. 基於流的生成:校正流取樣器在融合表示的條件下生成或編輯潛在影像。
  4. 解碼:VAE 將潛在表示解碼回像素空間,並可選擇性地套用最終顏色約束與浮水印/C2PA 中繼資料。

為何此架構重要

此組合帶來三個實用優勢:(1)多參考一致性,因為在潛在空間中顯式建模身份與風格;(2)更好的文字與字型排版,因為 VLM 與影像潛在空間的整合更緊密;(3)可擴展的部署選項——同一模型家族可作為本地使用的開放權重(dev),作為受管低延遲服務(pro),或作為提供可調整控制的開發者服務(flex)。

FLUX.2 表現如何?

基準測試表現

Black Forest Labs 發佈了對比評估與圖表,顯示 FLUX.2 在正面的人類偏好/勝率測試以及 ELO 對成本分析中優於多個同級開放權重模型。供應商/媒體摘要報告的亮點包括:

  • 文字→影像勝率:FLUX.2 報告約為 66.6%(對比 ~51.3% 的 Qwen-Image、48.1% 的 Hunyuan Image 3.0)。
  • 單參考編輯:約 59.8% 勝率(對比 ~49.3% 的 Qwen-Image、41.2% 的 FLUX.1 Kontext)。
  • 多參考編輯:約 63.6% 勝率(對比 Qwen-Image 的 ~36.4%)。
  • ELO 對成本:FLUX.2 家族(Pro、Flex、Dev)在高品質、相對低成本區間聚集(ELO 約 1030–1050,且在供應商的定價圖表中每張影像約 2–6 美分)。

多參考生成

FLUX.2 最大的特點之一是可使用多張參考影像產生多個一致的輸出。

例如,在拍攝產品時,你可以上傳從不同角度、不同光線、不同背景拍攝的多張照片,一次生成多個同一產品的變體影像。

此功能可讓你快速批次生成電商網站的產品目錄圖片、廣告橫幅、社群媒體圖組等。

與傳統單影像生成不同,這種多參考機制非常適合強調一致性與完整性的真實世界工作流程。

高解析度、商業級品質(最高至 4MP)

FLUX.2 支援最高 4 百萬像素(約 2000–3000 像素)的輸出,提供足以用於廣告、印刷、招牌與海報等實際應用的影像品質。

它能很好地處理文字、標誌、UI 樣機圖、資訊圖表等,不僅適合藝術創作,也適合設計與商業使用。

同時,字型與文字的渲染品質也有所提升,適合製作廣告橫幅與產品標籤。

支援本地 GPU 執行:低成本、低門檻

迄今為止,許多高效能影像生成模型僅在具備大量算力的資料中心才實用。然而,FLUX.2 已針對標準 GPU(如 NVIDIA RTX)進行最佳化,且顯存佔用更低。

模型無需再透過雲端存取;可在本地進行編輯與生成,顯著降低成本並提升操作彈性。

這不僅是企業的重大優勢,對個人創作者與小型團隊亦然。

統一的創作與編輯流程

FLUX.2 不僅支援文字到影像(text → image generation),也支援影像到影像(對現有影像進行編輯與風格化)。

這讓你能用單一模型一致地處理「從零繪製新影像」、「編修與潤飾既有照片」、「重用多張影像以創作統一變體」等任務。

例如,輕鬆將產品照片的背景替換為不同氛圍,或為社群媒體調整尺寸。

如何存取 Flux.2 API

我們很高興地宣佈 CometAPI 已整合 Flux.2 API。現支援 Replicate 格式模型(低於 Replicate 官方定價),FLUX.2 端點:

  • black-forest-labs/flux-2-pro
  • black-forest-labs/flux-2-dev
  • black-forest-labs/flux-2-flex

立即開始構建 建立預測 — API 文件

想先嘗試嗎?在 CometAPI 註冊並登入後,可於我們的 playground 試用 FLUX.2;若你想現在就以 API 開始構建:建立預測 — API 文件

FLUX.2 不僅僅是另一次模型發佈;它是一項面向家族層級的產品策略,針對生產現實:保真度、可編輯性、多參考一致性,以及務實的部署路徑(受管 API 與開放檢查點)。對於大規模生產視覺內容的組織而言,若團隊在技術採用的同時搭配完善的授權治理與品質控管,FLUX.2 可望帶來實質的生產力提升。

FLUX.2 的主要用途與預期使用情境

產品視覺/電商目錄建立

電商與品牌需要從多角度、不同光線、背景與色彩模式拍攝大量產品照片。

  • 使用 FLUX.2,你可在不實際拍攝的情況下快速生成多個視覺一致的效果。
  • 這使你能更快擴充產品目錄,同時降低攝影成本、時間與管理成本。

廣告與行銷物料製作

設計物料的需求廣泛,包括廣告橫幅、社群貼文圖片、活動宣傳視覺與公關海報。

  • 只需提供文字描述,即可獲得具備目標風格、構圖與氛圍的影像,大幅減輕設計師與廣告人員的負擔。
  • 另外,由於可用多張參考影像生成變體,也適用於創意 A/B 測試,並可製作適配多語言與多地區的物料。

使用者介面/體驗設計與原型製作

FLUX.2 亦支援編輯標誌、字型、版面與背景,不僅可生成照片,也適用於數位產品的視覺設計。

  • 你可以快速創建初步設計、線框圖、活動網站、應用程式畫面樣機圖等。
  • 這是一套具成本效益的生產方案,特別適合新創與小型設計團隊。

藝術/創作與個人使用

當然,也可純粹用於「藝術創作」、「插畫」或「平面設計」。

  • 透過文字提示與參考影像,在各種情緒與風格中擴展你的創作視野。
  • 也可利用影像編輯功能,將現有照片自由轉換為藝術風格,或探索奇幻景觀與角色設計。

與現有模型與競品的差異——為何選擇 FLUX.2?

與其他 AI 影像生成模型比較

目前 AI 影像生成領域有許多模型(開源與商用),包括傳統擴散模型與最新競爭對手。那麼,為何 FLUX.2 如此吸引人?原因如下:

  • 整合生成與編輯:許多模型要麼側重「生成(文字到影像)」,要麼側重「編輯(影像到影像)」。FLUX.2 同時支援這兩種功能,實現高度一致的工作流程。
  • 多重參考輸入:使用多張參考影像,輕鬆應對產品攝影並維持視覺一致。
  • 商業品質與高解析度:支援 4MP,適用於廣告、產品攝影與印刷。
  • 易於本地執行:不依賴雲端,可在標準 GPU 上運行,在成本與彈性方面具優勢。
  • 彈性模型選擇:提供多種覆蓋標準、商用與研究應用的模型,讓你依需求與預算選擇最合適者。

這使得 FLUX.2 成為專業工作流程、商業使用、高量產出與重視成本與速度專案的強力選擇。

結語:

FLUX.2 位處務實的交匯點:為需要可控與可重現性的團隊提供「開放權重研究選項」,為優先考慮低延遲、可預期輸出與溯源的團隊提供「受管、生產就緒的 API」。透過同時提供開放與受管變體(dev/pro/flex),BFL 承認不同工作流程——實驗、迭代設計與生產——需要在保真度、速度、自訂與治理之間做出不同取捨。

開發者可透過 CometAPI 存取 Flux.2 Dev APIFlux.2 Flex APIFlux.2 Pro API。請先在 Playground 探索 CometAPI 的模型能力。訪問前,請確保你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你快速整合。

Ready to Go?→ Sign up for CometAPI today

若想獲取更多技巧、指南與 AI 新聞,請追蹤我們於 VKXDiscord

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多