FLUX.2 是 Black Forest Labs 新近發佈的一系列影像生成與編輯模型,具備生產級保真度、多參考編輯(最多 10 個參考),並提供可部署的多種級別,從開放權重的 Dev 到生產級 Pro,以及可控的 Flex 層級。
什麼是 FLUX.2?
FLUX.2 是 Black Forest Labs 的生產級影像生成 + 編輯家族,結合了多參考條件化、重新設計的潛在空間(VAE),以及進階控制原語(十六進位顏色導引、JSON 提示、姿態引導),為創意與商業工作流程提供一致且高保真的結果。它在單一模型家族中同時支援文字→影像生成與多參考影像編輯,BFL 提供託管的 API 端點以及適用於研究與本地推理的開放權重構件。該產品透過多個發佈渠道提供:面向研究人員/開發者的開放權重(FLUX.2)、託管的生產模型如 Flux.2 Pro,以及可自訂的託管端點如 Flux.2 Flex。
主要能力
- 多參考編輯:在單次輸出中結合多達 8–10 張參考影像,同時維持身份與風格一致性。這對廣告、產品模型圖或創作變體中的角色連貫性特別有用。
- 高解析度(最高 4MP):輸出可達 4 百萬像素(例如 2048×2048 或更大,取決於長寬比)。
- 寫實度與細節:相較先前開放模型,在手部、面部、材質與空間推理等方面有所提升。
- 結構化提示與 JSON 提示:FLUX.2 支援結構化/JSON 提示,能自然對應到 UI 控制(場景、subjects[]、風格、光線、相機),便於程式化且可重現的生成。
- 文字與顏色保真:在文字渲染與精準色彩(十六進位)導引方面表現突出,適用於對品牌敏感的工作流程。
- 內容溯源與安全:Pro API 會在產出影像上套用以密碼學方式簽署的 C2PA 中繼資料,並對不允許的內容類別執行分層過濾。
Pro vs Flex vs Dev:該選哪個模型?
| Variant | Latency & cost | Quality | Control & features | Multi-reference |
|---|---|---|---|---|
| FLUX.2 | 針對低延遲最佳化(在典型 API 設定中 <10s),包含內容過濾與以密碼學簽署的 C2PA 中繼資料以供溯源。 | 最高(4MP,最佳保真度) | 完整功能,生產級 SLA | 最多 8(API,9MP 上限) |
| FLUX.2 | 相較於 pro 延遲較高,但提供可調整的推理超參數(步數、引導係數等) | 高 | 可在保真度與多樣性間調和;可調整推理步數、引導係數與其他採樣控制,以兼顧品質/速度 | 最多 10 |
| FLUX.2 | 視硬體而定 | 強(開放權重) | 完整編輯 + 多參考;開放檢查點 | 建議上限 6 |
| FLUX.2 | 邊緣/低資源 | 中等(蒸餾版) | 速度快、顯存佔用小 |
何時選用哪個
- 若必須在本地執行、需要演算法研究或需要開放權重的自訂(並接受高硬體需求),請選擇 dev。
- 若需要可預期、低延遲的生產影像,並內建安全與溯源功能,請選擇 pro。
- 若你在迭代生成超參數(調整步數、引導係數等),並希望由受管端點提供這些控制,請選擇 flex。
FLUX.2 如何運作?
FLUX.2 結合三個主要架構元素:
1. Rectified-flow Transformer 主幹
FLUX.2 的核心是採用在學習到的潛在空間中運作的「流匹配/校正流」Transformer 架構(在某些生產流程中是傳統擴散的現代替代方案)。此主幹帶來高保真渲染與空間推理,提升跨多參考的一致性。「流匹配」在採樣速度與保真度上,相較經典擴散,帶來不同的取捨。
2. 新的變分自編碼器(VAE)
專門打造的自編碼器將影像壓縮為針對 FLUX.2 之生成與編輯任務最佳化的潛在表示。據 BFL 所述,新的 VAE 改善了可壓縮性與保真度(較先前世代有更佳的學習動態與更高品質的重建)。VAE 是實現乾淨上采樣至 4MP 與細節改進的關鍵因素。
3. 長上下文視覺–語言模型(VLM)
VLM(公開說明中提到與 Mistral 級視覺–語言編碼器相關)提供語言條件化與真實世界知識,使提示更貼合,並更擅長遵循複雜指令(姿態引導、情境化編輯等)。將 VLM 與流式主幹結合,讓 FLUX.2 能在更大的上下文視窗下推理構圖與語義。
這些模組如何互動(執行時流程)
- 編碼輸入:參考影像透過 VAE 編碼為潛在權標;文字提示由 VLM 編碼。
- 跨模態融合:Transformer 主幹攝取影像潛在表示 + 文字權標,並建模空間關係、身份特徵與編輯指令。
- 基於流的生成:校正流取樣器在融合表示的條件下生成或編輯潛在影像。
- 解碼:VAE 將潛在表示解碼回像素空間,並可選擇性地套用最終顏色約束與浮水印/C2PA 中繼資料。
為何此架構重要
此組合帶來三個實用優勢:(1)多參考一致性,因為在潛在空間中顯式建模身份與風格;(2)更好的文字與字型排版,因為 VLM 與影像潛在空間的整合更緊密;(3)可擴展的部署選項——同一模型家族可作為本地使用的開放權重(dev),作為受管低延遲服務(pro),或作為提供可調整控制的開發者服務(flex)。
FLUX.2 表現如何?
基準測試表現
Black Forest Labs 發佈了對比評估與圖表,顯示 FLUX.2 在正面的人類偏好/勝率測試以及 ELO 對成本分析中優於多個同級開放權重模型。供應商/媒體摘要報告的亮點包括:
- 文字→影像勝率:FLUX.2 報告約為 66.6%(對比 ~51.3% 的 Qwen-Image、48.1% 的 Hunyuan Image 3.0)。
- 單參考編輯:約 59.8% 勝率(對比 ~49.3% 的 Qwen-Image、41.2% 的 FLUX.1 Kontext)。
- 多參考編輯:約 63.6% 勝率(對比 Qwen-Image 的 ~36.4%)。
- ELO 對成本:FLUX.2 家族(Pro、Flex、Dev)在高品質、相對低成本區間聚集(ELO 約 1030–1050,且在供應商的定價圖表中每張影像約 2–6 美分)。
多參考生成
FLUX.2 最大的特點之一是可使用多張參考影像產生多個一致的輸出。
例如,在拍攝產品時,你可以上傳從不同角度、不同光線、不同背景拍攝的多張照片,一次生成多個同一產品的變體影像。
此功能可讓你快速批次生成電商網站的產品目錄圖片、廣告橫幅、社群媒體圖組等。
與傳統單影像生成不同,這種多參考機制非常適合強調一致性與完整性的真實世界工作流程。
高解析度、商業級品質(最高至 4MP)
FLUX.2 支援最高 4 百萬像素(約 2000–3000 像素)的輸出,提供足以用於廣告、印刷、招牌與海報等實際應用的影像品質。
它能很好地處理文字、標誌、UI 樣機圖、資訊圖表等,不僅適合藝術創作,也適合設計與商業使用。
同時,字型與文字的渲染品質也有所提升,適合製作廣告橫幅與產品標籤。
支援本地 GPU 執行:低成本、低門檻
迄今為止,許多高效能影像生成模型僅在具備大量算力的資料中心才實用。然而,FLUX.2 已針對標準 GPU(如 NVIDIA RTX)進行最佳化,且顯存佔用更低。
模型無需再透過雲端存取;可在本地進行編輯與生成,顯著降低成本並提升操作彈性。
這不僅是企業的重大優勢,對個人創作者與小型團隊亦然。
統一的創作與編輯流程
FLUX.2 不僅支援文字到影像(text → image generation),也支援影像到影像(對現有影像進行編輯與風格化)。
這讓你能用單一模型一致地處理「從零繪製新影像」、「編修與潤飾既有照片」、「重用多張影像以創作統一變體」等任務。
例如,輕鬆將產品照片的背景替換為不同氛圍,或為社群媒體調整尺寸。
如何存取 Flux.2 API
我們很高興地宣佈 CometAPI 已整合 Flux.2 API。現支援 Replicate 格式模型(低於 Replicate 官方定價),FLUX.2 端點:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
立即開始構建 建立預測 — API 文件,
想先嘗試嗎?在 CometAPI 註冊並登入後,可於我們的 playground 試用 FLUX.2;若你想現在就以 API 開始構建:建立預測 — API 文件。
FLUX.2 不僅僅是另一次模型發佈;它是一項面向家族層級的產品策略,針對生產現實:保真度、可編輯性、多參考一致性,以及務實的部署路徑(受管 API 與開放檢查點)。對於大規模生產視覺內容的組織而言,若團隊在技術採用的同時搭配完善的授權治理與品質控管,FLUX.2 可望帶來實質的生產力提升。
FLUX.2 的主要用途與預期使用情境
產品視覺/電商目錄建立
電商與品牌需要從多角度、不同光線、背景與色彩模式拍攝大量產品照片。
- 使用 FLUX.2,你可在不實際拍攝的情況下快速生成多個視覺一致的效果。
- 這使你能更快擴充產品目錄,同時降低攝影成本、時間與管理成本。
廣告與行銷物料製作
設計物料的需求廣泛,包括廣告橫幅、社群貼文圖片、活動宣傳視覺與公關海報。
- 只需提供文字描述,即可獲得具備目標風格、構圖與氛圍的影像,大幅減輕設計師與廣告人員的負擔。
- 另外,由於可用多張參考影像生成變體,也適用於創意 A/B 測試,並可製作適配多語言與多地區的物料。
使用者介面/體驗設計與原型製作
FLUX.2 亦支援編輯標誌、字型、版面與背景,不僅可生成照片,也適用於數位產品的視覺設計。
- 你可以快速創建初步設計、線框圖、活動網站、應用程式畫面樣機圖等。
- 這是一套具成本效益的生產方案,特別適合新創與小型設計團隊。
藝術/創作與個人使用
當然,也可純粹用於「藝術創作」、「插畫」或「平面設計」。
- 透過文字提示與參考影像,在各種情緒與風格中擴展你的創作視野。
- 也可利用影像編輯功能,將現有照片自由轉換為藝術風格,或探索奇幻景觀與角色設計。
與現有模型與競品的差異——為何選擇 FLUX.2?
與其他 AI 影像生成模型比較
目前 AI 影像生成領域有許多模型(開源與商用),包括傳統擴散模型與最新競爭對手。那麼,為何 FLUX.2 如此吸引人?原因如下:
- 整合生成與編輯:許多模型要麼側重「生成(文字到影像)」,要麼側重「編輯(影像到影像)」。FLUX.2 同時支援這兩種功能,實現高度一致的工作流程。
- 多重參考輸入:使用多張參考影像,輕鬆應對產品攝影並維持視覺一致。
- 商業品質與高解析度:支援 4MP,適用於廣告、產品攝影與印刷。
- 易於本地執行:不依賴雲端,可在標準 GPU 上運行,在成本與彈性方面具優勢。
- 彈性模型選擇:提供多種覆蓋標準、商用與研究應用的模型,讓你依需求與預算選擇最合適者。
這使得 FLUX.2 成為專業工作流程、商業使用、高量產出與重視成本與速度專案的強力選擇。
結語:
FLUX.2 位處務實的交匯點:為需要可控與可重現性的團隊提供「開放權重研究選項」,為優先考慮低延遲、可預期輸出與溯源的團隊提供「受管、生產就緒的 API」。透過同時提供開放與受管變體(dev/pro/flex),BFL 承認不同工作流程——實驗、迭代設計與生產——需要在保真度、速度、自訂與治理之間做出不同取捨。
開發者可透過 CometAPI 存取 Flux.2 Dev API、Flux.2 Flex API 與 Flux.2 Pro API。請先在 Playground 探索 CometAPI 的模型能力。訪問前,請確保你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你快速整合。
Ready to Go?→ Sign up for CometAPI today !
