FLUX.2 是 Black Forest Labs 新推出的影像生成和編輯模型系列,提供生產級保真度、多參考編輯(最多 10 個參考),以及從開放的開發版到生產專業版和可控的靈活層級的可部署變體。
FLUX.2是什麼?
FLUX.2 是 Black Forest Labs 出品的生產級圖像生成和編輯模型系列,它融合了多參考條件化、重新設計的潛在空間(VAE)以及高級控制原語(十六進制顏色控制、JSON 提示、姿態引導),可為創意和商業工作流程提供一致且高保真的結果。此模型系列支援文字到圖像的生成和多參考圖像編輯,BFL 提供託管 API 端點以及用於研究和本地推理的開放權重資料。本產品透過多種分發管道提供:針對研究人員/開發人員的開放權重資料(FLUX.2 例如),託管生產模式 **Flux.2 專業版**以及可自訂的託管端點,例如 Flux.2 Flex.
關鍵能力
- 多參考編輯: 在保持影像風格一致性的前提下,可將 8-10 張參考影像合併為一張輸出影像。這對於廣告、產品模型或跨創意變體的角色一致性尤其有用。
- 高解析度(最高可達 4MP): 輸出最高可達 4 萬像素(例如 2048×2048 及以上,取決於寬高比)。
- 照片級寫實 + 精細細節: 與早期的開放式模型相比,在手部、臉部、紋理和空間推理方面均有所改進。
- 結構化提示和 JSON 提示: FLUX.2 支援結構化/JSON 提示,這些提示自然地對應到 UI 控制項(場景、主題[]、樣式、光照、相機),從而實現程式化和可重複的生成。
- 字體排印和色彩還原度: 為品牌敏感型工作流程提供異常出色的文字渲染和精確的顏色(十六進位)控制。
- 內容來源及安全性: Pro API 將加密簽署的 C2PA 元資料套用至產生的影像,並對不允許的內容類別進行分層過濾。
Pro、Flex 和 Dev:該選擇哪一款型號?
| 變種 | 延遲和成本 | 品質 | 控制與功能 | 多參考 |
|---|---|---|---|---|
| FLUX.2 | 針對低延遲(在典型的 API 設定中 <10 秒)進行了最佳化,包括內容過濾器和用於溯源的加密簽章 C2PA 元資料。 | 最高畫質(4MP,最佳保真度) | 完整功能,生產服務水準協議 | 最多 8 個(API,9MP 限制) |
| FLUX.2 | 延遲高於 pro 但提供了可調節的推理超參數(步長、指導尺度等)。 | 高 | 可調保真度與多樣性;可調推理步長、指導尺度和其他取樣控制,以實現品質/速度的權衡。 | 截至到10 |
| FLUX.2 | 取決於硬體 | 強壯(公開組) | 完整編輯 + 多重參考;開放式檢查點 | 建議最多6人 |
| FLUX.2 | 邊緣/低資源 | 中(蒸餾) | 快速、佔用顯示小。 |
何時選擇哪一個
- 選擇 開發 如果您必須在本地運行、需要演算法研究或需要開放權重自訂(並接受較高的硬體要求)。
- 選擇 為 當您需要具有內建安全性和溯源功能的可預測、低延遲的生產映像時。
- 選擇 柔性 如果您正在迭代產生超參數(調整步長、指導比例等),並且想要一個公開該控制的託管端點。
FLUX.2 的工作原理是什麼?
FLUX.2 融合了三個主要架構元素:
1. 整流變壓器主幹網
FLUX.2 的核心使用了一種 流量匹配/整流 這種Transformer架構運行於一個學習到的潛在空間(對於某些生產流程而言,它是擴散技術的現代替代方案)。此架構支援高保真渲染和空間推理,從而提升了跨多個參考的一致性。 「流匹配」方法與傳統的擴散技術相比,在採樣速度和保真度之間提供了不同的權衡。
2.新的變分自動編碼器(VAE)
專為 FLUX.2 的生成和編輯任務而優化的潛在表示,透過專門設計的自編碼器將影像壓縮成潛在表示。 BFL 指出,新的 VAE 提高了影像的壓縮率和保真度(相比前幾代,具有更好的學習動態和更高的重建品質)。 VAE 是實現清晰的 4MP 影像放大和細節提升的關鍵因素。
3. 長上下文視覺語言模型(VLM)
視覺語言模型(VLM,根據已發表的文獻報告與Mistral類視覺語言編碼器相關)提供語言條件反射和現實世界知識,使提示更加準確,模型更擅長執行複雜的指令(例如姿勢引導、上下文編輯等)。將VLM與流程骨幹結合,使FLUX.2能夠在更大的上下文視窗中進行組合和語義推理。
這些元件如何互動(運行時流程)
- 輸入編碼: 參考圖像透過 VAE 編碼成潛在標記;文字提示透過 VLM 編碼。
- 跨模態融合: Transformer 主幹網路接收影像潛在特徵和文字標記,並對空間關係、身分特徵和編輯指令進行建模。
- 基於流的生成: 整流取樣器根據融合表示產生或編輯潛在影像。
- 解碼: VAE 將潛在值解碼回像素空間,並可選擇套用最終色彩限制和浮水印/C2PA 元資料。
這種建築為何重要
這種組合帶來了三個實際優點:(1) 多參考相干性 因為身份和風格是在潛在特質中明確建模的;(2) 更好的文字和排版 由於 VLM 與影像潛在空間之間更緊密的結合;(3) 可擴充的部署選項 — 同一個基本模型系列可以作為本地使用的開放權重(開發)、託管的低延遲服務(專業版)或可供開發人員調整的服務(彈性版)發布。
FLUX.2 有哪些優點?
在基準測試中表現優異
Black Forest Labs 發布了對比評估和圖表,顯示 FLUX.2 在直接對比的人類偏好/勝率測試以及 ELO 評分與成本分析中均優於幾款同類開放權重軟體。已發布的廠商/媒體摘要中的亮點包括:
- 文字→圖片獲勝率: FLUX.2 報告 ≈66.6% 勝率(與 Qwen-Image 的勝率約為 51.3%,與 Hunyuan Image 3.0 的勝率約為 48.1%)。
- 單引用編輯: ≈59.8% 勝率(與 Qwen-Image 的勝率約為 49.3%,FLUX.1 Kontext 的勝率約為 41.2%)。
- 多參考編輯: ≈63.6% 勝率(與 Qwen-Image 的約 36.4% 相比)。
- ELO 與成本: FLUX.2 系列(Pro、Flex、Dev)屬於高品質、相對低成本的類別(ELO ≈1030–1050,而供應商定價表中每張影像的運作成本約為 2–6 美分)。
多參考生成
FLUX.2 的最大特點之一是能夠使用多個參考影像產生多個一致的輸出。
例如,在拍攝產品時,您可以上傳從不同角度、不同光照條件和不同背景拍攝的多張照片,並一次生成相同影像的多個變體。
此功能可讓您快速大量產生電子商務網站、廣告橫幅、社群媒體圖片集等的產品目錄照片。
與傳統的單一影像生成不同,這種多參考機制非常適合強調一致性和完整性的實際工作流程。
高解析度,商業品質(最高可達4MP)
FLUX.2 支援輸出高達 4 萬像素(約 2000-3000 像素),提供適用於廣告、印刷、標牌和海報等實際應用的圖像品質。
它可以完美處理文字、標誌、UI 模型、資訊圖表等,不僅適用於藝術創作,也適用於設計和商業用途。
同時,字體和文字的渲染品質也得到了提高,使其更適合用於製作廣告橫幅和產品標籤。
支援本地GPU執行:成本低,進入門檻低
目前,許多高效能影像產生模型僅適用於擁有大量運算資源的資料中心。然而,FLUX.2 經過最佳化,可在標準 GPU(例如 NVIDIA RTX)上運行,且顯存佔用更低。
模型不再需要透過雲端存取;它們可以在本地進行編輯和生成,從而顯著降低成本並提高操作靈活性。
這不僅對公司而言是一大優勢,對個人創作者和小團隊也是如此。
統一的創建和編輯工作流程
FLUX.2 不僅支援文字轉圖像(文字→圖像生成),還支援圖像轉圖像(編輯和設定現有圖像樣式)。
這樣,您就可以一致地使用單一模型來完成諸如「從頭開始繪製新影像」、「編輯和修飾現有照片」以及「重複使用多個影像以建立統一變體」之類的任務。
例如,很容易將產品照片的背景更改為不同的氛圍,或調整其大小以適應社交媒體。
如何存取 Flux.2 API
我們很高興地宣布 CometAPI 已整合 Flux.2 API。現在支援 Replicate 格式模型(價格低於 Replicate 官方定價),以及 FLUX.2 端點:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
立即開始建構 建立預測 – API 文件,
想先試試嗎? 在我們的測試環境中測試 FLUX.2 和 操場 註冊並登入 CometAPI 後,如果您想 現在就開始使用 API 來建置吧: 建立預測 – API 文件.
FLUX.2 不僅僅是另一個新型號的發布;它是一項家族式產品策略,旨在解決製作過程中遇到的實際問題:保真度、可編輯性、多參考一致性以及切實可行的部署路徑(託管 API 和開放式檢查點)。對於大規模製作視覺內容的組織而言,FLUX.2 有望顯著提升生產力——前提是團隊能夠將技術應用與完善的授權管理和品質控制相結合。
FLUX.2 的主要用途和預期用例
產品視覺設計/電商目錄製作
電子商務企業和品牌對從多個角度、使用不同的光線、背景和色彩模式拍攝大量產品照片有著很高的需求。
- 使用 FLUX.2,您可以快速產生多個視覺上一致的效果,而無需實際拍攝任何內容。
- 這樣可以快速擴展您的產品目錄,同時降低攝影成本、時間和管理成本。
廣告和行銷材料製作
對設計材料的需求範圍很廣,包括廣告橫幅、社群媒體貼文圖片、促銷活動視覺素材和公共關係海報。
- 只需提供文字描述,即可獲得具有所需風格、構圖和氛圍的圖像,大大減輕設計師和廣告商的負擔。
- 此外,由於可以使用多個參考圖像生成變體,因此它也適用於創意的 A/B 測試以及創建與多種語言和地區相容的材料。
使用者介面/使用者體驗設計、原型製作
FLUX.2 還支援編輯標誌、字體、佈局和背景,使其不僅適用於照片生成,也適用於數位產品的視覺設計。
- 您可以快速建立初步設計、線框圖、活動網站、應用程式螢幕模型等等。
- 這是一種經濟高效的生產解決方案,特別適合新創公司和小型設計團隊。
藝術/創意作品和個人用途
當然,它也可以純粹用於「藝術作品」、「插圖」或「平面設計」。
- 透過文字提示和參考圖片,創作不同情緒和風格的作品,拓展你的創作視野。
- 您也可以使用影像編輯功能,自由地將現有照片重新加工成藝術風格,或嘗試奇幻的風景或人物設計。
與現有型號和競爭對手的不同之處—為什麼選擇 FLUX.2?
與其他人工智慧影像生成模型的比較
目前,人工智慧影像生成領域存在許多模型(開源和商業),例如傳統的擴散模型和最新的競爭模型。那麼,FLUX.2 為何如此引人注目呢?原因如下:
- 整合生成與編輯:許多模型要么側重於“生成(文本轉圖像)”,要么側重於“編輯(圖像轉圖像)”。 FLUX.2 同時支援這兩種功能,從而實現高度一致的工作流程。
- 多重參考輸入:利用多張參考圖片,方便產品攝影,並保持視覺一致性。
- 商業品質和高解析度:支援 4MP,適用於廣告、產品攝影和印刷。
- 易於本地執行:它不依賴雲端,可以在標準 GPU 上運行,在成本和靈活性方面都具有優勢。
- 靈活的型號選擇:提供各種型號,涵蓋從標準型到商業型和研究型應用,您可以選擇最適合您的需求和預算的型號。
這使得 FLUX.2 成為專業工作流程、商業用途、大量生產以及成本和速度至關重要的專案的強大選擇。
最後的想法:
FLUX.2 處於一個務實的交會點:它提供 開放權重研究選項 對於需要控制和可重現性的團隊而言, 託管式生產 API 適用於那些優先考慮低延遲、可預測輸出和溯源性的團隊。 BFL 同時提供開放版本和託管版本(開發/專業/靈活版本),表明其認識到不同的工作流程——實驗、迭代設計和生產——需要在保真度、速度、客製化和治理之間做出不同的權衡。
開發人員可以訪問 Flux.2 開發 API, Flux.2 Flex API Flux.2 Pro API 透過 CometAPI。首先,探討 CometAPI 的建模功能。 游乐场造訪前,請確保您已登入 CometAPI 並取得了 API 金鑰。 COMetAPI 提供遠低於官方價格的價格,幫助您整合。
準備出發了嗎? → 立即註冊 CometAPI !
