什麼是 Flux.2，並且 Flux 2 現在可在 CometAPI 上使用

FLUX.2 是 Black Forest Labs 新近發佈的一系列影像生成與編輯模型，具備生產級保真度、多參考編輯（最多 10 個參考），並提供可部署的多種級別，從開放權重的 Dev 到生產級 Pro，以及可控的 Flex 層級。

什麼是 FLUX.2？

FLUX.2 是 Black Forest Labs 的生產級影像生成 + 編輯家族，結合了多參考條件化、重新設計的潛在空間（VAE），以及進階控制原語（十六進位顏色導引、JSON 提示、姿態引導），為創意與商業工作流程提供一致且高保真的結果。它在單一模型家族中同時支援文字→影像生成與多參考影像編輯，BFL 提供託管的 API 端點以及適用於研究與本地推理的開放權重構件。該產品透過多個發佈渠道提供：面向研究人員/開發者的開放權重（FLUX.2）、託管的生產模型如 Flux.2 Pro，以及可自訂的託管端點如 Flux.2 Flex。

主要能力

多參考編輯：在單次輸出中結合多達 8–10 張參考影像，同時維持身份與風格一致性。這對廣告、產品模型圖或創作變體中的角色連貫性特別有用。
高解析度（最高 4MP）：輸出可達 4 百萬像素（例如 2048×2048 或更大，取決於長寬比）。
寫實度與細節：相較先前開放模型，在手部、面部、材質與空間推理等方面有所提升。
結構化提示與 JSON 提示：FLUX.2 支援結構化/JSON 提示，能自然對應到 UI 控制（場景、subjects[]、風格、光線、相機），便於程式化且可重現的生成。
文字與顏色保真：在文字渲染與精準色彩（十六進位）導引方面表現突出，適用於對品牌敏感的工作流程。
內容溯源與安全：Pro API 會在產出影像上套用以密碼學方式簽署的 C2PA 中繼資料，並對不允許的內容類別執行分層過濾。

Pro vs Flex vs Dev：該選哪個模型？

Variant	Latency & cost	Quality	Control & features	Multi-reference
FLUX.2	針對低延遲最佳化（在典型 API 設定中 <10s），包含內容過濾與以密碼學簽署的 C2PA 中繼資料以供溯源。	最高（4MP，最佳保真度）	完整功能，生產級 SLA	最多 8（API，9MP 上限）
FLUX.2	相較於 `pro` 延遲較高，但提供可調整的推理超參數（步數、引導係數等）	高	可在保真度與多樣性間調和；可調整推理步數、引導係數與其他採樣控制，以兼顧品質/速度	最多 10
FLUX.2	視硬體而定	強（開放權重）	完整編輯 + 多參考；開放檢查點	建議上限 6
FLUX.2	邊緣/低資源	中等（蒸餾版）	速度快、顯存佔用小

何時選用哪個

若必須在本地執行、需要演算法研究或需要開放權重的自訂（並接受高硬體需求），請選擇 dev。
若需要可預期、低延遲的生產影像，並內建安全與溯源功能，請選擇 pro。
若你在迭代生成超參數（調整步數、引導係數等），並希望由受管端點提供這些控制，請選擇 flex。

FLUX.2 如何運作？

FLUX.2 結合三個主要架構元素：

1. Rectified-flow Transformer 主幹

FLUX.2 的核心是採用在學習到的潛在空間中運作的「流匹配/校正流」Transformer 架構（在某些生產流程中是傳統擴散的現代替代方案）。此主幹帶來高保真渲染與空間推理，提升跨多參考的一致性。「流匹配」在採樣速度與保真度上，相較經典擴散，帶來不同的取捨。

2. 新的變分自編碼器（VAE）

專門打造的自編碼器將影像壓縮為針對 FLUX.2 之生成與編輯任務最佳化的潛在表示。據 BFL 所述，新的 VAE 改善了可壓縮性與保真度（較先前世代有更佳的學習動態與更高品質的重建）。VAE 是實現乾淨上采樣至 4MP 與細節改進的關鍵因素。

3. 長上下文視覺–語言模型（VLM）

VLM（公開說明中提到與 Mistral 級視覺–語言編碼器相關）提供語言條件化與真實世界知識，使提示更貼合，並更擅長遵循複雜指令（姿態引導、情境化編輯等）。將 VLM 與流式主幹結合，讓 FLUX.2 能在更大的上下文視窗下推理構圖與語義。

這些模組如何互動（執行時流程）

編碼輸入：參考影像透過 VAE 編碼為潛在權標；文字提示由 VLM 編碼。
跨模態融合：Transformer 主幹攝取影像潛在表示 + 文字權標，並建模空間關係、身份特徵與編輯指令。
基於流的生成：校正流取樣器在融合表示的條件下生成或編輯潛在影像。
解碼：VAE 將潛在表示解碼回像素空間，並可選擇性地套用最終顏色約束與浮水印/C2PA 中繼資料。

為何此架構重要

此組合帶來三個實用優勢：（1）多參考一致性，因為在潛在空間中顯式建模身份與風格；（2）更好的文字與字型排版，因為 VLM 與影像潛在空間的整合更緊密；（3）可擴展的部署選項——同一模型家族可作為本地使用的開放權重（dev），作為受管低延遲服務（pro），或作為提供可調整控制的開發者服務（flex）。

FLUX.2 表現如何？

基準測試表現

Black Forest Labs 發佈了對比評估與圖表，顯示 FLUX.2 在正面的人類偏好/勝率測試以及 ELO 對成本分析中優於多個同級開放權重模型。供應商/媒體摘要報告的亮點包括：

文字→影像勝率：FLUX.2 報告約為 66.6%（對比 ~51.3% 的 Qwen-Image、48.1% 的 Hunyuan Image 3.0）。
單參考編輯：約 59.8% 勝率（對比 ~49.3% 的 Qwen-Image、41.2% 的 FLUX.1 Kontext）。
多參考編輯：約 63.6% 勝率（對比 Qwen-Image 的 ~36.4%）。
ELO 對成本：FLUX.2 家族（Pro、Flex、Dev）在高品質、相對低成本區間聚集（ELO 約 1030–1050，且在供應商的定價圖表中每張影像約 2–6 美分）。

多參考生成

FLUX.2 最大的特點之一是可使用多張參考影像產生多個一致的輸出。

例如，在拍攝產品時，你可以上傳從不同角度、不同光線、不同背景拍攝的多張照片，一次生成多個同一產品的變體影像。

此功能可讓你快速批次生成電商網站的產品目錄圖片、廣告橫幅、社群媒體圖組等。

與傳統單影像生成不同，這種多參考機制非常適合強調一致性與完整性的真實世界工作流程。

高解析度、商業級品質（最高至 4MP）

FLUX.2 支援最高 4 百萬像素（約 2000–3000 像素）的輸出，提供足以用於廣告、印刷、招牌與海報等實際應用的影像品質。

它能很好地處理文字、標誌、UI 樣機圖、資訊圖表等，不僅適合藝術創作，也適合設計與商業使用。

同時，字型與文字的渲染品質也有所提升，適合製作廣告橫幅與產品標籤。

支援本地 GPU 執行：低成本、低門檻

迄今為止，許多高效能影像生成模型僅在具備大量算力的資料中心才實用。然而，FLUX.2 已針對標準 GPU（如 NVIDIA RTX）進行最佳化，且顯存佔用更低。

模型無需再透過雲端存取；可在本地進行編輯與生成，顯著降低成本並提升操作彈性。

這不僅是企業的重大優勢，對個人創作者與小型團隊亦然。

統一的創作與編輯流程

FLUX.2 不僅支援文字到影像（text → image generation），也支援影像到影像（對現有影像進行編輯與風格化）。

這讓你能用單一模型一致地處理「從零繪製新影像」、「編修與潤飾既有照片」、「重用多張影像以創作統一變體」等任務。

例如，輕鬆將產品照片的背景替換為不同氛圍，或為社群媒體調整尺寸。

如何存取 Flux.2 API

我們很高興地宣佈 CometAPI 已整合 Flux.2 API。現支援 Replicate 格式模型（低於 Replicate 官方定價），FLUX.2 端點：

black-forest-labs/flux-2-pro
black-forest-labs/flux-2-dev
black-forest-labs/flux-2-flex

立即開始構建建立預測 — API 文件，

想先嘗試嗎？在 CometAPI 註冊並登入後，可於我們的 playground 試用 FLUX.2；若你想現在就以 API 開始構建：建立預測 — API 文件。

FLUX.2 不僅僅是另一次模型發佈；它是一項面向家族層級的產品策略，針對生產現實：保真度、可編輯性、多參考一致性，以及務實的部署路徑（受管 API 與開放檢查點）。對於大規模生產視覺內容的組織而言，若團隊在技術採用的同時搭配完善的授權治理與品質控管，FLUX.2 可望帶來實質的生產力提升。

FLUX.2 的主要用途與預期使用情境

產品視覺/電商目錄建立

電商與品牌需要從多角度、不同光線、背景與色彩模式拍攝大量產品照片。

使用 FLUX.2，你可在不實際拍攝的情況下快速生成多個視覺一致的效果。
這使你能更快擴充產品目錄，同時降低攝影成本、時間與管理成本。

廣告與行銷物料製作

設計物料的需求廣泛，包括廣告橫幅、社群貼文圖片、活動宣傳視覺與公關海報。

只需提供文字描述，即可獲得具備目標風格、構圖與氛圍的影像，大幅減輕設計師與廣告人員的負擔。
另外，由於可用多張參考影像生成變體，也適用於創意 A/B 測試，並可製作適配多語言與多地區的物料。

使用者介面/體驗設計與原型製作

FLUX.2 亦支援編輯標誌、字型、版面與背景，不僅可生成照片，也適用於數位產品的視覺設計。

你可以快速創建初步設計、線框圖、活動網站、應用程式畫面樣機圖等。
這是一套具成本效益的生產方案，特別適合新創與小型設計團隊。

藝術/創作與個人使用

當然，也可純粹用於「藝術創作」、「插畫」或「平面設計」。

透過文字提示與參考影像，在各種情緒與風格中擴展你的創作視野。
也可利用影像編輯功能，將現有照片自由轉換為藝術風格，或探索奇幻景觀與角色設計。

與現有模型與競品的差異——為何選擇 FLUX.2？

與其他 AI 影像生成模型比較

目前 AI 影像生成領域有許多模型（開源與商用），包括傳統擴散模型與最新競爭對手。那麼，為何 FLUX.2 如此吸引人？原因如下：

整合生成與編輯：許多模型要麼側重「生成（文字到影像）」，要麼側重「編輯（影像到影像）」。FLUX.2 同時支援這兩種功能，實現高度一致的工作流程。
多重參考輸入：使用多張參考影像，輕鬆應對產品攝影並維持視覺一致。
商業品質與高解析度：支援 4MP，適用於廣告、產品攝影與印刷。
易於本地執行：不依賴雲端，可在標準 GPU 上運行，在成本與彈性方面具優勢。
彈性模型選擇：提供多種覆蓋標準、商用與研究應用的模型，讓你依需求與預算選擇最合適者。

這使得 FLUX.2 成為專業工作流程、商業使用、高量產出與重視成本與速度專案的強力選擇。

結語：

FLUX.2 位處務實的交匯點：為需要可控與可重現性的團隊提供「開放權重研究選項」，為優先考慮低延遲、可預期輸出與溯源的團隊提供「受管、生產就緒的 API」。透過同時提供開放與受管變體（dev/pro/flex），BFL 承認不同工作流程——實驗、迭代設計與生產——需要在保真度、速度、自訂與治理之間做出不同取捨。

開發者可透過 CometAPI 存取 Flux.2 Dev API、Flux.2 Flex API 與 Flux.2 Pro API。請先在 Playground 探索 CometAPI 的模型能力。訪問前，請確保你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格，協助你快速整合。

Ready to Go?→ Sign up for CometAPI today ！

若想獲取更多技巧、指南與 AI 新聞，請追蹤我們於 VK、X 與 Discord！

準備好將 AI 開發成本降低 20% 了嗎？

閱讀更多