FLUX.2 是 Black Forest Labs 新近发布的图像生成与编辑模型家族,提供面向生产的保真度、多参考编辑(最多 10 个参考),并包含从开放权重的 Dev 到生产级 Pro 以及可控的 Flex 层级等可部署变体。
什么是 FLUX.2?
FLUX.2 是 Black Forest Labs 面向生产的图像生成 + 编辑模型家族,融合了多参考条件输入、重构的潜空间(VAE),以及高级控制原语(十六进制颜色控制、JSON 提示、姿态引导),为创意与商业工作流程提供一致、高保真的结果。它在同一模型家族中同时支持文本→图像生成与多参考图像编辑,BFL 同时提供托管 API 端点以及用于研究与本地推理的开放权重模型。该产品通过多个分发渠道提供:面向研究者/开发者的开放权重(FLUX.2),托管的生产模型如 Flux.2 Pro,以及可定制的托管端点如 Flux.2 Flex。
关键能力
- 多参考编辑:在单次输出中组合多达 8–10 张参考图,同时保持身份与风格一致性。对广告、产品模型图或创意变体中的角色连贯性尤为有用。
- 高分辨率(最高 4MP):输出最高 4 百万像素(例如 2048×2048 及更大,取决于纵横比)。
- 照片级真实感与细节:相较早期开放模型,在手部、面部、纹理与空间推理上有改进。
- 结构化提示与 JSON 提示:FLUX.2 支持与 UI 控件自然映射的结构化/JSON 提示(scene、subjects[]、style、lighting、camera),便于程序化与可复现的生成。
- 排版与颜色保真度:异常出色的文字渲染与精确的颜色(hex)控制,适用于品牌敏感型工作流。
- 溯源与安全:Pro API 会为生成图像附加加密签名的 C2PA 元数据,并对不允许的内容类别实施分层过滤。
Pro vs Flex vs Dev:该选哪个模型?
| Variant | Latency & cost | Quality | Control & features | Multi-reference |
|---|---|---|---|---|
| FLUX.2 | 针对低延迟优化(在典型 API 部署中 <10s),包含内容过滤与加密签名的 C2PA 溯源元数据。 | 最高(4MP,最佳保真度) | 全量特性,生产级 SLA | 最多 8(API,9MP 上限) |
| FLUX.2 | 延迟高于 pro,但开放可调的推理超参(步数、引导系数等) | 高 | 在保真度与多样性间可调;可调推理步数、引导系数与其他采样控制,以权衡质量/速度 | 最多 10 |
| FLUX.2 | 视硬件而定 | 强(开放权重) | 完整编辑 + 多参考;开放检查点 | 建议最多 6 |
| FLUX.2 | 边缘/低资源 | 中等(蒸馏) | 速度快、显存占用小 |
何时选择哪一个
- 当你必须本地运行、需要算法研究或需要对开放权重进行自定义(并接受较高硬件需求)时,选择 dev。
- 当你需要可预测、低延迟的生产级图像,且内置安全与溯源能力时,选择 pro。
- 当你正在迭代生成超参数(调步数、引导系数等)并希望使用提供这些控制的托管端点时,选择 flex。
FLUX.2 如何工作?
FLUX.2 融合了三个主要的架构要素:
1. Rectified-flow Transformer 主干
FLUX.2 的核心采用在学习到的潜空间中运行的 flow-matching / rectified-flow Transformer 架构(在某些生产管线中是传统扩散的现代替代方案)。该主干实现了高保真渲染与空间推理,提升了多参考场景下的一致性。“flow matching” 方法在采样速度与保真度方面相较经典扩散提供了不同的权衡。
2. 新的变分自编码器(VAE)
专为 FLUX.2 的生成与编辑任务设计的自编码器将图像压缩到潜在表示。BFL 表示,这一新的 VAE 提升了可压缩性与保真度(较前代具备更好的学习动态与更高质量的重建)。VAE 是实现干净放大到 4MP 与细节提升的关键因素。
3. 长上下文视觉–语言模型(VLM)
一个 VLM(据公开说明,与 Mistral 级视觉–语言编码器相关)提供语言条件与现实世界知识,使提示更贴合、并使模型更善于遵循复杂指令(姿态引导、上下文编辑等)。将 VLM 与 flow 主干结合,使 FLUX.2 能在更大的上下文窗口中推理构图与语义。
这些组件如何交互(运行时流程)
- 编码输入:参考图像通过 VAE 编码为潜在 token;文本提示由 VLM 编码。
- 跨模态融合:Transformer 主干摄取图像潜变量与文本 token,建模空间关系、身份特征与编辑指令。
- 基于流的生成:rectified-flow 采样器在融合表示的条件下生成或编辑潜在图像。
- 解码:VAE 将潜变量解码回像素空间,可选地应用最终颜色约束与水印/C2PA 元数据。
为何该架构重要
这一组合带来三点实际优势:(1) 多参考一致性,因为在潜空间中显式建模了身份与风格;(2) 更好的文本与排版,源于 VLM 与图像潜空间更紧密的结合;(3) 可扩展的部署选项——同一模型家族既可作为开放权重用于本地(dev),也可作为托管低延迟服务(pro),或作为为开发者提供可调控制的托管服务(flex)。
FLUX.2 表现如何?
基准测试表现
Black Forest Labs 发布了对比评测与图表,显示 FLUX.2 在正面对比的人类偏好/胜率测试以及 ELO 与成本分析中优于多款开放权重同代模型。发布的厂商/媒体摘要中的亮点包括:
- 文本→图像胜率:FLUX.2 报告约 ≈66.6% 的胜率(对比 ~51.3% 的 Qwen-Image、48.1% 的 Hunyuan Image 3.0)。
- 单参考编辑:约 ≈59.8% 胜率(对比 ~49.3% 的 Qwen-Image、41.2% 的 FLUX.1 Kontext)。
- 多参考编辑:约 ≈63.6% 胜率(对比 Qwen-Image 的 ~36.4%)。
- ELO 与成本:FLUX.2 家族(Pro、Flex、Dev)聚类于高质量、相对低成本区间(ELO ≈1030–1050,且在厂商定价图中每张图像约 2–6 美分)。
多参考生成
FLUX.2 的一大特性是能够使用多张参考图生成多组一致的输出。
例如,当拍摄一款产品时,你可以上传在不同角度、不同光照与不同背景条件下拍摄的多张照片,并一次性生成该产品的多个变体图像。
这一特性可帮助你快速批量生成电商网站的产品目录照片、广告横幅、社交媒体图集等。
与传统的单图生成不同,这种多参考机制非常契合强调一致性与完整性的真实世界工作流。
高分辨率、商用品质(最高 4MP)
FLUX.2 支持最高 4 百万像素输出(约 2000–3000 像素),可提供适用于广告、印刷、标识与海报等实际应用的图像质量。
它能良好处理文字、标志、UI 模型图、信息图等,不仅适用于艺术创作,也适用于设计与商业用途。
同时,字体与文本的渲染质量也得到了提升,适合用于制作广告横幅与产品标签。
支持本地 GPU 执行:低成本、低门槛
迄今为止,许多高性能图像生成模型主要在拥有巨大算力的数据中心才具备可用性。然而,FLUX.2 针对标准 GPU(如 NVIDIA RTX)进行了优化,显存占用更低。
模型不再必须通过云端访问;可在本地完成编辑与生成,显著降低成本并提升运营灵活性。
这不仅是企业的重大优势,同样适用于个人创作者与小团队。
统一的创作与编辑工作流
FLUX.2 不仅支持文本到图像(text → image generation),还支持图像到图像(编辑与风格化现有图像)。
这使你可以用同一模型一致地完成“从零生成新图”、“编辑与润饰现有照片”、“复用多张图创建统一的变体”等任务。
例如,更换产品照片的背景以适配不同氛围,或快速调整尺寸以适配社交媒体,都会变得很容易。
如何访问 Flux.2 API
我们很高兴地宣布,CometAPI 已集成 Flux.2 API。现已支持 Replicate 格式模型(价格低于 Replicate 官方定价),FLUX.2 端点:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
立即开始构建 Create Predictions – API Doc,
想先试试?注册并登录 CometAPI 后,在我们的 playground 体验 FLUX.2,如果你想现在就用 API 开始构建:Create Predictions – API Doc。
FLUX.2 不是一次普通的模型发布;它是一种面向生产现实的家族级产品战略:保真度、可编辑性、多参考一致性与可落地的部署路径(托管 API 与开放检查点)。对于大规模生产视觉内容的组织而言,只要团队将技术采用与健全的许可治理和质量控制相结合,FLUX.2 有望带来切实的效率提升。
FLUX.2 的主要用途与预期用例
产品视觉/电商目录制作
电商与品牌对从多个角度、使用不同光照、背景与色彩模式拍摄大量产品照片有着高需求。
- 借助 FLUX.2,你可以在不实际拍摄的情况下快速生成多种视觉一致的效果。
- 这有助于快速扩充产品目录,同时降低拍摄成本、时间与管理成本。
广告与营销素材制作
设计素材需求广泛,包括广告横幅、社交媒体配图、促销活动视觉与公关海报等。
- 只需提供文字描述,即可获得具备期望风格、构图与氛围的图像,大幅降低设计师与广告从业者的负担。
- 此外,由于可通过多参考图生成变体,也适用于创意点子的 A/B 测试,以及制作适配多语言与多地区的素材。
用户界面/用户体验设计与原型制作
FLUX.2 也支持编辑标志、字体、布局与背景,不仅用于照片生成,也适用于数字产品的视觉设计。
- 你可以快速创建初步设计、线框、活动网站与应用界面模型等。
- 这是一种高性价比的生产方案,特别适合初创公司与小型设计团队。
艺术/创作与个人用途
当然,它也可以纯粹用于“艺术作品”“插画”或“平面设计”。
- 借助文本提示与参考图,在不同情绪与风格中拓展创作边界。
- 也可以使用图像编辑功能,将现有照片自由改造为艺术风格,或尝试奇幻的风景或角色设定。
与现有模型和竞品的差异——为何选择 FLUX.2?
与其他 AI 图像生成模型的比较
当前 AI 图像生成领域有众多模型(开源与商用),包括传统扩散模型与最新竞品。那么,为什么 FLUX.2 如此具有吸引力?原因如下:
- 生成与编辑一体化:许多模型要么专注“生成(文本到图像)”,要么专注“编辑(图像到图像)”。FLUX.2 同时支持两者,实现高度一致的工作流。
- 多参考输入:利用多张参考图,轻松完成产品拍摄与视觉一致性。
- 商业品质与高分辨率:支持 4MP,适用于广告、产品拍摄与印刷。
- 易于本地运行:不依赖云端,可在标准 GPU 上运行,在成本与灵活性上具备优势。
- 灵活的模型选择:提供涵盖标准、商业与研究应用的多种模型,可根据需求与预算选择最合适的方案。
这使得 FLUX.2 成为专业工作流、商业用途、高产能与强调成本与速度项目的强力之选。
最后总结:
FLUX.2 位于一个务实的交汇点:它为需要可控性与可复现性的团队提供开放权重的研究选项,同时为优先低延迟、可预测输出与溯源的团队提供托管、生产级 API。通过同时提供开放与托管的变体(dev/pro/flex),BFL 认识到,不同的工作流——实验、迭代设计与生产——在保真度、速度、自定义与治理之间需要不同的取舍。
开发者可通过 CometAPI 访问 Flux.2 Dev API、Flux.2 Flex API 与 Flux.2 Pro API。首先,可在 Playground 探索 CometAPI 的模型能力。访问前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的优惠,助你快速集成。
准备好了吗?→ Sign up for CometAPI today!
