什么是 Flux.2,以及 Flux 2 现已在 CometAPI 上可用

CometAPI
AnnaNov 26, 2025
什么是 Flux.2,以及 Flux 2 现已在 CometAPI 上可用

FLUX.2 是 Black Forest Labs 新近发布的一系列图像生成与编辑模型,提供生产级保真度、可进行多参考编辑(最多 10 个参考),并包含可部署的多个变体,从开源权重的 Dev 到生产级 Pro 以及可控的 Flex 层。

什么是 FLUX.2?

FLUX.2 是 Black Forest Labs 面向生产级的图像生成与编辑产品家族,融合了多参考条件、重构的潜空间(VAE)以及先进的控制原语(十六进制颜色引导、JSON 提示、姿态引导),为创意与商业工作流提供一致且高保真的结果。它在单一模型家族中同时支持文本→图像生成和多参考图像编辑,BFL 提供托管的 API 端点以及开放权重工件,支持研究与本地推理。该产品通过多个渠道分发:面向研究者/开发者的开放权重(FLUX.2)、托管的生产模型如 Flux.2 Pro,以及可定制的托管端点如 Flux.2 Flex

关键能力

  • 多参考编辑:在保持身份与风格一致性的前提下,将最多 8–10 张参考图像组合为单一输出。对广告、产品样机或角色在多种创意变体中的连续性尤其有用。
  • 高分辨率(最高 4MP):输出最高可达 4 兆像素(例如 2048×2048 及更大,取决于纵横比)。
  • 拟真与精细细节:相较早期开源模型,在手部、面部、纹理与空间推理方面有所提升。
  • 结构化提示与 JSON 提示:FLUX.2 支持结构化/JSON 提示,自然映射到 UI 控件(scene、subjects[]、style、lighting、camera),实现可编程与可复现实代。
  • 排版与颜色保真:文本渲染表现出色,并可进行精确的颜色(十六进制)引导,适用于注重品牌的工作流。
  • 内容溯源与安全:Pro API 会为生成图像附加加密签名的 C2PA 元数据,并对不允许的内容类别实施分层过滤。

Pro vs Flex vs Dev:应该选择哪个模型?

变体时延与成本质量控制与特性多参考
FLUX.2为低时延优化(典型 API 部署下 <10s),包含内容过滤与用于溯源的加密签名 C2PA 元数据。最高(4MP,最佳保真度)功能完整,生产级 SLA最多 8(API,9MP 限制)
FLUX.2时延高于 pro,但开放可调的推理超参数(步数、引导系数等)可在保真度与多样性之间调节;可调整推理步数、引导系数及其他采样控制,以平衡质量/速度。最多 10
FLUX.2取决于硬件强(开源权重)完整编辑 + 多参考;开放检查点建议最多 6
FLUX.2边缘/低资源中等(蒸馏版)快速,显存占用小

选择建议

  • 当你必须本地运行、需要算法研究或需要开源权重的定制(并接受较高硬件需求)时,选择 dev。
  • 当你需要可预测、低时延的生产图像,并内置安全与溯源功能时,选择 pro。
  • 当你迭代生成超参数(调步数、引导系数等)并希望通过托管端点获得这些控制时,选择 flex。

FLUX.2 如何工作?

FLUX.2 融合了三大架构要素:

1. 流匹配/校正流 Transformer 主干

核心上,FLUX.2 采用在学习到的潜空间中运行的流匹配/校正流 Transformer 架构(在某些生产管线中是对扩散的现代替代)。该主干带来高保真渲染与空间推理,提升多参考条件下的一致性。“流匹配”方法相较经典扩散在采样速度与保真度上提供不同权衡。

2. 新的变分自编码器(VAE)

专门构建的自编码器将图像压缩为针对 FLUX.2 生成与编辑任务优化的潜表示。BFL 表示该新 VAE 提升了可压缩性与保真度(更好的学习动力学与更高质量的重建,优于前代)。VAE 是实现干净的 4MP 放大与细节改进的关键贡献者。

3. 长上下文视觉-语言模型(VLM)

一个 VLM(公开说明中提及与 Mistral 级视觉-语言编码器相关)提供语言条件与现实世界知识,使提示更忠实、模型更擅长遵循复杂指令(姿态引导、上下文编辑等)。将 VLM 与流式主干结合,使 FLUX.2 能在更大上下文窗口中推理构图与语义。

这些组件如何协作(运行时流程)

  1. 编码输入:参考图像通过 VAE 编码为潜令牌;文本提示由 VLM 编码。
  2. 跨模态融合:Transformer 主干摄取图像潜表示与文本令牌,建模空间关系、身份特征与编辑指令。
  3. 基于流的生成:校正流采样器在融合表示的条件下生成或编辑潜空间图像。
  4. 解码:VAE 将潜表示解码回像素空间,可选地应用最终颜色约束与水印/C2PA 元数据。

架构为何重要

这种组合带来三大实际优势:(1)多参考一致性,因为在潜空间中显式建模了身份与风格;(2)更好的文本与排版表现,得益于 VLM 与图像潜空间的更紧密耦合;(3)可扩展的部署选项——同一模型家族可作为本地使用的开放权重(dev)、托管的低时延服务(pro),或面向开发者的可调服务(flex)交付。

FLUX.2 表现如何?

基准测试表现

Black Forest Labs 发布了对比评测与图表,显示 FLUX.2 在多人偏好/胜率测试以及 ELO 与成本分析中优于若干开源同代模型。公开的厂商/媒体摘要中的亮点包括:

  • 文本→图像胜率:FLUX.2 报告约 ≈66.6% 胜率(对比 ~51.3% 的 Qwen-Image、48.1% 的 Hunyuan Image 3.0)。
  • 单参考编辑:约 ≈59.8% 胜率(对比 ~49.3% 的 Qwen-Image、41.2% 的 FLUX.1 Kontext)。
  • 多参考编辑:约 ≈63.6% 胜率(对比 Qwen-Image 的 ~36.4%)。
  • ELO 与成本:FLUX.2 家族(Pro、Flex、Dev)聚集在高质量、相对低成本带(ELO ≈1030–1050,且在厂商定价图中每张图约 ~2–6 美分)。

多参考生成

FLUX.2 最大的特性之一是能够使用多张参考图像生成多个一致的输出。

例如,在拍摄产品时,你可以上传多张不同角度、不同光照和不同背景的照片,并一次性生成同一产品的多种变体。

这一功能可让你快速批量生成电商网站的商品目录照片、广告横幅、社交媒体图集等。

与传统的单图生成不同,多参考机制非常适合强调一致性与完整性的真实世界工作流。

高分辨率、商用品质(最高 4MP)

FLUX.2 支持最高 4 兆像素输出(约 2000–3000 像素),提供适用于广告、印刷、标识与海报等实际应用的图像质量。

它能出色处理文本、标志、UI 样稿、信息图等,不仅适合艺术创作,也适合设计与商业用途。

同时,字体与文本的渲染质量也得到提升,适合制作广告横幅与产品标签。

支持本地 GPU 执行:低成本、低门槛

迄今为止,许多高性能图像生成模型仅在拥有海量算力的数据中心中才具备实用性。然而,FLUX.2 针对标准 GPU(如 NVIDIA RTX)进行了优化,显存占用更低。

模型无需再通过云端访问;它们可以在本地进行编辑与生成,显著降低成本并提升运营灵活性。

这不仅对企业是重大优势,对个人创作者与小团队同样如此。

统一的创作与编辑流程

FLUX.2 不仅支持文本到图像(text → 图像生成),也支持图像到图像(编辑与风格化现有图像)。

这使你能始终使用同一模型完成“从零绘制新图”、“编辑与修饰已有照片”、“复用多张图像以创建统一变体”等任务。

例如,轻松将产品照片的背景替换为不同氛围,或针对社交媒体调整尺寸。

如何访问 Flux.2 API

我们很高兴地宣布 CometAPI 已集成 Flux.2 API。现已支持 Replicate 格式模型(价格低于 Replicate 官方),FLUX.2 端点:

  • black-forest-labs/flux-2-pro
  • black-forest-labs/flux-2-dev
  • black-forest-labs/flux-2-flex

立即开始构建 Create Predictions – API Doc,

想先试试? 在注册并登录 CometAPI 后,可在我们的 playground 体验 FLUX.2,如果你想立即通过 API 开始构建Create Predictions – API Doc

FLUX.2 不仅仅是又一次模型发布;它是一种面向家族级产品的策略,直面生产现实:保真度、可编辑性、多参考一致性,以及务实的部署路径(托管 API 与开放检查点)。对于规模化生产视觉内容的组织而言,若能将技术落地与完善的授权治理及质量控制结合,FLUX.2 有望带来显著的生产力提升。

FLUX.2 的主要用途与适用场景

产品视觉/电商目录制作

电商企业与品牌对多角度、不同光照、背景与色彩模式的产品照片有大量需求。

  • 使用 FLUX.2,你可以在无需实际拍摄的情况下快速生成多种视觉一致的效果。
  • 这样可在降低摄影成本、时间与管理成本的同时,快速扩展产品目录。

广告与营销素材制作

设计素材的需求广泛,包含广告横幅、社交媒体配图、促销活动视觉与公关海报等。

  • 只需提供文本描述即可获得具备所需风格、构图与氛围的图像,大幅减轻设计师与广告从业者的负担。
  • 此外,由于可用多参考图像生成变体,也适用于创意 A/B 测试以及面向多语种与多地区的素材制作。

用户界面/用户体验设计、原型制作

FLUX.2 也支持编辑标志、字体、布局与背景,不仅适用于照片生成,也适用于数字产品的视觉设计。

  • 你可以快速创建初步设计、线框、活动网站、应用界面样稿等。
  • 这是一种具成本效益的生产方案,尤其适合初创公司和小型设计团队。

艺术/创意作品与个人使用

当然,它也可纯用于“艺术作品”、“插画”或“平面设计”。

  • 通过文本提示与参考图像,以多种情绪与风格创作作品,拓展创意边界。
  • 你也可以利用图像编辑功能,将现有照片自由改造为艺术风格,或试验奇幻景观或角色设计。

与现有模型与竞品的差异——为何选择 FLUX.2?

与其他 AI 图像生成模型的比较

当前 AI 图像生成领域既有传统扩散模型,也有最新的竞品模型。那么,FLUX.2 为什么如此吸引人?原因如下:

  • 生成与编辑一体化:许多模型要么专注“生成(文本到图像)”,要么专注“编辑(图像到图像)”。FLUX.2 同时支持两者,实现高度一致的工作流。
  • 多参考输入:利用多张参考图像,轻松实现产品拍摄与一致的视觉呈现。
  • 商业质量与高分辨率:支持 4MP,适用于广告、产品摄影与印刷。
  • 易于本地运行:不依赖云端,可在标准 GPU 上运行,兼具成本与灵活性优势。
  • 灵活的模型选择:提供覆盖标准、商业与研究应用的多种模型,可按需与预算进行选择。

这使 FLUX.2 成为专业工作流、商业使用、大规模生产,以及对成本与速度敏感项目的强力之选。

Final thoughts:

FLUX.2 处于务实的交汇点:它为需要可控性与可复现性的团队提供开放权重的研究选项,同时为优先考虑低时延、可预测输出与溯源的团队提供托管的生产 API。通过同时提供开放与托管变体(dev/pro/flex),BFL 认可不同工作流——实验、迭代设计与生产——在保真度、速度、定制与治理之间需要不同的权衡。

开发者可通过 CometAPI 访问 Flux.2 Dev APIFlux.2 Flex APIFlux.2 Pro API。开始之前,请在 Playground 探索 CometAPI 的模型能力。访问前请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案,帮助你集成。

Ready to Go?→ Sign up for CometAPI today

如果你想了解更多 AI 技巧、指南与新闻,欢迎关注我们的 VKXDiscord

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣