FLUX.2 是 Black Forest Labs 推出的第二代图像生成与图像编辑模型家族(于 2025 年 11 月 25 日发布)。它提供面向生产的照片级真实感、最高 4MP 的多参考编辑、结构化/JSON 提示,以及托管端点(Pro、Flex)与开放权重选项(Dev)。
好消息是,CometAPI 已集成 Flux.2 API。本文将说明 FLUX.2 是什么、如何调用 API,以及高级工作流(文本→图像、灵活控制、多参考编辑),并提供代码示例与最佳实践。
什么是 FLUX.2,以及它为何重要?
FLUX.2 是 FLUX 模型家族的后续版本——专为高保真文本到图像生成与多参考图像编辑而设计,支持生产级分辨率(最高约 4 百万像素)。FLUX.2 面向真实创作工作流(品牌安全的素材、跨参考的一致角色与风格、更好的字体排印与细节),而非演示,旨在缩小生成图像与真实图像之间的差距。
FLUX.2 旨在实现的关键结果
- 适用于广告、产品图像和 UI 模拟的照片级真实输出。
- 原生多参考编辑:在一次编辑中组合、替换或合成来自多个输入图像的元素。
- 针对不同用例的变体:公开可用的开发者模型、为生产优化的 Pro 端点,以及提供低层控制的 Flex 端点。
总体而言,FLUX.2 将潜变量生成骨干(flow/transformer 架构)与视觉—语言模型相结合以进行语义对齐,并通过新训练的 VAE 在各变体之间提供共享的潜空间。该设计使模型能够在更高保真度下完成生成与重建(编辑),同时保持可学习的表示以便训练与微调。开放的 VAE 尤其值得注意,因为它为托管与自托管工作流标准化了潜空间。
重要性在于:将语言与潜变量的流匹配耦合,带来更强的提示遵循能力(因此多部分、组合式指令表现更可预测)、更好的字体排印,以及单一架构即可支持多参考的生成与编辑。对创作者而言,这意味着在复杂指令与混合输入(文本 + 图像)的情况下,输出更可靠。
如何访问 FLUX.2 API?
环境准备
注册并登录 CometAPI,从个人资料面板获取 API 密钥。理想情况下,你应具备一定的开发者 API 知识(我们会在这方面提供帮助,无需担心)。
你还需要选择期望的请求方式以及相应的 Flux.2 模型。
需要哪些端点和身份验证?
Replicate Predictions API 通过标准的 Replicate 格式,提供使用 Black Forest Labs 的各类 FLUX 模型生成高质量图像的能力。该 API 支持范围全面的 FLUX 模型变体,从快速原型到专业级图像生成皆可满足。用户仅需在 URL 路径中更改模型名称(https://api.cometapi.com/replicate/v1/models/{models}/predictions),即可在不同模型之间无缝切换,适用于各种创意与商业应用。
CometAPI 在 https://api.cometapi.com/flux/v1/{model} 下提供托管端点,并将用于图像创建与编辑的端点命名为如 flux-2-pro、flux-2-flex 和 flux-2-flex。请求需要在 x-key 头中提供 API 密钥。
模型家族与算力权衡
- FLUX.2(开放权重) — 适用于需要本地控制、研究实验或在自有基础设施上运行推理的场景。Dev 为开放权重(32B),非常适合探索性研究与微调。它更可配置,但你需要自行负责基础设施与优化。
- FLUX.2 pro — 在速度、质量与成本之间实现最佳平衡,适合生产环境。Pro 针对可预测延迟、一致的提示遵循、快速吞吐进行了调优,并通过 API 支持最多 8 张参考图像(总计 9MP)。用于大规模编辑以及需要可靠性与可预测定价的场景。
- FLUX.2(托管 + 可控性) — 暴露低层生成控制(如
steps、guidance),支持更多参考(最多 10 张),在可以接受更高延迟与成本的情况下提供略高的质量/细节。当你需要最终的创意控制(字体排印保真、精确色彩或高度细致的构图调整)时使用 Flex。
先在 Dev 或低成本 Pro 方案上原型开发,然后在规模化时迁移到 Pro,或在需要高度可控的最终渲染时迁移到 Flex。
如何使用 FLUX.2 API?
请求生命周期(任务 + 轮询模型)
编辑/生成请求的响应是包含 polling_url 与 id 的任务对象;你需要先创建请求,然后通过轮询(或使用 webhook)来获取带签名的结果 URL。签名 URL 有效期较短(通常约 10 分钟),请及时获取输出。
托管 API 遵循异步任务模型:
- 发送 POST 生成请求 → 返回
task id与polling_url,以及预估cost。 - 轮询
polling_url,直到status == "Ready",然后获取图像结果(通常为 base64 或托管 URL)。
示例:Python(requests)— 提交与轮询
import time, requests, os
API_KEY = os.environ
API_URL = "https://api.cometapi.com/flux/v1/flux-2-pro"
payload = {
"prompt": "A high-end product photo of a ceramic mug on a wooden desk, soft window light.",
"width": 1024, "height": 1024, "seed": 42
}
r = requests.post(API_URL, headers={"x-key": API_KEY, "accept":"application/json"}, json=payload)
r.raise_for_status()
task = r.json()
polling_url = task
while True:
time.sleep(0.5)
status_r = requests.get(polling_url, headers={"x-key": API_KEY})
status_r.raise_for_status()
status = status_r.json()
if status == "Ready":
print("Result URL:", status)
break
elif status in ("Error", "Failed"):
print("Generation failed:", status)
break
该模式(提交 → 轮询或 webhook)是托管端点的主要同步/异步流程。
图像编辑 — 最简示例(使用输入 URL 的 curl)
curl -X POST "https://api.cometapi.com/flux/v1/flux-2-pro" \
-H "accept: application/json" \
-H "x-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"prompt": "Replace the background with a sunlit seaside boardwalk, keep the person intact and match lighting",
"input_image": "https://example.com/my-photo.jpg",
"width": 2048,
"height": 1536
}'
对于多参考编辑,可使用 input_image、input_image_2、input_image_3 …(Pro 通过 API 支持最多 8 张参考;Flex 最多 10 张;Dev 根据内存建议最大约 6 张)。
我应发送哪些基础参数?
请求体中的重要字段(图像编辑/生成)包括:
guidance与steps— 提供精细化控制。prompt(字符串)— 最多 32K tokens;可为详细自然语言或结构化 JSON。input_image(字符串)— 编辑时必填(URL 或 base64)。input_image_2…input_image_9— 多参考图像。width/height— 16 的倍数;输出最大 4MP。seed— 整数,用于可复现性。safety_tolerance— 审核/合规模块的严格程度。
如何利用 FLUX.2 Pro 进行专业级文本到图像生成?
FLUX.2 Pro 针对可靠且高质量的输出进行了调优。当你需要品牌级一致性、快速交付与企业级 SLA 时应使用它。
工作流配方 — 生产级图像
- 预处理提示:保持简短的“意图”行 + 结构化属性部分(光线、镜头、氛围、品牌色的十六进制色值)。FLUX.2 支持十六进制颜色引导,有助于保持品牌色板。
- 以保守默认值起步:steps 30–50、guidance 6–9.0;提升 steps 以获得更多细节,提高 guidance 以更严格地遵循提示。
- 使用种子 + 确定性采样以实现可复现的 A/B 测试。
- 使用 Pro 端点进行多次并行采样:一次请求并行生成 N 个变体并择优,比手动调参更省钱更快。
- 后处理:去噪、轻微的色调映射或矢量风格润饰,使用确定性流程。若需高于原生输出分辨率,可考虑小型 GAN 或超分辨率处理。
这些步骤之所以有效:Pro 在速度与保真之间取得平衡,通常还会执行生成后的安全/内容过滤,因此对于面向客户的素材是合理的默认选择。
生成图像的最佳技巧
1. 结构化提示在生产中更胜一筹。 按优先级组织提示:主体 → 动作 → 风格 → 场景。需要在大量图像中实现确定性构图时,使用 JSON 提示(scene、subjects、camera、lighting、color_palette)。示例 JSON 架构用法(伪):
{
"scene": "product shot",
"subjects": [
{"type":"mug","pose":"center","style":"ceramic, matte"},
{"type":"background","style":"wooden desk, window light"}
],
"camera": {"focal_length":"85mm","aperture":"f2.8","angle":"slightly above"}
}
2. 可复现性: 传入 seed 以便复现。维护提示 + 种子 → 图像的映射目录,便于追溯。
3. 批处理与编排: 大规模生产时并行提交大量请求到 Pro,但要限流以避免限速;为可预测延迟优先选择 Pro 端点。使用作业队列与工作池,在就绪后尽快下载签名结果。
4. 审核与安全: 使用 safety_tolerance 控制审核严格度。Pro 端点包含使用策略与内容审核挂钩;发布前集成服务端校验。
5. 后期处理: Pro 输出质量很高,但偶尔需要小幅修饰。在流水线中构建自动化后处理步骤(裁剪、调色、合成),并对品牌敏感素材保留人工审核。
如何使用 FLUX.2 Flex 端点自定义输出?
Flex 是“外科手术刀”式的变体:通过调节 steps、guidance、negative prompts、tile 大小与参考数量,精准塑形输出。
何时选择 Flex
- 你需要精确的字体排印渲染(UI 模拟、标签)。
- 你必须在合成多参考时控制姿态与光线。
- 你在尝试高级提示技术(结构化提示、约束链)。
示例 — Flex 控制键及其影响
steps— 步数越多细节越丰富(以延迟为代价)。guidance_scale— 越高越贴近文本提示,越低越具创意。negative_prompt— 明确移除元素(如“no watermark, no extra fingers”)。tile_size/tiled_inference— 针对超高分辨率生成,通过瓦片推理在内存与速度之间权衡。reference_weights— 某些端点允许给参考图加权,以偏向由哪张图驱动姿态或风格。
实用提示:对复杂构图,先用低步数、低引导的预览验证构图,再用更高步数与更高引导放大。该两次传递技术可降低成本并获得精确的最终输出。
示例:带 steps 与 guidance 的 Flex 请求
curl -X POST "https://api.bfl.ai/v1/flux-2-flex" \
-H "Content-Type: application/json" \
-H "x-key: $BFL_API_KEY" \
-d '{
"prompt": "Cinematic movie poster, bold typography at top, main character centered, dramatic rim lighting",
"width": 1536, "height": 2048,
"steps": 50,
"guidance": 7.5,
"seed": 99999
}'
提示:在最终创意签核时使用 Flex,而在大规模、快速的流水线中使用 Pro。对于字体排印与微细节任务,Flex 的可控性更强。
生产使用的最佳实践
以下是经过实战检验、可在规模化集成 FLUX.2 时采用的模式与务实建议。
1) 通过跟踪百万像素与缓存来控制成本
FLUX.2 的计费基于输入 + 输出的百万像素数。高频生成时,优先选择较小的预览渲染(低分辨率、快速步数),仅在必要时升至更高 MP 的最终渲染。缓存已渲染资产(或存储差分),避免对相同作业重复渲染。始终在响应中显示 cost 并按请求记录日志。
2) 明智地使用层级:预览 vs 最终渲染分离
- 使用快速、低步数的 Pro 渲染进行原型或多变体生成。
- 在需要保真度的最终审核输出中使用 Flex 或高 MP 的 Pro。该混合方式在吞吐量与最终质量之间取得平衡。
3) 提示工程 → 结构化提示与 JSON
当你需要确定性构图(场景对象、相机、姿态、十六进制色板)时,利用 FLUX.2 的结构化 JSON 提示。这能减少迭代提示回合,并带来更可复现的批处理。Cloudflare 的示例展示了将 JSON 提示嵌入 multipart 表单。
4) 种子 + 版本化以实现可复现性
需要可复现结果时,传入 seed 并在元数据中记录模型版本/时间戳。对于确定性资产流水线,保留清单:prompt、seed、模型变体、分辨率、参考图像哈希。这将提升可追溯性与回滚能力。
结语
FLUX.2 旨在真正缩小“令人印象深刻的演示”与“可用于生产的创意工具”之间的差距。借助多参考编辑、高分辨率输出与一组托管端点(外加开放的推理代码与量化的消费者版本),它为团队提供了大量实用选项:在本地运行以进行研究与定制,或使用托管的 Pro/Flex 端点构建稳定的生产流水线。
开发者可通过 CometAPI 访问 Flux.2 Dev API、Flux.2 Flex API 和 Flux.2 Pro API。开始之前,可在 Playground 探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。访问前请确保已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方价格的方案,帮助你集成。
准备好开始了吗?→ 立即注册 CometAPI !
