使用 Flux.1 Kontext 的多图参考:分步指南

CometAPI
AnnaJul 31, 2025
使用 Flux.1 Kontext 的多图参考:分步指南

Flux.1 Kontext 的“多图参考”功能代表了 AI 驱动的图像编辑与生成工作流在处理多重视觉输入方式上的范式转变。通过允许创作者同时输入多张参考图,Flux.1 Kontext 能够在所有输入之间保持风格、姿态与光照的一致性——从而实现统一的批量编辑、稳定的风格迁移,以及复杂场景的合成。下文将探讨多图参考处理在 Flux Kontext 中的基础原理、最新突破与最佳实践。

什么是 Flux.1 Kontext,它为何正在改变图像编辑?

Flux.1 Kontext 是基于 Flux 系列流式 Transformer 模型的多模态图像生成与编辑的最新进展。Flux 模型(由 Black Forest Labs 开发)采用整流流 Transformer 模块,参数规模可扩展至 120 亿,以提供高保真文本到图像的合成与编辑能力。与传统的文本到图像流程不同,Flux.1 Kontext 通过支持“在上下文中”的编辑进行扩展:用户不仅可以提供文本提示,还可提供一张或多张参考图,使模型能够语义理解视觉概念并将其应用于全新的输出。

Flux.1 Kontext 的意义在于其统一的架构——称为“生成式流匹配”——可在同一模型中处理“局部编辑”(例如更改照片中某个物体的颜色)与“全局变换”(例如生成场景的新视角)。这消除了对单独的编辑与生成模型的需求,为创意专业人士简化了工作流并减少了情境切换。


Flux.1 Kontext 有哪些不同的变体?

Flux.1 Kontext 主要有三种变体,分别满足不同的用例与授权模式:

  1. Flux.1Kontext Dev:一种在非商业许可下可供源码使用的模型,主要用于本地 GPU 工作流中的试验与集成。
  2. Flux.1 Kontext Pro:一种专有、可通过 API 访问的模型,提供行业级性能、稳定一致的结果与商业支持。
  3. Flux.1 Kontext Max:高级版本,具备增强的字体排版处理、最大吞吐量与更优的边界情况保真度。

这些变体共同确保研究人员与企业用户均可利用多模态编辑,无论他们更看重可定制性还是生产稳定性。

在 Flux.1 Kontext 中,“多图参考”是什么?

多图参考指向 AI 模型提供多张示例图片,使其能够推断出共享特征——如风格、光照或主体身份——并在所有输入中应用一致的编辑或生成尊重这些属性的新内容。与单图条件相比,这种方法使创作者能够在批量输出中强制统一性,减少手动修饰,并确保视觉一致性。

Flux.1Kontext 如何实现多图参考?

Flux.1 Kontext 的多图能力核心是其“流匹配”框架。Flux.1 Kontext 并非将每张参考图孤立处理,而是将图像嵌入与文本标记级联成一个统一序列。基于 Transformer 的流匹配器学习在潜空间对齐并融合这些嵌入,有效捕获个体与联合的视觉语义。

传统的多参考方法通常对嵌入求均值或依赖重型微调(如 LoRA)。Flux.1 Kontext 的流匹配方法:

  • 在多轮操作中保持一致性,维护对象身份与风格。
  • 减少退化,这是迭代编辑流程中的常见问题。
  • 支持交互式速率,使应用中接近实时的预览成为可能。

哪些工作流能够在 Flux.1 Kontext 中实现多图融合?

Flux.1 Kontext 的设计确保了在基于 GUI 和代码驱动的管道中均可无缝集成:

ComfyUI 集成

借助 ComfyUI 的节点式界面,用户可将多张参考图直接输入到专用的“Flux.1 Kontext Dev”节点。该节点接受图像列表与文本提示,并输出统一的扩散图结果。主要有两种模式:

  • 级联模式:按序附加嵌入,适用于简单的合成任务。
  • 交叉注意力模式:交错注意力图以实现更深的语义融合,更适合复杂的风格合并。
    提示词技巧——例如为每张图片指定权重与使用缝合混合标记——有助于防止颜色偏移与可见拼接()。

API 优先方式(Replicate、CometAPI)

开发者可通过 RESTful 端点与 Flux.1 Kontext Max 或 Pro 交互。API 架构通常包括:

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

Playground 与 SDK 在 JavaScript、Python 和 Go 中提供支持,使将多图条件融入网页或移动应用变得简单直接。

使用 CometAPI 的 Flux.Kontext api 进行多图参考

下面是向 FLUX 1 Kontext API 提交多图参考请求的分步指南。内容涵盖认证、请求构造(含两张参考图)、结果处理与最佳实践。


1. 如何在 FLUX.1 Kontext API 中进行认证?

如果使用 Replicate 托管的 FLUX 1 Kontext 应用,请登录 Replicate → 你的账户 → API Tokens。

获取你的 API Key:注册并登录 CometAPI,在仪表盘中获取你的 bearer token。

将密钥包含在请求头中 Authorization: Token YOUR_API_TOKEN,或对于 bearer 风格的 API:Authorization: Bearer YOUR_API_TOKEN


2. 哪个端点处理双图融合?

对于 Replicate 上的“双图合并”模型(flux-kontext-apps/multi-image-kontext-pro),将 POST 请求发送到:

https://api.replicate.com/v1/predictions

对于 CometAPI 的托管 API,则为:

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

提示:在 CometAPI 中,仅 flux-kontext 支持多图参考;要调用以下不同模型,需要在 URL 中的 model 名称后切换为:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

两个端点都期望包含 promptinput_image_1input_image_2 的 JSON 负载。


3. 请求负载是什么样的?

以下是 multi-image-kontext-pro 的最小 JSON 架构(文档所示):

FieldTypeDescription
promptstring文本描述如何组合或变换两张输入图
input_image_1string第一张图片的 URL 或 Base64 data URI(JPEG/PNG/WebP/GIF)
input_image_2string第二张图片的 URL 或 Base64 data URI
aspect_ratioenum(可选)match_input1:116:9 等。默认 match_input

提示:你可以传入公网可访问的 URL 或内联 Base64 data URI——Base64 适合一次性脚本,但对超大文件可能会减慢速度。

现在 CometAPI 已支持上传最多 4 张参考图(此前仅支持单图)。


4. 如何用 cURL 发送多图请求?

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'
  • version 字段替换为 Replicate 最新的模型版本 ID。
  • 在 CometAPI 上,替换为其 /predict 端点,并根据文档使用 "file": { ... }

5. 如何用 Python 实现同样的请求?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)
  • 检查 data(“starting” → “processing” → “succeeded”)并轮询直至完成。

6. 如何处理与展示结果?

当预测完成时,模型会返回融合图片的 URI:

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

获取该 URL(或直接在你的应用/UI 中嵌入)。

如何最大化效果:最佳实践

应该选择哪些参考图?

  • 同质性:选择风格、主体尺度与光照一致的图片,以获得最佳统一性。
  • 风格迁移的多样性:当应用新风格时,包含能展示所需效果完整范围的多样示例。
  • 高分辨率输入:更高质量的参考图可带来更清晰的生成输出,尤其是纹理与面部特征等细节。
  • 图片大小限制:将每个输入控制在 10 MB(Replicate 标准)以下,以避免超时。
  • 格式:JPEG、PNG、GIF 与 WebP 效果最佳;避免使用罕见格式。

提示词工程:

  • 明确表达:“保留 image1 的面部特征”
  • 使用权重:“image1 优先级高,image2 优先级低”
  • 速率限制:检查你的套餐 QPS 限额;合理批量化请求。

入门指南

CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 模型——如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到一个对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 显著简化了将 AI 能力集成到应用中的流程。无论你在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析管道,CometAPI 都能让你迭代更快、控制成本、保持供应商无关性,同时充分利用 AI 生态的最新突破。

开发者可通过 CometAPI 访问 FLUX.1 Kontext(模型:flux-kontext-pro ; flux-kontext-max),文中列示的最新模型版本以文章发表日期为准。开始前,可在 Playground 中探索模型能力,并查阅 API 指南 获取详细说明。在访问之前,请确保已登录 CometAPI 并获得 API Key。CometAPI 提供远低于官方价格的方案来帮助你集成。


结论

使用 FLUX 1 Kontext 进行多图参考代表了生成式 AI 工作流的范式转变。通过在单一的流匹配架构中统一文本与多重视觉输入,它使创作者在更少步骤中实现复杂且一致的输出。近期的突破——从 ComfyUI 的图像拼接节点到低精度量化优化,再到 CometAPI 的 API——显著提升了多图处理的可及性、性能与创意潜力。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣