Tham chiếu nhiều hình ảnh với Flux.1 Kontext: Hướng dẫn từng bước

Khả năng "tham chiếu đa hình ảnh" của Flux.1 Kontext đại diện cho một bước chuyển đổi mô hình trong cách các quy trình chỉnh sửa và tạo hình ảnh do AI điều khiển xử lý nhiều đầu vào hình ảnh. Bằng cách cho phép người sáng tạo đưa nhiều hình ảnh tham chiếu cùng lúc, Flux.1 Kontext có thể duy trì phong cách, tư thế và ánh sáng nhất quán trên tất cả các đầu vào—cho phép chỉnh sửa hàng loạt thống nhất, chuyển đổi phong cách nhất quán và bố cục cảnh phức tạp. Dưới đây, chúng tôi sẽ khám phá nền tảng, những đột phá gần đây và các phương pháp hay nhất để làm chủ xử lý tham chiếu đa hình ảnh với Flux Kontext.

Flux.1 Kontext là gì và tại sao nó lại thay đổi hoàn toàn việc chỉnh sửa hình ảnh?

Flux.1 Kontext đại diện cho những tiến bộ mới nhất trong việc tạo và chỉnh sửa hình ảnh đa phương thức, được xây dựng dựa trên dòng Flux của các mô hình biến áp dựa trên dòng chảy. Các mô hình Flux—do Black Forest Labs phát triển—dựa trên các khối biến áp dòng chảy đã được chỉnh lưu, có khả năng mở rộng lên đến 12 tỷ tham số để mang lại khả năng tổng hợp và chỉnh sửa văn bản thành hình ảnh với độ trung thực cao. Không giống như các quy trình chuyển đổi văn bản thành hình ảnh truyền thống, Flux.1 Kontext mở rộng những nền tảng này bằng cách cho phép trong ngữ cảnh biên tập: người dùng có thể cung cấp không chỉ lời nhắc văn bản mà còn một hoặc nhiều hình ảnh tham chiếu, cho phép mô hình hiểu các khái niệm trực quan về mặt ngữ nghĩa và áp dụng chúng vào các đầu ra mới.

Ý nghĩa của Flux.1 Kontext nằm ở kiến trúc thống nhất của nó—được gọi là khớp dòng sinh sản—xử lý cả hai chỉnh sửa cục bộ (ví dụ, thay đổi màu sắc của một đối tượng trong ảnh) và những chuyển đổi toàn cầu (ví dụ: tạo góc nhìn mới cho một cảnh) trong một mô hình duy nhất. Điều này loại bỏ nhu cầu chỉnh sửa và tạo mô hình riêng biệt, hợp lý hóa quy trình làm việc và giảm thiểu việc chuyển đổi ngữ cảnh cho các chuyên gia sáng tạo.

Có những biến thể Flux.1 Kontext nào?

Flux.1 Kontext có ba biến thể chính, mỗi biến thể đáp ứng các trường hợp sử dụng và mô hình cấp phép riêng biệt:

Flux.1Kontext Dev: Một mô hình có sẵn mã nguồn theo giấy phép phi thương mại, chủ yếu được thiết kế để thử nghiệm và tích hợp vào quy trình làm việc được hỗ trợ bởi GPU cục bộ.
Flux.1 Kontext Pro: Một mô hình độc quyền, có thể truy cập qua API, cung cấp hiệu suất cấp ngành, kết quả nhất quán và hỗ trợ thương mại.
Flux.1 KonContext Max: Gói cao cấp với khả năng xử lý kiểu chữ được cải tiến, thông lượng tối đa và độ trung thực trong trường hợp ngoại lệ được cải thiện.

Cùng nhau, các biến thể này đảm bảo rằng cả nhà nghiên cứu và người dùng doanh nghiệp đều có thể tận dụng khả năng chỉnh sửa đa phương thức, cho dù họ ưu tiên khả năng tùy chỉnh hay tính ổn định của sản xuất.

“Tham chiếu nhiều hình ảnh” trong Flux.1 Kontext là gì?

Tham chiếu đa hình ảnh đề cập đến quá trình cung cấp nhiều hình ảnh mẫu cho mô hình AI để nó có thể suy ra các đặc điểm chung—chẳng hạn như phong cách, ánh sáng hoặc đặc điểm chủ thể—và áp dụng các chỉnh sửa nhất quán hoặc tạo nội dung mới tôn trọng các đặc điểm đó trên tất cả các đầu vào. Không giống như điều kiện hóa hình ảnh đơn lẻ, phương pháp này cho phép người sáng tạo áp dụng tính đồng nhất trong các đầu ra hàng loạt, giảm thiểu việc chỉnh sửa thủ công và đảm bảo tính nhất quán về mặt hình ảnh.

Flux.1Kontext triển khai tham chiếu nhiều hình ảnh như thế nào?

Cốt lõi của khả năng đa hình ảnh của Flux.1 Kontext là khớp dòng chảy Khung. Thay vì xử lý từng ảnh tham chiếu riêng lẻ, Flux.1 Kontext nối các nhúng ảnh và mã thông báo văn bản thành một chuỗi thống nhất. Sau đó, một bộ so khớp luồng dựa trên bộ biến đổi sẽ học cách căn chỉnh và hợp nhất các nhúng này trong không gian tiềm ẩn, từ đó nắm bắt hiệu quả cả ngữ nghĩa hình ảnh riêng lẻ và ngữ nghĩa hình ảnh chung.

Các phương pháp đa tham chiếu thông thường thường sử dụng nhúng trung bình hoặc dựa vào tinh chỉnh mạnh (ví dụ: LoRA). Phương pháp khớp luồng của Flux.1 Kontext:

Duy trì tính nhất quán qua nhiều lượt, duy trì bản sắc và phong cách của đối tượng.
Giảm sự suy thoái, điều này phổ biến trong các quy trình chỉnh sửa lặp đi lặp lại.
Hỗ trợ tỷ lệ tương tác, cho phép xem trước gần như thời gian thực trong các ứng dụng.

Quy trình làm việc nào cho phép tích hợp nhiều hình ảnh với Flux.1 Kontext?

Thiết kế của Flux.1 Kontext đảm bảo tích hợp liền mạch vào cả các quy trình dựa trên GUI và dựa trên mã:

Tích hợp ComfyUI

Bằng cách tận dụng giao diện dựa trên node của ComfyUI, người dùng có thể đưa nhiều hình ảnh tham chiếu trực tiếp vào một node chuyên dụng "Flux.1 Kontext Dev". Node này chấp nhận một danh sách hình ảnh cùng với một lời nhắc văn bản, xuất ra kết quả đồ thị khuếch tán thống nhất. Có hai chế độ chính:

Chế độ nối: Thêm nhúng tuần tự, lý tưởng cho các tác vụ tổng hợp đơn giản.
Chế độ chú ý chéo: Xen kẽ các bản đồ chú ý để có sự pha trộn ngữ nghĩa sâu hơn, thích hợp cho việc kết hợp phong cách phức tạp.
Các mẹo nhanh—chẳng hạn như chỉ định trọng số cho mỗi hình ảnh và mã thông báo pha trộn đường nối—giúp ngăn ngừa sự thay đổi màu sắc và các mối nối có thể nhìn thấy ().

Phương pháp API-First (Replicate, CometAPI)

Các nhà phát triển có thể tương tác với Flux.1 Kontext Max hoặc Pro thông qua các điểm cuối RESTful. Sơ đồ API thường bao gồm:

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

Hỗ trợ Playground và SDK trong JavaScript, Python và Go giúp dễ dàng kết hợp xử lý nhiều hình ảnh vào ứng dụng web hoặc di động.

Tham chiếu nhiều hình ảnh với API Flux.Kontext của CometAPI

Dưới đây là hướng dẫn từng bước để gửi yêu cầu tham chiếu nhiều hình ảnh đến API FLUX 1 Kontext. Hướng dẫn bao gồm xác thực, xây dựng yêu cầu (với hai hình ảnh tham chiếu), xử lý kết quả và các phương pháp hay nhất.

1. Làm thế nào để xác thực với API FLUX.1 Kontext?

Nếu bạn đang sử dụng ứng dụng FLUX 1 Kontext được lưu trữ trên Replicate, hãy đăng nhập tại Replicate → tài khoản của bạn → Mã thông báo API.

Nhận khóa API của bạn: Đăng ký và Đăng nhập Sao chổiAPI, lấy mã thông báo người mang của bạn từ bảng điều khiển.

Bao gồm khóa trong tiêu đề của bạn Authorization: Token YOUR_API_TOKEN hoặc, đối với API kiểu người mang: Authorization: Bearer YOUR_API_TOKEN

2. Điểm cuối nào xử lý việc hợp nhất hai hình ảnh?

Đối với mô hình “kết hợp hai hình ảnh” trên Replicate (flux-kontext-apps/multi-image-kontext-pro), gửi BÀI ĐĂNG của bạn tới:

https://api.replicate.com/v1/predictions

Đối với API được quản lý của CometAPI, sẽ là:

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

Lưu ý: Trong CometAPI, chỉ flux-kontext hỗ trợ nhiều tham chiếu hình ảnh. Để gọi các mô hình khác nhau sau, bạn cần đổi tên mô hình theo mô hình trong url:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

Cả hai điểm cuối đều mong đợi một tải trọng JSON chứa prompt, input_image_1và input_image_2 .

3. Tải trọng yêu cầu trông như thế nào?

Dưới đây là lược đồ JSON tối thiểu được ghi lại cho multi-image-kontext-pro:

Phần	Kiểu	Mô tả Chi tiết
`prompt`	chuỗi	Mô tả văn bản về cách kết hợp hoặc chuyển đổi hai hình ảnh đầu vào
`input_image_1`	chuỗi	URL hoặc URI dữ liệu Base64 của hình ảnh đầu tiên (JPEG/PNG/WebP/GIF)
`input_image_2`	chuỗi	URL hoặc URI dữ liệu Base64 của hình ảnh thứ hai
`aspect_ratio`	liệt kê	(Không bắt buộc) `match_input`, `1:1`, `16:9`, v.v. Mặc định là `match_input`

Mẹo: Bạn có thể truyền các URL được lưu trữ công khai hoặc các URI dữ liệu Base64 nội tuyến—Base64 rất tiện lợi cho các tập lệnh một lần nhưng có thể làm chậm các tệp rất lớn.

Hiện tại CometAPI hỗ trợ tải lên tối đa 4 hình ảnh tham chiếu (trước đây chỉ hỗ trợ một hình ảnh)

4. Làm thế nào để gửi yêu cầu nhiều hình ảnh bằng cURL?

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'

Thay thế version trường có ID phiên bản mô hình mới nhất từ Replicate.
Trên CometAPI, hoán đổi trong /predict điểm cuối và sử dụng "file": { ... } theo tài liệu của họ.

5. Tôi có thể làm điều tương tự trong Python như thế nào?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)

kiểm tra data (“bắt đầu” → “đang xử lý” → “thành công”) để thăm dò cho đến khi sẵn sàng.

6. Tôi xử lý và hiển thị kết quả như thế nào?

Khi dự đoán hoàn tất, mô hình sẽ trả về URI cho hình ảnh đã hợp nhất:

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

Lấy URL đó (hoặc nhúng trực tiếp vào ứng dụng/UI của bạn).

Làm thế nào để tối đa hóa kết quả: phương pháp hay nhất?

Bạn nên chọn hình ảnh tham khảo nào?

Đồng nhất: Chọn hình ảnh có phong cách, tỷ lệ chủ thể và ánh sáng nhất quán để có sự đồng nhất tối ưu.
Sự đa dạng để chuyển giao phong cách:Khi áp dụng một phong cách mới, hãy đưa vào nhiều ví dụ để thể hiện đầy đủ các hiệu ứng mong muốn.
Đầu vào độ phân giải cao: Tài liệu tham khảo chất lượng tốt hơn mang lại kết quả sắc nét hơn, đặc biệt là đối với các chi tiết nhỏ như kết cấu và đặc điểm khuôn mặt.
Giới hạn kích thước hình ảnh: Giữ mỗi dữ liệu đầu vào dưới 10 MB (Tiêu chuẩn sao chép) để tránh hết thời gian chờ.
Các định dạng: JPEG, PNG, GIF và WebP hoạt động tốt nhất; tránh các định dạng lạ.

Kỹ thuật nhanh chóng:

Hãy nêu rõ ràng: “giữ nguyên các đặc điểm khuôn mặt từ hình ảnh 1”
Sử dụng trọng số: “ưu tiên image1 cao, ưu tiên image2 thấp”
Giới hạn tỷ lệ: Kiểm tra giới hạn QPS của gói của bạn; yêu cầu hàng loạt một cách cẩn thận.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập FLUX.1 Ngữ cảnh (Người mẫu: flux-kontext-pro ; flux-kontext-max) bởi vì Sao chổiAPI, các phiên bản mẫu mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mẫu trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Kết luận

Tham chiếu đa hình ảnh với FLUX 1 Kontext đại diện cho một bước chuyển đổi mô hình trong quy trình làm việc AI tạo hình. Bằng cách hợp nhất văn bản và nhiều đầu vào hình ảnh trong một kiến trúc khớp luồng duy nhất, nó cho phép người sáng tạo đạt được kết quả đầu ra phức tạp, nhất quán chỉ với ít bước hơn. Những đột phá gần đây—từ Image Stitch Node trong ComfyUI đến các tối ưu hóa lượng tử hóa độ chính xác thấp và API CometAPI—đã mở rộng đáng kể khả năng truy cập, hiệu suất và tiềm năng sáng tạo của xử lý đa hình ảnh.