การอ้างอิงหลายภาพด้วย Flux.1 Kontext: คำแนะนำทีละขั้นตอน

ความสามารถ "อ้างอิงหลายภาพ" ของ Flux.1 Kontext แสดงให้เห็นถึงการเปลี่ยนแปลงกระบวนทัศน์ในการแก้ไขและสร้างภาพที่ขับเคลื่อนด้วย AI ในการจัดการอินพุตภาพหลายภาพ ด้วยการอนุญาตให้ผู้สร้างป้อนภาพอ้างอิงหลายภาพพร้อมกัน Flux.1 Kontext จึงสามารถรักษาสไตล์ ท่าทาง และแสงที่สอดคล้องกันในทุกอินพุต ช่วยให้สามารถแก้ไขภาพเป็นชุด ถ่ายโอนสไตล์ที่สอดคล้องกัน และจัดองค์ประกอบฉากที่ซับซ้อนได้ ด้านล่างนี้ เราจะสำรวจรากฐาน ความก้าวหน้าล่าสุด และแนวทางปฏิบัติที่ดีที่สุดสำหรับความเชี่ยวชาญในการประมวลผลภาพอ้างอิงหลายภาพด้วย Flux Kontext

Flux.1 Kontext คืออะไร และเหตุใดจึงเปลี่ยนแปลงการแก้ไขรูปภาพ?

Flux.1 Kontext นำเสนอความก้าวหน้าล่าสุดในการสร้างและแก้ไขภาพแบบหลายโหมด สร้างขึ้นจากแบบจำลองหม้อแปลงแบบไหลในซีรีส์ Flux แบบจำลอง Flux ซึ่งพัฒนาโดย Black Forest Labs ใช้บล็อกหม้อแปลงแบบไหลที่ผ่านการแก้ไขแล้ว ซึ่งสามารถปรับขนาดพารามิเตอร์ได้สูงสุดถึง 12 พันล้านพารามิเตอร์ เพื่อมอบความสามารถในการสังเคราะห์และแก้ไขข้อความเป็นภาพที่มีความเที่ยงตรงสูง Flux.1 Kontext แตกต่างจากไปป์ไลน์ข้อความเป็นภาพแบบเดิม โดยขยายรากฐานเหล่านี้ด้วยการเปิดใช้งาน ในบริบท การแก้ไข: ผู้ใช้สามารถใส่ข้อความแจ้งเตือนได้ไม่เพียงเท่านั้น แต่ยังใส่รูปภาพอ้างอิงหนึ่งรูปหรือมากกว่าหนึ่งรูปได้ด้วย ช่วยให้โมเดลเข้าใจแนวคิดทางภาพในเชิงความหมายและนำไปประยุกต์ใช้กับผลลัพธ์ใหม่ๆ ได้

ความสำคัญของ Flux.1 Kontext อยู่ที่สถาปัตยกรรมแบบรวมที่เรียกว่า การจับคู่การไหลแบบกำเนิด—ซึ่งจัดการทั้งสอง การแก้ไขในท้องถิ่น (เช่น การเปลี่ยนสีของวัตถุในภาพถ่าย) และ การเปลี่ยนแปลงระดับโลก (เช่น การสร้างมุมมองใหม่ของฉาก) ภายในโมเดลเดียว วิธีนี้ช่วยลดความจำเป็นในการแก้ไขและสร้างโมเดลแยกกัน ทำให้เวิร์กโฟลว์มีประสิทธิภาพมากขึ้น และลดการสลับบริบทสำหรับมืออาชีพด้านการสร้างสรรค์

Flux.1 Kontext มีรูปแบบต่างๆ อะไรบ้าง?

Flux.1 Kontext มีรูปแบบหลักสามแบบ โดยแต่ละแบบรองรับกรณีการใช้งานและรูปแบบการออกใบอนุญาตที่แตกต่างกัน:

Flux.1Kontext Dev:โมเดลที่มีแหล่งที่มาภายใต้ใบอนุญาตที่ไม่ใช่เชิงพาณิชย์ ออกแบบมาโดยเฉพาะสำหรับการทดลองและการรวมเข้ากับเวิร์กโฟลว์ที่ขับเคลื่อนด้วย GPU ในเครื่อง
ฟลักซ์.1 คอนเท็กซ์ โปร:โมเดลที่เป็นกรรมสิทธิ์และสามารถเข้าถึง API ได้ซึ่งให้ประสิทธิภาพระดับอุตสาหกรรม ผลลัพธ์ที่สม่ำเสมอ และการสนับสนุนเชิงพาณิชย์
ฟลักซ์.1 คอนเท็กซ์ แม็กซ์:ระดับพรีเมียมพร้อมการจัดการการพิมพ์ที่ได้รับการปรับปรุง ประสิทธิภาพสูงสุด และความเที่ยงตรงของกรณีขอบที่ได้รับการปรับปรุง

เมื่อนำมารวมกันแล้ว รูปแบบต่างๆ เหล่านี้จะช่วยให้ทั้งนักวิจัยและผู้ใช้ระดับองค์กรสามารถใช้ประโยชน์จากการแก้ไขแบบหลายโหมดได้ ไม่ว่าพวกเขาจะให้ความสำคัญกับความสามารถในการปรับแต่งได้หรือความเสถียรของการผลิตก็ตาม

“การอ้างอิงหลายภาพ” ใน Flux.1 Kontext คืออะไร?

การอ้างอิงภาพหลายภาพ หมายถึงกระบวนการจัดหาภาพตัวอย่างหลายภาพให้กับโมเดล AI เพื่อให้สามารถอนุมานคุณลักษณะร่วมกันได้ เช่น สไตล์ แสง หรือเอกลักษณ์ของวัตถุ และใช้การแก้ไขที่สอดคล้องกัน หรือสร้างเนื้อหาใหม่ๆ ที่คำนึงถึงคุณลักษณะเหล่านั้นในทุกอินพุต ซึ่งแตกต่างจากการปรับสภาพภาพภาพเดียว วิธีนี้ช่วยให้ผู้สร้างสามารถบังคับใช้ความสม่ำเสมอในผลลัพธ์แบบกลุ่ม ช่วยลดการแต่งเติมด้วยตนเอง และสร้างความสอดคล้องของภาพ

Flux.1Kontext นำการอ้างอิงหลายภาพไปใช้ได้อย่างไร

หัวใจสำคัญของความสามารถหลายภาพของ Kontext ของ Flux.1 คือ การจับคู่การไหล กรอบการทำงาน แทนที่จะจัดการภาพอ้างอิงแต่ละภาพแบบแยกกัน Flux.1 Kontext จะเชื่อมโยงภาพฝังตัวและโทเค็นข้อความเข้าด้วยกันเป็นลำดับเดียวกัน จากนั้นตัวจับคู่โฟลว์ที่ใช้ตัวแปลงจะเรียนรู้ที่จะจัดตำแหน่งและผสานภาพฝังตัวเหล่านี้ในพื้นที่แฝง ทำให้สามารถบันทึกความหมายภาพทั้งแบบเดี่ยวและแบบร่วมกันได้อย่างมีประสิทธิภาพ

วิธีอ้างอิงหลายรายการแบบเดิมมักจะเฉลี่ยค่าการฝังตัวหรืออาศัยการปรับแต่งอย่างละเอียด (เช่น LoRA) แนวทางการจับคู่การไหลของ Flux.1 Kontext:

รักษาความสม่ำเสมอ ข้ามหลายรอบโดยรักษาเอกลักษณ์และรูปแบบของวัตถุไว้
ลดการเสื่อมสภาพซึ่งเป็นเรื่องปกติในกระบวนการแก้ไขแบบวนซ้ำ
รองรับอัตราแบบโต้ตอบช่วยให้สามารถดูตัวอย่างในแอปพลิเคชันได้แบบเกือบเรียลไทม์

เวิร์กโฟลว์ใดที่ช่วยให้สามารถบูรณาการภาพหลายภาพกับ Flux.1 Kontext ได้

การออกแบบ Kontext ของ Flux.1 ช่วยให้สามารถบูรณาการเข้ากับทั้งระบบที่ใช้ GUI และแบบใช้โค้ดได้อย่างราบรื่น:

การบูรณาการ ComfyUI

ด้วยการใช้อินเทอร์เฟซแบบโหนดของ ComfyUI ผู้ใช้สามารถป้อนภาพอ้างอิงหลายภาพลงในโหนด “Flux.1 Kontext Dev” เฉพาะได้โดยตรง โหนดนี้จะรับรายการภาพพร้อมข้อความแจ้งเตือน ซึ่งจะแสดงผลลัพธ์เป็นกราฟการแพร่กระจายแบบรวม มีสองโหมดหลัก:

โหมดการต่อกัน:ผนวกการฝังแบบต่อเนื่อง เหมาะสำหรับงานคอมโพสิตแบบง่าย
โหมด Cross-Attention:สลับแผนที่ความสนใจเพื่อการผสมผสานความหมายที่ลึกซึ้งยิ่งขึ้น เหมาะสำหรับการรวมสไตล์ที่ซับซ้อน
เคล็ดลับพร้อมท์ เช่น การระบุน้ำหนักของแต่ละภาพและโทเค็นการผสมตะเข็บ ช่วยป้องกันการเปลี่ยนสีและการเชื่อมที่มองเห็นได้ ()

แนวทาง API-First (การจำลอง, CometAPI)

นักพัฒนาสามารถโต้ตอบกับ Flux.1 Kontext Max หรือ Pro ผ่านจุดสิ้นสุด RESTful โดยทั่วไปแล้วรูปแบบ API ประกอบด้วย:

   {
     "input_images": ,
     "prompt": "Describe the desired transformation",
     "options": { "blend_strength": 0.8, "seed": 42 }
   }

การรองรับ Playground และ SDK ใน JavaScript, Python และ Go ทำให้การรวมการปรับสภาพภาพหลายภาพลงในแอปบนเว็บหรือมือถือเป็นเรื่องง่าย

การอ้างอิงหลายภาพด้วย Flux.Kontext api ของ CometAPI

ด้านล่างนี้เป็นคำแนะนำทีละขั้นตอนในการส่งคำขออ้างอิงหลายภาพไปยัง FLUX 1 Kontext API ครอบคลุมการตรวจสอบสิทธิ์ การสร้างคำขอ (พร้อมรูปภาพอ้างอิงสองภาพ) การจัดการผลลัพธ์ และแนวทางปฏิบัติที่ดีที่สุด

1. ฉันจะยืนยันตัวตนด้วย FLUX.1 Kontext API ได้อย่างไร

หากคุณใช้แอป FLUX 1 Kontext ที่โฮสต์โดย Replicate ให้เข้าสู่ระบบที่ Replicate → บัญชีของคุณ → โทเค็น API

รับรหัส API ของคุณ: ลงทะเบียนและเข้าสู่ระบบ โคเมทเอพีไอดึงโทเค็นผู้ถือของคุณจากแดชบอร์ดของคุณ

รวมคีย์ไว้ในส่วนหัวของคุณ Authorization: Token YOUR_API_TOKEN หรือสำหรับ API แบบผู้ถือ: Authorization: Bearer YOUR_API_TOKEN

2. จุดสิ้นสุดใดที่จัดการการรวมภาพสองภาพ?

สำหรับโมเดล "รวมภาพสองภาพ" บน Replicate (flux-kontext-apps/multi-image-kontext-pro) ส่ง POST ของคุณไปที่:

https://api.replicate.com/v1/predictions

สำหรับ API ที่จัดการโดย CometAPI จะเป็นดังนี้:

https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions

หมายเหตุ: ใน CometAPI เฉพาะ flux-kontext เท่านั้นที่รองรับการอ้างอิงรูปภาพหลายรายการ หากต้องการเรียกใช้โมเดลต่างๆ ต่อไปนี้ คุณต้องเปลี่ยนชื่อโมเดลหลังโมเดลใน URL:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro

จุดสิ้นสุดทั้งสองคาดว่าจะมีโหลด JSON ที่ประกอบด้วย prompt, input_image_1และ input_image_2 .

3. เพย์โหลดคำขอมีลักษณะอย่างไร?

ด้านล่างนี้คือโครงร่าง JSON ขั้นต่ำตามที่ระบุไว้สำหรับ multi-image-kontext-pro:

สนาม	ประเภท	รายละเอียด
`prompt`	เชือก	คำอธิบายข้อความเกี่ยวกับวิธีการรวมหรือแปลงภาพอินพุตทั้งสองภาพ
`input_image_1`	เชือก	URL หรือ URI ข้อมูล Base64 ของภาพแรก (JPEG/PNG/WebP/GIF)
`input_image_2`	เชือก	URL หรือ URI ข้อมูล Base64 ของภาพที่สอง
`aspect_ratio`	อีนุม	(ถ้ามี) `match_input`, `1:1`, `16:9`ฯลฯ ค่าเริ่มต้นเป็น `match_input`

เคล็ดลับ: คุณสามารถส่ง URL ที่โฮสต์สาธารณะหรือ URI ข้อมูล Base64 แบบอินไลน์ได้—Base64 สะดวกสำหรับสคริปต์แบบครั้งเดียวแต่ก็อาจทำให้ไฟล์ขนาดใหญ่ทำงานช้าลงได้

ขณะนี้ CometAPI รองรับการอัปโหลดรูปภาพอ้างอิงสูงสุด 4 รูป (ก่อนหน้านี้รองรับเฉพาะรูปภาพเดียว)

4. ฉันจะส่งคำขอหลายภาพด้วย cURL ได้อย่างไร

curl https://api.replicate.com/v1/predictions \
  -H "Authorization: Token $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
      "prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
      "input_image_1": "https://example.com/portrait1.png",
      "input_image_2": "https://example.com/background2.jpg",
      "aspect_ratio": "match_input"
    }
  }'

แทนที่ version ฟิลด์ที่มี ID เวอร์ชันโมเดลล่าสุดจาก Replicate
บน CometAPI ให้สลับใน /predict จุดสิ้นสุดและการใช้งาน "file": { ... } ตามเอกสารของพวกเขา

5. ฉันจะทำสิ่งเดียวกันใน Python ได้อย่างไร?

import requests

API_TOKEN = "YOUR_API_TOKEN"
headers = {
    "Authorization": f"Token {API_TOKEN}",
    "Content-Type": "application/json",
}

payload = {
    "version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
    "input": {
        "prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
        "input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
        "input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
        "aspect_ratio": "match_input"
    },
}

resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)

ตรวจสอบ data (“เริ่มต้น” → “กำลังประมวลผล” → “สำเร็จ”) เพื่อสำรวจจนกว่าจะพร้อม

6. ฉันจะจัดการและแสดงผลลัพธ์อย่างไร?

เมื่อการทำนายเสร็จสมบูรณ์ โมเดลจะส่งคืน URI ไปยังรูปภาพที่รวมเข้าด้วยกัน:

{  
  "id": "...",  
  "status": "succeeded",  
  "output": "https://.../result.png"  
}

ดึง URL นั้น (หรือฝังลงในแอปพลิเคชัน/UI ของคุณโดยตรง)

จะเพิ่มผลลัพธ์สูงสุดได้อย่างไร: แนวทางปฏิบัติที่ดีที่สุด?

คุณควรเลือกภาพอ้างอิงใด?

Homogeneity:เลือกภาพที่มีสไตล์ ขนาดของวัตถุ และแสงสม่ำเสมอเพื่อความสม่ำเสมอที่เหมาะสมที่สุด
ความหลากหลายเพื่อการถ่ายโอนสไตล์:เมื่อใช้รูปแบบใหม่ ควรรวมตัวอย่างต่างๆ ที่แสดงให้เห็นเอฟเฟกต์ที่ต้องการครบถ้วน
อินพุตความละเอียดสูง:การอ้างอิงที่มีคุณภาพดีขึ้นจะทำให้ได้ผลลัพธ์ที่สร้างสรรค์ได้คมชัดยิ่งขึ้น โดยเฉพาะอย่างยิ่งสำหรับรายละเอียดปลีกย่อย เช่น พื้นผิวและคุณลักษณะใบหน้า
ข้อจำกัดขนาดภาพ: จำกัดขนาดอินพุตแต่ละรายการให้ไม่เกิน 10 MB (มาตรฐานการจำลอง) เพื่อหลีกเลี่ยงการหมดเวลา
รูปแบบ: JPEG, PNG, GIF และ WebP ทำงานได้ดีที่สุด หลีกเลี่ยงรูปแบบที่แปลกใหม่

พรอมต์วิศวกรรม:

ให้ชัดเจน: “รักษาลักษณะใบหน้าจากภาพ 1”
ใช้การถ่วงน้ำหนัก: “ลำดับความสำคัญของภาพ 1 สูง ลำดับความสำคัญของภาพ 2 ต่ำ”
ขีดจำกัดอัตรา: ตรวจสอบขีดจำกัด QPS ของแผนของคุณ และขอแบบเป็นกลุ่มอย่างรอบคอบ

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ FLUX.1 บริบท (แบบอย่าง: flux-kontext-pro ; flux-kontext-max) ผ่าน โคเมทเอพีไอรุ่นล่าสุดที่ระบุไว้เป็นข้อมูล ณ วันที่เผยแพร่บทความ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

สรุป

การอ้างอิงหลายภาพด้วย FLUX 1 Kontext ถือเป็นการเปลี่ยนแปลงกระบวนทัศน์ในเวิร์กโฟลว์ของ AI เชิงสร้างสรรค์ ด้วยการรวมข้อความและอินพุตภาพหลายรายการไว้ภายในสถาปัตยกรรมการจับคู่โฟลว์เดียว ช่วยให้ผู้สร้างสามารถสร้างสรรค์ผลลัพธ์ที่ซับซ้อนและสอดคล้องกันในไม่กี่ขั้นตอน ความก้าวหน้าล่าสุด ตั้งแต่ Image Stitch Node ใน ComfyUI ไปจนถึงการเพิ่มประสิทธิภาพการวัดปริมาณความแม่นยำต่ำและ CometAPI API ได้ขยายการเข้าถึง ประสิทธิภาพ และศักยภาพด้านความคิดสร้างสรรค์ของการประมวลผลหลายภาพอย่างมาก