API ของรันเวย์/gen4_image

CometAPI
AnnaSep 13, 2025
API ของรันเวย์/gen4_image

gen4_image เป็นโมเดลสร้างภาพแบบมัลติโหมดเรือธงของ Runway ในตระกูล Gen-4 ที่รองรับ การสร้างแรงบันดาลใจพร้อมการอ้างอิงภาพ (คุณสามารถ "@mention" รูปภาพอ้างอิงได้) เพื่อสร้างผลลัพธ์สำหรับรูปภาพและไพพ์ไลน์ภาพ→วิดีโอที่ควบคุมได้สูงและสอดคล้องกันในเชิงสไตล์

บทนำ — อะไร ภาพ Gen-4 is

gen4_image คือตระกูลโมเดลสร้างสรรค์ภาพรุ่นที่สี่ของ Runway ที่ออกแบบมาเพื่อ ข้อความแจ้งเตือน + การอ้างอิงภาพ และผลิตภาพนิ่งที่มีความเที่ยงตรงสูงหรือเฟรมที่พร้อมใช้งานสื่อที่เก็บรักษา เอกลักษณ์ และ สไตล์ ครอบคลุมทุกมุมและแสง โมเดลนี้นำเสนอเป็นส่วนหนึ่งของชุด Gen-4 ที่กว้างขึ้น (รวมถึงรูปแบบวิดีโอ เช่น gen4_turbo) และได้รับการออกแบบมาโดยเฉพาะสำหรับ การผลิตเชิงสร้างสรรค์ — เช่น การเรนเดอร์ตัวละครที่สอดคล้องกัน การถ่ายภาพผลิตภัณฑ์ตามขนาด การลองแบบเสมือนจริง และการสร้างทรัพยากรเกม

หัวข้อสำคัญ

  • การสร้างตามการอ้างอิง (1–3 เอกสารอ้างอิง) ใช้ภาพอ้างอิงสูงสุดสามภาพเพื่อให้โมเดลสามารถรักษาเอกลักษณ์ สไตล์ หรือตำแหน่งที่ตั้งไว้ได้ ขณะเปลี่ยนท่าทาง แสง พื้นหลัง ฯลฯ
  • ความเที่ยงตรงของภาพสูง (เอาต์พุตที่พร้อมสำหรับการผลิต) เอาท์พุตมีเป้าหมายความละเอียดสูง (มีตัวเลือก 1080p) พร้อมด้วยรายละเอียดที่โดดเด่นและการควบคุมสไตล์
  • เอกลักษณ์และความสอดคล้องของฉาก ออกแบบมาเพื่อรักษาตัวละครหรือสภาพแวดล้อมเดียวกันให้สอดคล้องกันตลอดหลายรุ่น ซึ่งมีประโยชน์สำหรับภาพแบบหลายช็อตหรือทรัพยากรที่เน้นตัวละคร
  • คำเตือนแบบหลายโหมด (ข้อความ + รูปภาพ) ผสมผสานคำแนะนำภาษาธรรมชาติกับภาพอ้างอิงเพื่อกำหนดองค์ประกอบ อารมณ์ เสื้อผ้า มุมกล้อง ฯลฯ
  • รูปภาพ → รูปภาพบวกข้อความ → เวิร์กโฟลว์รูปภาพ ใช้งานได้ทั้งในรูปแบบภาพต่อภาพ (แก้ไข/แปลง) และข้อความต่อภาพโดยใช้การอ้างอิงเพื่อรักษาความต่อเนื่อง
  • มีระดับประสิทธิภาพ (เทอร์โบ) ให้เลือก รุ่น "Gen-4 Image Turbo" นี้แลกทั้งต้นทุนและความเร็ว (เช่น เร็วกว่าประมาณ 2.5 เท่า) ในขณะที่ยังคงคุณสมบัติที่ขับเคลื่อนด้วยการอ้างอิงไว้
  • การควบคุมและการทำซ้ำได้ ตัวเลือก API ทั่วไปได้แก่ อัตราส่วนภาพที่ตั้งไว้ล่วงหน้า ความละเอียด (720p/1080p) ค่าเริ่มต้นสำหรับการทำซ้ำได้ และแท็กอ้างอิงเพื่อชี้ไปที่อินพุตที่เจาะจง

รายละเอียดทางเทคนิค

Input: ข้อความ/รูปภาพ

ผล: ภาพ

เวิร์กโฟลว์:

  1. อุปกรณ์สำหรับผู้ใช้: ข้อความแจ้งเตือน + รูปภาพอ้างอิง 0–3 ภาพ (และมาสก์ คีย์เฟรม คำแนะนำการเคลื่อนไหวของกล้องที่เป็นทางเลือก)
  2. พรีโพรเซส: การอ้างอิงได้รับการทำให้เป็นมาตรฐานและเข้ารหัส ข้อความถูกทำให้เป็นโทเค็น การฝังข้อมูลอัตลักษณ์/สไตล์จะถูกแยกและแคชเพื่อนำกลับมาใช้ใหม่
  3. ปรับอากาศ: การฝังข้อความและการอ้างอิงจะรวมเข้ากับโครงสร้างหลักแบบมัลติโหมด โดยจะแนบสัญญาณควบคุมเสริม (ท่าทาง ความลึก หน้ากาก) ไว้
  4. การสุ่มตัวอย่าง / การลดสัญญาณรบกวน:ตัวถอดรหัสจะทำงานซ้ำเพื่อลดสัญญาณรบกวน (ขั้นตอนการแพร่กระจาย) เพื่อสร้างภาพ (หรือลำดับเฟรมสำหรับวิดีโอ)

gen4_image — ข้อจำกัดที่เป็นรูปธรรม

กรณีขอบเวลา/การเคลื่อนไหว ผู้วิจารณ์และผู้สร้างรายงานถึงสิ่งประดิษฐ์การเคลื่อนไหวที่เกิดขึ้นเป็นครั้งคราว ไดนามิกเวลาที่แปลกประหลาด (ข้อผิดพลาดในช่วงต้น/ช่วงท้ายของคลิปที่สร้างขึ้น) และความล้มเหลวในท่าเต้นที่มีนักแสดงหลายคนที่ซับซ้อนมาก ทดสอบกับฉากเป้าหมายของคุณ

การคำนวณ ต้นทุน และการเข้าคิว การสร้างภาพ→วิดีโอคุณภาพสูงนั้นใช้ GPU จำนวนมาก ผู้ใช้รายงานเวลาคิวและต้นทุนต่อการเรนเดอร์ซึ่งอาจมีนัยสำคัญสำหรับการผลิตจำนวนมาก ควรวางแผนงบประมาณและปริมาณงานให้เหมาะสม

การแลกเปลี่ยนความคิดสร้างสรรค์กับรูปแบบศิลปะล้วนๆ จุดแข็งของ Gen-4 คือความสม่ำเสมอ หากคุณต้องการผลงานที่มีสไตล์โดดเด่น มีลักษณะเป็นภาพวาด หรือมีลักษณะทางสุนทรียะที่ "น่าประหลาดใจ" Midjourney หรือ SDXL checkpoints ที่ปรับแต่งแล้วอาจสร้างแนวทางทางศิลปะที่คุณต้องการได้

กรณีการใช้งานตามหลักเกณฑ์

  • ขั้นตอนก่อนการผลิตและการสร้างสตอรี่บอร์ด: สร้างตัวละคร/ฉากที่สอดคล้องกับสไตล์ได้อย่างรวดเร็วจากภาพอ้างอิง
  • การตลาดและการสร้างเนื้อหา: การผลิตภาพฮีโร่ คลิปโซเชียลแบบเคลื่อนไหว และทรัพยากรของแคมเปญที่รวดเร็วพร้อมตัวละครแบรนด์ที่สอดคล้องกัน (Runway แสดงรายการตัวอย่างองค์กร รวมถึงทัวร์สดและมิวสิควิดีโอ)
  • การสร้างต้นแบบเกม/สินทรัพย์และการลองใช้งานแบบเสมือนจริง: สร้างมุมกล้องหลาย ๆ มุมชุดแต่งกาย และแนวคิดเกี่ยวกับสภาพแวดล้อมจากชุดอ้างอิงขนาดเล็ก

การเปรียบเทียบกับรุ่นอื่นๆ

  • gen4_image→ ดีที่สุด เมื่อคุณต้องการ ความสอดคล้องของการอ้างอิง/เอกลักษณ์ (ตัวละครตัวเดียวหรือวัตถุที่คงไว้เหมือนกันในทุกช็อต) และเมื่อคุณต้องการ รูปภาพ→วิดีโอ และท่อส่งแบบหลายช็อต
  • DALL·E 3 → ดีที่สุด เพื่อความแม่นยำในการตอบสนองภาพที่แม่นยำและกระบวนการแก้ไขที่ขับเคลื่อนด้วย ChatGPT แบบสนทนา รวมถึงการทำงานด้านความปลอดภัย/ที่มาในตัว
  • SDXL (Stable Diffusion family) → ดีที่สุด เมื่อคุณต้องการโมเดลแบบเปิด การปรับแต่งในระดับท้องถิ่น/แบบกำหนดเอง และการปรับใช้ที่ยืดหยุ่นด้านต้นทุน
  • Midjourney → ดีที่สุด เพื่อการเรนเดอร์ที่มีสไตล์สูงและน่าพึงพอใจทางศิลปะ รวมถึงการตั้งค่าล่วงหน้าที่ขับเคลื่อนโดยชุมชน / การควบคุมแบบ "มีสไตล์"
  • โมเดลประเภท Runway Gen-4 เทียบกับ ByteDance Seedream 4.0 / Google “Nano Banana” การเปิดตัวของคู่แข่งล่าสุด (เช่น Seedream 4.0) เน้นย้ำ การเรนเดอร์ที่รวดเร็วเป็นพิเศษและการจัดการการอ้างอิงหลายรายการ มุ่งเป้าไปที่ผู้สร้างเชิงพาณิชย์ ข้อได้เปรียบของ Runway คือกระบวนการภาพ→วิดีโอที่ผสานรวมอย่างแน่นหนาและการควบคุมที่เน้นการผลิต รวมถึงระบบนิเวศ API และ SDK ที่ครบถ้วนสมบูรณ์

วิธีการโทร gen4_image API จาก CometAPI

ราคา$0.32000

ขั้นตอนที่ต้องดำเนินการ

  • เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
  • รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง
  • รับ url ของเว็บไซต์นี้: https://api.cometapi.com/

ใช้วิธีการ

  1. เลือกปลายทาง “gen4_image” เพื่อส่งคำขอ API และตั้งค่าเนื้อหาคำขอ เมธอดคำขอและเนื้อหาคำขอสามารถดูได้จากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีบริการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย
  2. แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
  3. แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
  4. ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น

CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์ เพื่อการย้ายข้อมูลที่ราบรื่น รายละเอียดสำคัญ  เอกสาร API:

  • ปลายทาง: https://api.cometapi.com/runwayml/v1/text_to_image
  • พารามิเตอร์รุ่น: gen4_image
  • รับรองความถูกต้อง: Bearer YOUR_CometAPI_API_KEY
  • ชนิดของเนื้อหา: application/json .
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \  
--header 'X-Runway-Version: 2024-11-06' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"promptText": "cat",  
"ratio": "1920:1080",  
"seed": 4294967295,  
"model": "gen4_image",  
"referenceImages": ,  
"contentModeration": {  
"publicFigureThreshold": "auto"  
}  
}'

ดูสิ่งนี้ด้วย รันเวย์/องก์สอง

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%