gen4_image เป็นโมเดลสร้างภาพแบบมัลติโหมดเรือธงของ Runway ในตระกูล Gen-4 ที่รองรับ การสร้างแรงบันดาลใจพร้อมการอ้างอิงภาพ (คุณสามารถ "@mention" รูปภาพอ้างอิงได้) เพื่อสร้างผลลัพธ์สำหรับรูปภาพและไพพ์ไลน์ภาพ→วิดีโอที่ควบคุมได้สูงและสอดคล้องกันในเชิงสไตล์
บทนำ — อะไร ภาพ Gen-4 is
gen4_image คือตระกูลโมเดลสร้างสรรค์ภาพรุ่นที่สี่ของ Runway ที่ออกแบบมาเพื่อ ข้อความแจ้งเตือน + การอ้างอิงภาพ และผลิตภาพนิ่งที่มีความเที่ยงตรงสูงหรือเฟรมที่พร้อมใช้งานสื่อที่เก็บรักษา เอกลักษณ์ และ สไตล์ ครอบคลุมทุกมุมและแสง โมเดลนี้นำเสนอเป็นส่วนหนึ่งของชุด Gen-4 ที่กว้างขึ้น (รวมถึงรูปแบบวิดีโอ เช่น gen4_turbo) และได้รับการออกแบบมาโดยเฉพาะสำหรับ การผลิตเชิงสร้างสรรค์ — เช่น การเรนเดอร์ตัวละครที่สอดคล้องกัน การถ่ายภาพผลิตภัณฑ์ตามขนาด การลองแบบเสมือนจริง และการสร้างทรัพยากรเกม
หัวข้อสำคัญ
- การสร้างตามการอ้างอิง (1–3 เอกสารอ้างอิง) ใช้ภาพอ้างอิงสูงสุดสามภาพเพื่อให้โมเดลสามารถรักษาเอกลักษณ์ สไตล์ หรือตำแหน่งที่ตั้งไว้ได้ ขณะเปลี่ยนท่าทาง แสง พื้นหลัง ฯลฯ
- ความเที่ยงตรงของภาพสูง (เอาต์พุตที่พร้อมสำหรับการผลิต) เอาท์พุตมีเป้าหมายความละเอียดสูง (มีตัวเลือก 1080p) พร้อมด้วยรายละเอียดที่โดดเด่นและการควบคุมสไตล์
- เอกลักษณ์และความสอดคล้องของฉาก ออกแบบมาเพื่อรักษาตัวละครหรือสภาพแวดล้อมเดียวกันให้สอดคล้องกันตลอดหลายรุ่น ซึ่งมีประโยชน์สำหรับภาพแบบหลายช็อตหรือทรัพยากรที่เน้นตัวละคร
- คำเตือนแบบหลายโหมด (ข้อความ + รูปภาพ) ผสมผสานคำแนะนำภาษาธรรมชาติกับภาพอ้างอิงเพื่อกำหนดองค์ประกอบ อารมณ์ เสื้อผ้า มุมกล้อง ฯลฯ
- รูปภาพ → รูปภาพบวกข้อความ → เวิร์กโฟลว์รูปภาพ ใช้งานได้ทั้งในรูปแบบภาพต่อภาพ (แก้ไข/แปลง) และข้อความต่อภาพโดยใช้การอ้างอิงเพื่อรักษาความต่อเนื่อง
- มีระดับประสิทธิภาพ (เทอร์โบ) ให้เลือก รุ่น "Gen-4 Image Turbo" นี้แลกทั้งต้นทุนและความเร็ว (เช่น เร็วกว่าประมาณ 2.5 เท่า) ในขณะที่ยังคงคุณสมบัติที่ขับเคลื่อนด้วยการอ้างอิงไว้
- การควบคุมและการทำซ้ำได้ ตัวเลือก API ทั่วไปได้แก่ อัตราส่วนภาพที่ตั้งไว้ล่วงหน้า ความละเอียด (720p/1080p) ค่าเริ่มต้นสำหรับการทำซ้ำได้ และแท็กอ้างอิงเพื่อชี้ไปที่อินพุตที่เจาะจง
รายละเอียดทางเทคนิค
Input: ข้อความ/รูปภาพ
ผล: ภาพ
เวิร์กโฟลว์:
- อุปกรณ์สำหรับผู้ใช้: ข้อความแจ้งเตือน + รูปภาพอ้างอิง 0–3 ภาพ (และมาสก์ คีย์เฟรม คำแนะนำการเคลื่อนไหวของกล้องที่เป็นทางเลือก)
- พรีโพรเซส: การอ้างอิงได้รับการทำให้เป็นมาตรฐานและเข้ารหัส ข้อความถูกทำให้เป็นโทเค็น การฝังข้อมูลอัตลักษณ์/สไตล์จะถูกแยกและแคชเพื่อนำกลับมาใช้ใหม่
- ปรับอากาศ: การฝังข้อความและการอ้างอิงจะรวมเข้ากับโครงสร้างหลักแบบมัลติโหมด โดยจะแนบสัญญาณควบคุมเสริม (ท่าทาง ความลึก หน้ากาก) ไว้
- การสุ่มตัวอย่าง / การลดสัญญาณรบกวน:ตัวถอดรหัสจะทำงานซ้ำเพื่อลดสัญญาณรบกวน (ขั้นตอนการแพร่กระจาย) เพื่อสร้างภาพ (หรือลำดับเฟรมสำหรับวิดีโอ)
gen4_image — ข้อจำกัดที่เป็นรูปธรรม
กรณีขอบเวลา/การเคลื่อนไหว ผู้วิจารณ์และผู้สร้างรายงานถึงสิ่งประดิษฐ์การเคลื่อนไหวที่เกิดขึ้นเป็นครั้งคราว ไดนามิกเวลาที่แปลกประหลาด (ข้อผิดพลาดในช่วงต้น/ช่วงท้ายของคลิปที่สร้างขึ้น) และความล้มเหลวในท่าเต้นที่มีนักแสดงหลายคนที่ซับซ้อนมาก ทดสอบกับฉากเป้าหมายของคุณ
การคำนวณ ต้นทุน และการเข้าคิว การสร้างภาพ→วิดีโอคุณภาพสูงนั้นใช้ GPU จำนวนมาก ผู้ใช้รายงานเวลาคิวและต้นทุนต่อการเรนเดอร์ซึ่งอาจมีนัยสำคัญสำหรับการผลิตจำนวนมาก ควรวางแผนงบประมาณและปริมาณงานให้เหมาะสม
การแลกเปลี่ยนความคิดสร้างสรรค์กับรูปแบบศิลปะล้วนๆ จุดแข็งของ Gen-4 คือความสม่ำเสมอ หากคุณต้องการผลงานที่มีสไตล์โดดเด่น มีลักษณะเป็นภาพวาด หรือมีลักษณะทางสุนทรียะที่ "น่าประหลาดใจ" Midjourney หรือ SDXL checkpoints ที่ปรับแต่งแล้วอาจสร้างแนวทางทางศิลปะที่คุณต้องการได้
กรณีการใช้งานตามหลักเกณฑ์
- ขั้นตอนก่อนการผลิตและการสร้างสตอรี่บอร์ด: สร้างตัวละคร/ฉากที่สอดคล้องกับสไตล์ได้อย่างรวดเร็วจากภาพอ้างอิง
- การตลาดและการสร้างเนื้อหา: การผลิตภาพฮีโร่ คลิปโซเชียลแบบเคลื่อนไหว และทรัพยากรของแคมเปญที่รวดเร็วพร้อมตัวละครแบรนด์ที่สอดคล้องกัน (Runway แสดงรายการตัวอย่างองค์กร รวมถึงทัวร์สดและมิวสิควิดีโอ)
- การสร้างต้นแบบเกม/สินทรัพย์และการลองใช้งานแบบเสมือนจริง: สร้างมุมกล้องหลาย ๆ มุมชุดแต่งกาย และแนวคิดเกี่ยวกับสภาพแวดล้อมจากชุดอ้างอิงขนาดเล็ก
การเปรียบเทียบกับรุ่นอื่นๆ
- gen4_image→ ดีที่สุด เมื่อคุณต้องการ ความสอดคล้องของการอ้างอิง/เอกลักษณ์ (ตัวละครตัวเดียวหรือวัตถุที่คงไว้เหมือนกันในทุกช็อต) และเมื่อคุณต้องการ รูปภาพ→วิดีโอ และท่อส่งแบบหลายช็อต
- DALL·E 3 → ดีที่สุด เพื่อความแม่นยำในการตอบสนองภาพที่แม่นยำและกระบวนการแก้ไขที่ขับเคลื่อนด้วย ChatGPT แบบสนทนา รวมถึงการทำงานด้านความปลอดภัย/ที่มาในตัว
- SDXL (Stable Diffusion family) → ดีที่สุด เมื่อคุณต้องการโมเดลแบบเปิด การปรับแต่งในระดับท้องถิ่น/แบบกำหนดเอง และการปรับใช้ที่ยืดหยุ่นด้านต้นทุน
- Midjourney → ดีที่สุด เพื่อการเรนเดอร์ที่มีสไตล์สูงและน่าพึงพอใจทางศิลปะ รวมถึงการตั้งค่าล่วงหน้าที่ขับเคลื่อนโดยชุมชน / การควบคุมแบบ "มีสไตล์"
- โมเดลประเภท Runway Gen-4 เทียบกับ ByteDance Seedream 4.0 / Google “Nano Banana” การเปิดตัวของคู่แข่งล่าสุด (เช่น Seedream 4.0) เน้นย้ำ การเรนเดอร์ที่รวดเร็วเป็นพิเศษและการจัดการการอ้างอิงหลายรายการ มุ่งเป้าไปที่ผู้สร้างเชิงพาณิชย์ ข้อได้เปรียบของ Runway คือกระบวนการภาพ→วิดีโอที่ผสานรวมอย่างแน่นหนาและการควบคุมที่เน้นการผลิต รวมถึงระบบนิเวศ API และ SDK ที่ครบถ้วนสมบูรณ์
วิธีการโทร gen4_image API จาก CometAPI
| ราคา | $0.32000 |
ขั้นตอนที่ต้องดำเนินการ
- เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
- รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง
- รับ url ของเว็บไซต์นี้: https://api.cometapi.com/
ใช้วิธีการ
- เลือกปลายทาง “gen4_image” เพื่อส่งคำขอ API และตั้งค่าเนื้อหาคำขอ เมธอดคำขอและเนื้อหาคำขอสามารถดูได้จากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีบริการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย
- แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
- แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
- ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์ เพื่อการย้ายข้อมูลที่ราบรื่น รายละเอียดสำคัญ เอกสาร API:
- ปลายทาง:
https://api.cometapi.com/runwayml/v1/text_to_image - พารามิเตอร์รุ่น:
gen4_image - รับรองความถูกต้อง:
Bearer YOUR_CometAPI_API_KEY - ชนิดของเนื้อหา:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
ดูสิ่งนี้ด้วย รันเวย์/องก์สอง
