คุณสมบัติหลัก
Veo 3.1 มุ่งเน้นคุณสมบัติด้านการสร้างคอนเทนต์ที่ใช้งานได้จริง:
- การสร้างเสียงแบบเนทีฟ (บทสนทนา, เสียงบรรยากาศ, SFX) ที่ผสานในเอาต์พุต Veo 3.1 สร้างเสียงแบบเนทีฟ (บทสนทนา + เสียงบรรยากาศ + SFX) ที่จัดแนวกับไทม์ไลน์ภาพ; โมเดลมุ่งรักษาการซิงก์การขยับปากและความสอดคล้องเสียง–ภาพสำหรับบทสนทนาและสัญญาณฉาก
- เอาต์พุตที่ยาวขึ้น (รองรับสูงสุด ~60 วินาที / 1080p เมื่อเทียบกับคลิปสั้นมากของ Veo 3,8s) และลำดับแบบ หลายช็อต ด้วยพรอมป์หลายรายการเพื่อความต่อเนื่องของเรื่องราว
- Scene Extension และโหมด First/Last Frame ที่ขยายหรืออินเตอร์โพเลตฟุตเทจระหว่างคีย์เฟรม
- การแทรกวัตถุและ (กำลังจะมี) การลบวัตถุ และพรีมิตีฟการแก้ไขภายใน Flow
แต่ละข้อด้านบนถูกออกแบบมาเพื่อลดงาน VFX แบบแมนนวล: เสียง และ ความต่อเนื่องของฉาก กลายเป็นเอาต์พุตระดับแรก แทนที่จะเป็นสิ่งที่ถูกนึกถึงภายหลัง
รายละเอียดทางเทคนิค (พฤติกรรมโมเดลและอินพุต)
ตระกูลโมเดลและเวอร์ชันย่อย: Veo อยู่ในตระกูล Veo-3 ของ Google; รหัสโมเดลพรีวิวโดยทั่วไปคือ veo3.1-pro; veo3.1 (เอกสาร CometAPI) รองรับพรอมป์แบบข้อความ, การอ้างอิงภาพ (เฟรมเดี่ยวหรือชุดเฟรม) และเลย์เอาต์แบบหลายพรอมป์ที่มีโครงสร้างสำหรับการสร้างหลายช็อต
ความละเอียดและระยะเวลา: เอกสารพรีวิวระบุเอาต์พุตที่ 720p/1080p พร้อมตัวเลือกสำหรับระยะเวลาที่ยาวขึ้น (สูงสุด ~60s ในการตั้งค่าพรีวิวบางแบบ) และความคมชัดสูงกว่ารุ่น Veo ก่อนหน้า
อัตราส่วนภาพ: 16:9 (รองรับ) และ 9:16 (รองรับ ยกเว้นในบางโฟลว์ที่อ้างอิงภาพ)
ภาษาพรอมป์: ภาษาอังกฤษ (พรีวิว)
ข้อจำกัด API: ข้อจำกัดพรีวิวทั่วไปได้แก่ คำขอ API สูงสุด 10 ครั้ง/นาที ต่อโปรเจ็กต์, วิดีโอสูงสุด 4 รายการต่อคำขอ, และความยาววิดีโอเลือกได้ระหว่าง 4, 6 หรือ 8 วินาที (โฟลว์อ้างอิงภาพรองรับ 8s)
ประสิทธิภาพตามเบนช์มาร์ก
การประเมินภายในของ Google และสรุปสาธารณะรายงานว่ามีความนิยมอย่างมากต่อเอาต์พุตของ Veo 3.1 จากการเปรียบเทียบโดยผู้ประเมินมนุษย์ในตัวชี้วัดอย่างเช่น การสอดคล้องกับข้อความ, คุณภาพภาพ, และ ความสอดคล้องเสียง–ภาพ (งาน text→video และ image→video)
Veo 3.1 ทำได้ผลลัพธ์ระดับล้ำสมัยในการเปรียบเทียบภายในโดยผู้ประเมินมนุษย์ในหลายแกนเชิงวัตถุ — ความนิยมโดยรวม, การสอดคล้องกับพรอมป์ (text→video และ image→video), คุณภาพภาพ, การจัดแนวเสียง–วิดีโอ, และ “ฟิสิกส์ที่สมจริงทางสายตา” บนชุดข้อมูลเบนช์มาร์ก เช่น MovieGenBench และ VBench
ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย
ข้อจำกัด:
- อาร์ติแฟกต์และความไม่สม่ำเสมอ: แม้มีการปรับปรุง แต่สภาพแสงบางแบบ, ฟิสิกส์เชิงละเอียด, และการบดบังที่ซับซ้อนยังอาจก่อให้เกิดอาร์ติแฟกต์; ความสม่ำเสมอของ image→video (โดยเฉพาะช่วงเวลายาว) ดีขึ้นแต่ยังไม่สมบูรณ์แบบ
- ความเสี่ยงข้อมูลผิด / ดีพเฟก: เสียงที่สมบูรณ์ยิ่งขึ้น + การแทรก/ลบวัตถุเพิ่มความเสี่ยงการใช้ในทางที่ผิด (เสียงปลอมที่สมจริงและคลิปที่ยืดขยาย) Google ระบุวิธีบรรเทา (นโยบาย, มาตรการป้องกัน) และการเปิดตัว Veo ก่อนหน้าอ้างอิงการวอเตอร์มาร์ก/SynthID เพื่อช่วยด้านแหล่งที่มา; อย่างไรก็ตาม มาตรการทางเทคนิคไม่สามารถขจัดความเสี่ยงการใช้ในทางที่ผิดได้
- ข้อจำกัดด้านต้นทุนและปริมาณงาน: วิดีโอความละเอียดสูงและยาวมีค่าใช้จ่ายด้านคอม퓨ท์สูง และปัจจุบันถูกกำหนดสิทธิ์ในพรีวิวแบบเสียค่าใช้จ่าย—คาดว่าจะหน่วงและมีต้นทุนสูงกว่าโมเดลภาพ โพสต์ชุมชนและกระทู้ฟอรั่มของ Google กล่าวถึงช่วงเวลาเปิดให้ใช้และกลยุทธ์สำรอง
การควบคุมความปลอดภัย: Veo3.1 มีนโยบายเนื้อหาแบบบูรณาการ, สัญญาณการวอเตอร์มาร์ก/SynthID ในการออกก่อนหน้า, และการควบคุมการเข้าถึงพรีวิว; ลูกค้าควรปฏิบัติตามนโยบายแพลตฟอร์มและดำเนินการทบทวนโดยมนุษย์สำหรับเอาต์พุตที่มีความเสี่ยงสูง
กรณีใช้งานจริง
- การสร้างต้นแบบอย่างรวดเร็วสำหรับผู้สร้าง: สตอรีบอร์ด → คลิปหลายช็อตและอนิเมติกพร้อมบทสนทนาแบบเนทีฟสำหรับการรีวิวเชิงสร้างสรรค์ช่วงต้น
- การตลาดและคอนเทนต์รูปแบบสั้น: สปอตสินค้า 15–60s, คลิปโซเชียล, และทีเซอร์แนวคิด ในกรณีที่ความเร็วสำคัญกว่าความสมจริงระดับโฟโตเรียลลิสติกที่สมบูรณ์แบบ
- การดัดแปลงภาพ→วิดีโอ: เปลี่ยนภาพประกอบ, ตัวละคร, หรือสองเฟรมให้เป็นทรานซิชันที่ลื่นไหลหรือฉากแอนิเมชันผ่าน First/Last Frame และ Scene Extension
- การเสริมศักยภาพเครื่องมือ: ผสานเข้ากับ Flow สำหรับการแก้ไขแบบวนซ้ำ (การแทรก/ลบวัตถุ, พรีเซ็ตแสง) ที่ช่วยลดขั้นตอน VFX แบบแมนนวล
การเปรียบเทียบกับโมเดลชั้นนำอื่นๆ
Veo 3.1 vs Veo 3 (รุ่นก่อนหน้า): Veo 3.1 มุ่งเน้นการยึดตามพรอมป์ที่ดีขึ้น, คุณภาพเสียง, และความสม่ำเสมอของหลายช็อต — การอัปเดตแบบค่อยเป็นค่อยไปแต่มีผลชัดเจน มุ่งลดอาร์ติแฟกต์และปรับปรุงความสามารถในการแก้ไข
Veo 3.1 vs OpenAI Sora 2: รายงานในสื่อกล่าวถึงการแลกเปลี่ยนข้อดีข้อเสีย: Veo 3.1 เน้นการควบคุมเรื่องราวรูปแบบยาว, เสียงแบบบูรณาการ, และการผสานการตัดต่อกับ Flow; Sora 2 (เมื่อเทียบในสื่อ) มุ่งจุดแข็งที่ต่างกัน (ความเร็ว, พายป์ไลน์การตัดต่อที่ต่างกัน) TechRadar และสำนักอื่นๆ มองว่า Veo 3.1 เป็นคู่แข่งที่ Google ตั้งเป้าไว้สำหรับการสนับสนุนเนื้อเรื่องและวิดีโอที่ยาวกว่า การทดสอบแบบเทียบข้างกันอย่างอิสระยังมีจำกัด