คุณสมบัติหลัก

Veo 3.1 มุ่งเน้นคุณสมบัติด้านการสร้างคอนเทนต์ที่ใช้งานได้จริง:

การสร้างเสียงแบบเนทีฟ (บทสนทนา, เสียงบรรยากาศ, SFX) ที่ผสานในเอาต์พุต Veo 3.1 สร้างเสียงแบบเนทีฟ (บทสนทนา + เสียงบรรยากาศ + SFX) ที่จัดแนวกับไทม์ไลน์ภาพ; โมเดลมุ่งรักษาการซิงก์การขยับปากและความสอดคล้องเสียง–ภาพสำหรับบทสนทนาและสัญญาณฉาก
เอาต์พุตที่ยาวขึ้น (รองรับสูงสุด ~60 วินาที / 1080p เมื่อเทียบกับคลิปสั้นมากของ Veo 3,8s) และลำดับแบบ หลายช็อต ด้วยพรอมป์หลายรายการเพื่อความต่อเนื่องของเรื่องราว
Scene Extension และโหมด First/Last Frame ที่ขยายหรืออินเตอร์โพเลตฟุตเทจระหว่างคีย์เฟรม
การแทรกวัตถุและ (กำลังจะมี) การลบวัตถุ และพรีมิตีฟการแก้ไขภายใน Flow

แต่ละข้อด้านบนถูกออกแบบมาเพื่อลดงาน VFX แบบแมนนวล: เสียง และ ความต่อเนื่องของฉาก กลายเป็นเอาต์พุตระดับแรก แทนที่จะเป็นสิ่งที่ถูกนึกถึงภายหลัง

รายละเอียดทางเทคนิค (พฤติกรรมโมเดลและอินพุต)

ตระกูลโมเดลและเวอร์ชันย่อย: Veo อยู่ในตระกูล Veo-3 ของ Google; รหัสโมเดลพรีวิวโดยทั่วไปคือ veo3.1-pro; veo3.1 (เอกสาร CometAPI) รองรับพรอมป์แบบข้อความ, การอ้างอิงภาพ (เฟรมเดี่ยวหรือชุดเฟรม) และเลย์เอาต์แบบหลายพรอมป์ที่มีโครงสร้างสำหรับการสร้างหลายช็อต

ความละเอียดและระยะเวลา: เอกสารพรีวิวระบุเอาต์พุตที่ 720p/1080p พร้อมตัวเลือกสำหรับระยะเวลาที่ยาวขึ้น (สูงสุด ~60s ในการตั้งค่าพรีวิวบางแบบ) และความคมชัดสูงกว่ารุ่น Veo ก่อนหน้า

อัตราส่วนภาพ: 16:9 (รองรับ) และ 9:16 (รองรับ ยกเว้นในบางโฟลว์ที่อ้างอิงภาพ)

ภาษาพรอมป์: ภาษาอังกฤษ (พรีวิว)

ข้อจำกัด API: ข้อจำกัดพรีวิวทั่วไปได้แก่ คำขอ API สูงสุด 10 ครั้ง/นาที ต่อโปรเจ็กต์, วิดีโอสูงสุด 4 รายการต่อคำขอ, และความยาววิดีโอเลือกได้ระหว่าง 4, 6 หรือ 8 วินาที (โฟลว์อ้างอิงภาพรองรับ 8s)

ประสิทธิภาพตามเบนช์มาร์ก

การประเมินภายในของ Google และสรุปสาธารณะรายงานว่ามีความนิยมอย่างมากต่อเอาต์พุตของ Veo 3.1 จากการเปรียบเทียบโดยผู้ประเมินมนุษย์ในตัวชี้วัดอย่างเช่น การสอดคล้องกับข้อความ, คุณภาพภาพ, และ ความสอดคล้องเสียง–ภาพ (งาน text→video และ image→video)

Veo 3.1 ทำได้ผลลัพธ์ระดับล้ำสมัยในการเปรียบเทียบภายในโดยผู้ประเมินมนุษย์ในหลายแกนเชิงวัตถุ — ความนิยมโดยรวม, การสอดคล้องกับพรอมป์ (text→video และ image→video), คุณภาพภาพ, การจัดแนวเสียง–วิดีโอ, และ “ฟิสิกส์ที่สมจริงทางสายตา” บนชุดข้อมูลเบนช์มาร์ก เช่น MovieGenBench และ VBench

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

ข้อจำกัด:

อาร์ติแฟกต์และความไม่สม่ำเสมอ: แม้มีการปรับปรุง แต่สภาพแสงบางแบบ, ฟิสิกส์เชิงละเอียด, และการบดบังที่ซับซ้อนยังอาจก่อให้เกิดอาร์ติแฟกต์; ความสม่ำเสมอของ image→video (โดยเฉพาะช่วงเวลายาว) ดีขึ้นแต่ยังไม่สมบูรณ์แบบ
ความเสี่ยงข้อมูลผิด / ดีพเฟก: เสียงที่สมบูรณ์ยิ่งขึ้น + การแทรก/ลบวัตถุเพิ่มความเสี่ยงการใช้ในทางที่ผิด (เสียงปลอมที่สมจริงและคลิปที่ยืดขยาย) Google ระบุวิธีบรรเทา (นโยบาย, มาตรการป้องกัน) และการเปิดตัว Veo ก่อนหน้าอ้างอิงการวอเตอร์มาร์ก/SynthID เพื่อช่วยด้านแหล่งที่มา; อย่างไรก็ตาม มาตรการทางเทคนิคไม่สามารถขจัดความเสี่ยงการใช้ในทางที่ผิดได้
ข้อจำกัดด้านต้นทุนและปริมาณงาน: วิดีโอความละเอียดสูงและยาวมีค่าใช้จ่ายด้านคอม퓨ท์สูง และปัจจุบันถูกกำหนดสิทธิ์ในพรีวิวแบบเสียค่าใช้จ่าย—คาดว่าจะหน่วงและมีต้นทุนสูงกว่าโมเดลภาพ โพสต์ชุมชนและกระทู้ฟอรั่มของ Google กล่าวถึงช่วงเวลาเปิดให้ใช้และกลยุทธ์สำรอง

การควบคุมความปลอดภัย: Veo3.1 มีนโยบายเนื้อหาแบบบูรณาการ, สัญญาณการวอเตอร์มาร์ก/SynthID ในการออกก่อนหน้า, และการควบคุมการเข้าถึงพรีวิว; ลูกค้าควรปฏิบัติตามนโยบายแพลตฟอร์มและดำเนินการทบทวนโดยมนุษย์สำหรับเอาต์พุตที่มีความเสี่ยงสูง

กรณีใช้งานจริง

การสร้างต้นแบบอย่างรวดเร็วสำหรับผู้สร้าง: สตอรีบอร์ด → คลิปหลายช็อตและอนิเมติกพร้อมบทสนทนาแบบเนทีฟสำหรับการรีวิวเชิงสร้างสรรค์ช่วงต้น
การตลาดและคอนเทนต์รูปแบบสั้น: สปอตสินค้า 15–60s, คลิปโซเชียล, และทีเซอร์แนวคิด ในกรณีที่ความเร็วสำคัญกว่าความสมจริงระดับโฟโตเรียลลิสติกที่สมบูรณ์แบบ
การดัดแปลงภาพ→วิดีโอ: เปลี่ยนภาพประกอบ, ตัวละคร, หรือสองเฟรมให้เป็นทรานซิชันที่ลื่นไหลหรือฉากแอนิเมชันผ่าน First/Last Frame และ Scene Extension
การเสริมศักยภาพเครื่องมือ: ผสานเข้ากับ Flow สำหรับการแก้ไขแบบวนซ้ำ (การแทรก/ลบวัตถุ, พรีเซ็ตแสง) ที่ช่วยลดขั้นตอน VFX แบบแมนนวล

การเปรียบเทียบกับโมเดลชั้นนำอื่นๆ

Veo 3.1 vs Veo 3 (รุ่นก่อนหน้า): Veo 3.1 มุ่งเน้นการยึดตามพรอมป์ที่ดีขึ้น, คุณภาพเสียง, และความสม่ำเสมอของหลายช็อต — การอัปเดตแบบค่อยเป็นค่อยไปแต่มีผลชัดเจน มุ่งลดอาร์ติแฟกต์และปรับปรุงความสามารถในการแก้ไข

Veo 3.1 vs OpenAI Sora 2: รายงานในสื่อกล่าวถึงการแลกเปลี่ยนข้อดีข้อเสีย: Veo 3.1 เน้นการควบคุมเรื่องราวรูปแบบยาว, เสียงแบบบูรณาการ, และการผสานการตัดต่อกับ Flow; Sora 2 (เมื่อเทียบในสื่อ) มุ่งจุดแข็งที่ต่างกัน (ความเร็ว, พายป์ไลน์การตัดต่อที่ต่างกัน) TechRadar และสำนักอื่นๆ มองว่า Veo 3.1 เป็นคู่แข่งที่ Google ตั้งเป้าไว้สำหรับการสนับสนุนเนื้อเรื่องและวิดีโอที่ยาวกว่า การทดสอบแบบเทียบข้างกันอย่างอิสระยังมีจำกัด

Model name	Tags	Calculate price
veo3.1-all	videos	$0.20000
veo3.1	videos	$0.40000

รหัสโมเดล	คำอธิบาย	ความพร้อมใช้งาน	ราคา	คำขอ
veo3.1-all	เทคโนโลยีที่ใช้เป็นแบบไม่เป็นทางการและการสร้างมีความไม่เสถียร ฯลฯ	✅	$0.2 / per	แชต รูปแบบ
veo3.1	แนะนำ โดยชี้ไปยังโมเดลล่าสุด	✅	$0.4/ per	การสร้างแบบอะซิงโครนัส

Veo 3.1

คุณสมบัติหลัก

รายละเอียดทางเทคนิค (พฤติกรรมโมเดลและอินพุต)

ประสิทธิภาพตามเบนช์มาร์ก

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

ข้อจำกัด:

กรณีใช้งานจริง

การเปรียบเทียบกับโมเดลชั้นนำอื่นๆ

คุณสมบัติสำหรับ Veo 3.1

ราคาสำหรับ Veo 3.1

veo3.1（videos）

โค้ดตัวอย่างและ API สำหรับ Veo 3.1

รุ่นของ Veo 3.1

โมเดลเพิ่มเติม