ข้อกำหนดทาง技术ของ Veo 3.1
| รายการ | Veo 3.1 (ข้อกำหนดสาธารณะ) |
|---|---|
| รหัสรุ่นอย่างเป็นทางการ | veo-3.1-generate-001 |
| ผู้ให้บริการ | Google DeepMind / Google Cloud |
| ประเภทโมเดล | การสร้างจากข้อความเป็นวิดีโอและจากภาพเป็นวิดีโอ |
| ประเภทอินพุต | พรอมต์ข้อความ, อินพุตภาพ, การกำกับด้วยเฟรมแรก + เฟรมสุดท้าย |
| ประเภทเอาต์พุต | วิดีโอที่สร้างโดย AI |
| ความละเอียดที่รองรับ | 720p และ 1080p, 4K |
| อัตราส่วนภาพที่รองรับ | 16:9 และ 9:16 |
| อัตราเฟรมที่รองรับ | 24 FPS |
| ความยาววิดีโอ | คลิป 4s, 6s หรือ 8s (ขึ้นกับโหมด) |
| ภาษาของพรอมต์ | ภาษาอังกฤษ |
| จำนวนวิดีโอต่อคำขอ | สูงสุด 4 |
| ขีดจำกัดอัตรา API | สูงสุด 50 requests/minute/project |
| การปรับใช้ที่รองรับ | Vertex AI, การผสานกับระบบนิเวศ Gemini, Flow |
| คุณสมบัติที่ไม่รองรับ (ตามเอกสารทางการ) | โควต้ารวมแบบไดนามิก, เวิร์กโฟลว์อ้างอิงภาพบางแบบ, การขยายวิดีโอแบบเนทีฟในโฟลว์ API มาตรฐาน |
Veo 3.1 คืออะไร?
Veo 3.1 เป็นตระกูลโมเดลวิดีโอเชิงกำเนิดระดับเรือธงของ Google ที่มุ่งเน้นการสังเคราะห์วิดีโอคุณภาพระดับภาพยนตร์ การยึดตามพรอมต์ที่แข็งแรงขึ้น ความสอดคล้องของฉากที่ดีขึ้น และเวิร์กโฟลว์การสร้างวิดีโอแบบมัลติโหมด มันขยายความสามารถเกินกว่าการสร้างข้อความเป็นวิดีโอมาตรฐานด้วยการรองรับการสร้างแบบอ้างอิงภาพและเวิร์กโฟลว์การเล่าเรื่องที่ควบคุมด้วยเฟรม การรองรับอย่างเป็นทางการรวมถึงข้อความ→วิดีโอ, ภาพ→วิดีโอ, การเขียนพรอมต์ใหม่ และเวิร์กโฟลว์การสร้าง First/Last Frame
คุณสมบัติหลัก
Veo 3.1 มุ่งเน้นคุณสมบัติสำหรับการสร้างเนื้อหาในทางปฏิบัติ:
- การสร้างเสียงแบบเนทีฟ (บทสนทนา, เสียงบรรยากาศ, SFX) ที่รวมอยู่ในเอาต์พุต Veo 3.1 สร้างเสียงแบบเนทีฟ (บทสนทนา + บรรยากาศ + SFX) ที่สอดคล้องกับไทม์ไลน์ภาพ โดยมุ่งรักษาลิปซิงก์และความสอดประสานเสียง–ภาพสำหรับบทสนทนาและคิวของฉาก
- เอาต์พุตยาวขึ้น (รองรับสูงสุดประมาณ ~60 วินาที / 1080p เทียบกับคลิปสั้นมาก 8s ของ Veo 3) และลำดับแบบหลายพรอมต์หลายช็อตเพื่อความต่อเนื่องของเนื้อเรื่อง
- โหมด Scene Extension และ First/Last Frame ที่ขยายหรืออินเตอร์โพลัตฟุตเทจระหว่างคีย์เฟรม
- การแทรกวัตถุและ (จะมาในอนาคต) การลบวัตถุ และ primitive การแก้ไขภายใน Flow
แต่ละหัวข้อข้างต้นออกแบบมาเพื่อลดงาน VFX ด้วยมือ: ตอนนี้ทั้งเสียงและความต่อเนื่องของฉากเป็นเอาต์พุตระดับหนึ่ง ไม่ใช่สิ่งที่ทำภายหลัง
รายละเอียดทางเทคนิค (พฤติกรรมของโมเดลและอินพุต)
ตระกูลโมเดลและเวอร์ชันย่อย: Veo อยู่ในตระกูล Veo-3 ของ Google; รหัสรุ่นพรีวิวมักเป็น veo3.1-pro; veo3.1 (เอกสาร CometAPI) รองรับพรอมต์ข้อความ, การอ้างอิงภาพ (เฟรมเดี่ยวหรือชุดเฟรม) และเลย์เอาต์หลายพรอมต์แบบมีโครงสร้างสำหรับการสร้างแบบหลายช็อต
ความละเอียดและระยะเวลา: เอกสารพรีวิวระบุเอาต์พุตที่ 720p/1080p พร้อมตัวเลือกความยาวมากขึ้น (สูงสุด ~60s ในการตั้งค่าพรีวิวบางแบบ) และความเที่ยงตรงสูงกว่าเวอร์ชันก่อนหน้าของ Veo
อัตราส่วนภาพ: 16:9 (รองรับ) และ 9:16 (รองรับ ยกเว้นในบางโฟลว์อ้างอิงภาพ)
ภาษาของพรอมต์: ภาษาอังกฤษ (พรีวิว)
ขีดจำกัด API: ขีดจำกัดพรีวิวทั่วไปประกอบด้วย สูงสุด 10 API requests/min ต่อโปรเจ็กต์, สูงสุด 4 วิดีโอต่อคำขอ และความยาววิดีโอเลือกได้ระหว่าง 4, 6 หรือ 8 วินาที (โฟลว์อ้างอิงภาพรองรับ 8s)
ผลการทดสอบมาตรฐาน
การประเมินภายในของ Google และสรุปต่อสาธารณะรายงานว่า Veo 3.1 ได้รับความชื่นชอบอย่างมากจากผู้ประเมินมนุษย์เมื่อเทียบกันในตัวชี้วัดอย่างการจัดแนวกับข้อความ คุณภาพภาพ และความสอดประสานเสียง–ภาพ (งานข้อความ→วิดีโอและภาพ→วิดีโอ)
Veo 3.1 บรรลุผลลัพธ์ระดับ ล้ำสมัยแนวหน้า ในการเปรียบเทียบโดยผู้ประเมินภายในตามหลายมิติที่เป็นวัตถุวิสัย — ความชื่นชอบโดยรวม การจัดแนวกับพรอมต์ (ข้อความ→วิดีโอและภาพ→วิดีโอ) คุณภาพภาพ ความสอดคล้องเสียง–ภาพ และ “ฟิสิกส์ที่ดูสมจริงทางสายตา” บนชุดทดสอบมาตรฐานอย่าง MovieGenBench และ VBench
ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย
ข้อจำกัด:
- สิ่งผิดปกติและความไม่สอดคล้อง: แม้จะพัฒนาขึ้น แต่แสงเงา ฟิสิกส์เชิงละเอียด และการบังซ้อนที่ซับซ้อนยังอาจเกิดสิ่งผิดปกติได้ ความคงเส้นคงวาจากภาพ→วิดีโอ (โดยเฉพาะช่วงยาว) ดีขึ้นแต่ยังไม่สมบูรณ์
- ความเสี่ยงข้อมูลเท็จ/ดีปเฟก: เสียงที่สมจริงยิ่งขึ้นและการแทรก/ลบวัตถุเพิ่มโอกาสการใช้งานผิดวัตถุประสงค์ (เสียงปลอมสมจริงและคลิปขยาย) Google กล่าวถึงการบรรเทา (นโยบาย มาตรการป้องกัน) และการเปิดตัว Veo ก่อนหน้ากล่าวถึงการวอเตอร์มาร์ก/SynthID เพื่อช่วยระบุที่มา อย่างไรก็ตาม มาตรการทางเทคนิคไม่อาจขจัดความเสี่ยงการใช้งานผิดได้ทั้งหมด
- ข้อจำกัดด้านค่าใช้จ่ายและปริมาณงาน: วิดีโอความละเอียดสูงและยาวมีต้นทุนการคำนวณสูง และปัจจุบันอยู่ภายใต้การเข้าถึงแบบเสียค่าใช้จ่าย—คาดว่าจะมีความหน่วงและต้นทุนสูงกว่าโมเดลภาพ โพสต์ชุมชนและกระทู้ของ Google กล่าวถึงช่วงเวลาความพร้อมใช้งานและกลยุทธ์สำรอง
การควบคุมด้านความปลอดภัย: Veo3.1 มีนโยบายเนื้อหาในตัว การวอเตอร์มาร์ก/สัญญาณ synthID ในรุ่นก่อนหน้า และการควบคุมการเข้าถึงแบบพรีวิว ลูกค้าควรปฏิบัติตามนโยบายแพลตฟอร์มและทำการตรวจทานโดยมนุษย์สำหรับเอาต์พุตที่มีความเสี่ยงสูง
กรณีใช้งานจริง
- การทำต้นแบบอย่างรวดเร็วสำหรับครีเอทีฟ: จากสตอรีบอร์ด → คลิปหลายช็อตและแอนิมาติกพร้อม บทสนทนาแบบเนทีฟ สำหรับการรีวิวเชิงสร้างสรรค์ระยะแรก
- การตลาดและคอนเทนต์แบบสั้น: วิดีโอโปรโมตสินค้า 15–60 วินาที คลิปโซเชียล และทีเซอร์คอนเซปต์ที่ความเร็วสำคัญกว่าความสมจริงสมบูรณ์แบบ
- การปรับจากภาพ→วิดีโอ: เปลี่ยนภาพประกอบ ตัวละคร หรือสองเฟรมให้เป็นทรานซิชันลื่นไหลหรือฉากแอนิเมชันผ่าน First/Last Frame และ Scene Extension
- การเสริมเครื่องมือ: ผสานใน Flow สำหรับการแก้ไขแบบวนซ้ำ (แทรก/ลบวัตถุ พรีเซ็ตแสง) ที่ลดรอบงาน VFX ด้วยมือ
การเปรียบเทียบกับโมเดลชั้นนำอื่นๆ
Veo 3.1 เทียบกับ Veo 3 (รุ่นก่อน): Veo 3.1 มุ่งเน้น การยึดตามพรอมต์ที่ดีขึ้น, คุณภาพเสียง, และ ความสอดคล้องระหว่างหลายช็อต — เป็นการอัปเดตแบบต่อยอดแต่ส่งผลต่อการลดสิ่งผิดปกติและเพิ่มความสามารถในการแก้ไข
Veo 3.1 เทียบกับ OpenAI Sora 2: ตามรายงานจากสื่อ: Veo 3.1 เน้น การควบคุมเนื้อเรื่องระยะยาว, การผสาน เสียง, และการแก้ไขใน Flow; ส่วน Sora 2 (เมื่อเทียบในสื่อ) เน้นจุดแข็งที่ต่างออกไป (ความเร็ว เวิร์กโฟลว์การแก้ไขต่างชุด) TechRadar และสื่ออื่นมองว่า Veo 3.1 เป็นคู่แข่งที่ Google ตั้งใจสำหรับ Sora 2 ในด้านเนื้อเรื่องและวิดีโอที่ยาวขึ้น การทดสอบแบบเปรียบเทียบโดยอิสระยังมีจำกัด
| ความสามารถ | Veo 3.1 | Sora 2 | Runway Gen-4 / Gen-4.5 |
|---|---|---|---|
| เอาต์พุตแนวตั้งโดยเนทีฟ | ใช่ | รองรับเวิร์กโฟลว์จำกัด | ใช่ |
| ภาพเป็นวิดีโอ | ใช่ | ใช่ | ใช่ |
| เน้นการผสานเสียง | สูง | ปานกลาง | ปานกลาง |
| การปรับสภาพตามเฟรม | ใช่ | ใช่ | บางส่วน |
| การปรับแต่งเพื่อวิดีโอโซเชียล | สูง | ปานกลาง | สูง |
| การผสานกับระบบนิเวศ API | ระบบนิเวศของ Google | ระบบนิเวศของ OpenAI | ระบบนิเวศเครื่องมือสำหรับครีเอเตอร์ |
ฉันจะใช้ Veo 3.1 API กับ CometAPI ได้อย่างไร?
- สร้างคีย์ API ของ CometAPI
- เลือก
veo-3.1-generate-001เป็นปลายทางของโมเดล - ส่งพรอมต์หรืออินพุตภาพผ่าน API สร้างวิดีโอ
- โพลผลลัพธ์และดึงวิดีโอที่สร้างแล้ว
- ปรับแก้พรอมต์ซ้ำเพื่อการเคลื่อนกล้อง ความต่อเนื่องของฉาก และความสม่ำเสมอที่ดีขึ้น