Veo 3.1 ของ Google: มีการเปลี่ยนแปลงใหม่สำหรับวิดีโอ AI อะไรบ้างและใช้งานอย่างไร

วันนี้ Google ได้ขยายชุดเครื่องมือสร้างวิดีโอด้วย วีโอ 3.1การอัปเดตเล็กๆ น้อยๆ แต่สำคัญสำหรับโมเดลวิดีโอในตระกูล Veo ของบริษัท Veo 3.1 ถือเป็นจุดกึ่งกลางระหว่างการสร้างต้นแบบอย่างรวดเร็วและเวิร์กโฟลว์การผลิตที่มีความเที่ยงตรงสูง มอบเสียงที่คมชัดยิ่งขึ้น การสร้างคลิปที่ยาวขึ้นและสอดคล้องกันมากขึ้น การปฏิบัติตามคำสั่งที่กระชับยิ่งขึ้น และฟีเจอร์เวิร์กโฟลว์มากมายที่มุ่งหวังให้วิดีโอที่ขับเคลื่อนด้วย AI มีประโยชน์มากขึ้นสำหรับนักเล่าเรื่อง แบรนด์ และนักพัฒนา การเปิดตัวนี้มาพร้อมกับการอัปเดตแอปพลิเคชันตัดต่อ Flow ของ Google และเปิดให้ใช้งานในรูปแบบพรีวิวแบบชำระเงินสำหรับนักพัฒนาซอฟต์แวร์ของ Google

Veo 3.1 คืออะไร?

Veo 3.1 คือเวอร์ชันสาธารณะล่าสุดของตระกูลโมเดลวิดีโอเชิงสร้างสรรค์ของ Google พัฒนาต่อยอดจากสถาปัตยกรรมและชุดฟีเจอร์ที่เปิดตัวใน Veo 3 แต่เน้นหนักไปที่ การรวมเสียง ความยาวคลิปที่ยาวขึ้น และความต่อเนื่องของการเล่าเรื่องในขณะที่รุ่นก่อนๆ ให้ความสำคัญกับคลิปสั้นๆ แบบวนซ้ำได้หรือแบบพิสูจน์แนวคิด (มักจะมีความยาวเพียงไม่กี่วินาที) Veo 3.1 รองรับคลิปเดี่ยวที่ยาวกว่ามาก — Google และพันธมิตรกำลังสาธิตผลลัพธ์ที่มีความยาวสูงสุดถึง หนึ่งนาที สำหรับโหมดการสร้างบางโหมด — และตั้งเป้าเอาต์พุต 1080p เป็นพื้นฐานสำหรับกรณีการใช้งานที่ต้องการความเที่ยงตรงสูง นอกจากนี้ โมเดลนี้ยังนำเสนอฟีเจอร์อำนวยความสะดวกสำหรับผู้สร้างภาพยนตร์และผู้สร้างภาพยนตร์ เช่น ความสามารถในการกำหนดเฟรมแรกและเฟรมสุดท้ายเพื่อกำหนดทิศทางของภาพ “ส่วนประกอบของวิดีโอ” (ภาพอ้างอิงหลายภาพเพื่อขับเคลื่อนเนื้อหา) และการขยายฉาก (การสร้างฟุตเทจเพิ่มเติมเป็นวินาทีเพื่อรักษาบริบท)

มีการเสนอรูปแบบการดำเนินงานสองแบบ: รุ่น Veo 3.1 หลัก (มุ่งเน้นที่คุณภาพและความเที่ยงตรง) และ ฉันเห็น 3.1 เร็ว (การแลกเปลี่ยนความเที่ยงตรงบางส่วนเพื่อการวนซ้ำที่รวดเร็วยิ่งขึ้น) ช่วยให้ทีมสามารถสร้างต้นแบบได้อย่างรวดเร็ว จากนั้นจึงปรับขนาดหรือเรนเดอร์เวอร์ชันคุณภาพสูงขึ้นใหม่สำหรับผลงานส่งมอบขั้นสุดท้าย

Veo 3.1 ถูกวางตำแหน่งอย่างชัดเจนว่าเป็นการอัปเกรดเชิงวิวัฒนาการที่เพิ่มความแข็งแกร่งให้กับเสียง ขยายความยาวของฉาก และเพิ่มความสามารถในการตัดต่อแบบละเอียด (การแทรก/ลบ, การขยายฉาก, การแทรกเฟรมแรกและเฟรมสุดท้าย และการแนะนำภาพอ้างอิง) แทนที่จะเขียนสถาปัตยกรรมใหม่ เมื่อเทียบกับ Veo 3 ที่เปิดตัวในช่วงต้นปี 2025 Veo 3.1 ถูกสร้างขึ้นบนพื้นฐานสามปัจจัยหลักที่ใช้งานได้จริง ได้แก่ (1) เสียงต้นฉบับที่สมบูรณ์ยิ่งขึ้น (2) การควบคุมฉากและช็อตขั้นสูง และ (3) การปรับปรุงคุณภาพและความยาว

เสียงพื้นเมืองที่สมบูรณ์ยิ่งขึ้นในทุกฟีเจอร์

ในขณะที่ Veo 3 นำเสนอเสียงแบบซิงโครไนซ์ แต่ Veo 3.1 ได้ขยายความสมบูรณ์และการรับรู้บริบทของเสียงเอาต์พุตดังกล่าว Veo 3.1 สร้างเสียงแบบซิงโครไนซ์ตามบริบท (บทสนทนา เสียงแวดล้อม และเอฟเฟกต์) เป็นเอาต์พุตในตัว แทนที่จะต้องใช้การออกแบบเสียงแยกต่างหาก Google ได้เพิ่มเสียงที่สร้างขึ้นลงในฟีเจอร์ที่เคยสร้างวิดีโอเงียบ (เช่น ส่วนผสมในวิดีโอ เฟรมในวิดีโอ และส่วนขยายฉาก) การเปลี่ยนแปลงนี้ช่วยลดขั้นตอนหลังการผลิตและทำให้การทำซ้ำที่รวดเร็วง่ายขึ้นสำหรับผู้สร้างและทีมงาน Google อธิบายว่า "เสียงที่สมบูรณ์ยิ่งขึ้น" และปรับปรุงการลิปซิงค์เมื่อตัวละครกำลังพูด

การควบคุมฉากและช็อตขั้นสูง

Veo 3.1 เน้นการควบคุมแบบเดียวกับการผลิต (ภาพอ้างอิง การขยายฉาก การแทรกภาพจากต้นจนจบ การแทรก/ลบ) ที่สอดคล้องกับเวิร์กโฟลว์ของผู้สร้างภาพยนตร์ได้ดียิ่งขึ้น นี่คือจุดแข็งที่ชัดเจนในกระบวนการสร้างสรรค์และการทำงานอัตโนมัติขององค์กร

ผู้สร้างสามารถจัดเตรียมภาพแรกและภาพสุดท้ายหรือ "ส่วนผสม" (ชุดภาพ) และ Veo 3.1 จะสร้างการเปลี่ยนแปลงที่สอดคล้องและการเคลื่อนไหวระหว่างนั้นที่รักษาลักษณะตัวละครและเค้าโครงฉากไว้ ทำให้ความต่อเนื่องของเนื้อหาเชิงบรรยายหรือเนื้อหาที่มีแบรนด์ดีขึ้น

การเรียงลำดับแบบหลายพรอมต์/หลายช็อตและความสอดคล้องของอักขระ: คุณลักษณะเวิร์กโฟลว์ใหม่ในการรักษาเอกลักษณ์ของตัวละครและความต่อเนื่องของภาพในแต่ละช็อตและการแจ้งเตือนต่างๆ เพื่อให้ตัวละครหรืออุปกรณ์ประกอบฉากตัวเดียวคงอยู่ได้อย่างถูกต้องตลอดลำดับ

การตั้งค่าล่วงหน้าของภาพยนตร์และการควบคุมแสง: การตั้งค่าแสงและกล้องในตัว (ดอลลี่ กด ซูม ระยะชัดลึก LUT ภาพยนตร์) เพื่อเร่งความเร็วในการผลิตและลดความจำเป็นในการปรับแต่งอย่างรวดเร็วขั้นสูง

การปรับปรุงคุณภาพ + ความยาว

Veo 3.1 รองรับคลิปวิดีโอที่ยาวขึ้น (รายงานระบุว่าสามารถบันทึกวิดีโอได้สูงสุด ~60 วินาทีในฟีเจอร์ส่วนขยายฉากของ Flow) ในขณะที่ Veo 3 เน้นที่คลิปวิดีโอความละเอียดสูงสั้นๆ (แปดวินาที) เป็นหลัก ความสามารถในการบันทึกวิดีโอที่มีความยาวมากขึ้นอาจถูกจำกัดโดยอินเทอร์เฟซ (Flow) หรือพารามิเตอร์ API

ภาพที่ดีขึ้น→ความเที่ยงตรงของวิดีโอ — การปรับปรุงการเรนเดอร์เมื่อโมเดลได้รับภาพอ้างอิง (เฟรมแรก/เฟรมสุดท้าย การอ้างอิงหลายรายการ) จะทำให้อัตลักษณ์ตัวละครและความสอดคล้องของฉากมีความสอดคล้องกันมากขึ้น

เอาท์พุตมีทั้งตัวเลือกแนวนอน (16:9) และแนวตั้ง (9:16) เพื่อใช้กับกรณีการใช้งานทางสังคมและการออกอากาศโดยตรง

ความปลอดภัย แหล่งที่มา และลายน้ำ

Google ได้ให้ความสำคัญกับคุณสมบัติด้านความปลอดภัยและแหล่งที่มาในโมเดลเชิงสร้างสรรค์ต่างๆ Veo 3.1 ก็ดำเนินรอยตามแนวโน้มนี้ ในบทความเบื้องต้น Google ระบุว่า:

แนวทาง SynthID และแหล่งที่มา (ที่รองรับ) เพื่อช่วยติดตามสื่อที่สร้างโดย AI กลับไปยังโมเดล/แหล่งที่มา และเพื่อป้องกันการใช้งานในทางที่ผิด
รั้วกั้นนโยบายเนื้อหา ในตัวแก้ไข Flow และ API (ขึ้นอยู่กับภูมิภาค/แผน) และเครื่องมือการควบคุมดูแลเพื่อลดการสร้างเนื้อหาที่เป็นอันตรายหรือละเอียดอ่อน

ผู้สร้างควรปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุด: ติดป้ายเนื้อหา AI อย่างชัดเจนเมื่อจำเป็น ตรวจสอบผลลัพธ์สำหรับองค์ประกอบที่ทำให้เกิดภาพหลอนหรือละเอียดอ่อน และใช้เวิร์กโฟลว์การตรวจสอบแบบดั้งเดิมเมื่อเผยแพร่ในวงกว้าง

Veo 3.1 ยังมีข้อจำกัดและความเสี่ยงอะไรบ้าง?

Veo 3.1 เป็นความก้าวหน้าที่สำคัญ แต่ไม่ใช่ยาครอบจักรวาล ข้อจำกัดและความเสี่ยงหลัก:

โหมดความล้มเหลวยังคงอยู่ — ข้อผิดพลาดด้านแสง ความผิดพลาดทางเรขาคณิตเล็กน้อย และการจัดวางที่ผิดพลาดเป็นครั้งคราว (เช่น มือ นิ้ว หรือข้อความขนาดเล็ก) ยังคงปรากฏให้เห็นในฉากที่ซับซ้อนหรือเมื่อต้องการความเที่ยงตรงสูง นักข่าวและผู้ทดสอบในช่วงแรกๆ เรียกสิ่งเหล่านี้ว่าเป็นกรณีขอบที่คงอยู่
ข้อกังวลเกี่ยวกับข้อมูลที่ผิดพลาดและการใช้ในทางที่ผิด — ความสมจริงที่สูงขึ้นและการสังเคราะห์เสียงทำให้เกิดข้อกังวลที่ชัดเจนเกี่ยวกับดีปเฟกและการใช้งานในทางที่ผิด Google ยังคงให้ความสำคัญกับมาตรการป้องกัน (การบังคับใช้นโยบายเนื้อหา เครื่องหมายแหล่งที่มา) และการใช้ลายน้ำ SynthID เพื่อช่วยติดตามสื่อสังเคราะห์ แต่ระบบเหล่านี้ก็ไม่สามารถทดแทนการกำกับดูแลและการตรวจสอบโดยมนุษย์ได้อย่างแน่นอน
คำถามทางกฎหมายและทรัพย์สินทางปัญญา การใช้รูปภาพอ้างอิง รูปตัวละคร หรือสื่อที่มีลิขสิทธิ์เพื่อการผลิตจะต้องได้รับการดำเนินการตามข้อกฎหมายมาตรฐาน บริษัทต่างๆ ควรปรึกษากับที่ปรึกษากฎหมายและปฏิบัติตามนโยบายการใช้งาน

เริ่มต้นอย่างรวดเร็ว — ตัวอย่างเวิร์กโฟลว์ (แอป Gemini + API)

ในแอป Gemini / Flow (ไม่มีโค้ด):

เปิดแอป Gemini (หรือตัวแก้ไข Flow) และลงชื่อเข้าใช้ มองหาตัวเลือกวิดีโอหรือสร้าง → วิดีโอ
สกายเวิร์ค

เลือก Veo 3.1 ในเมนูแบบเลื่อนลงของโมเดล (หากมีโมเดลหลายตัว) เลือกอัตราส่วนภาพและระยะเวลาเป้าหมาย สามารถเลือกพรีเซ็ตสำหรับภาพยนตร์หรือแสงได้
TechRadar

ให้ข้อความแจ้งเตือน อัปโหลดรูปภาพอ้างอิง 1-3 รูป (สำหรับส่วนประกอบ→วิดีโอ หรือโฟลว์เฟรมแรก/เฟรมสุดท้าย) และเลือกว่าจะสร้างเสียงหรือไม่ จากนั้นส่งและรอให้การสร้างเสร็จสมบูรณ์ ใช้เครื่องมือแก้ไขของ Flow เพื่อขยายฉาก แทรกวัตถุ หรือลบองค์ประกอบตามต้องการ
Verge

วิธีการเรียกใช้ Veo 3.1 (ผ่านโปรแกรม)

รายการโมเดลของ CometAPI และเอกสารประกอบ AI ประกอบด้วยชื่อโมเดล (เช่น veo-3.1 และ veo-3.1-pro) และพารามิเตอร์สำหรับการควบคุมความละเอียด ความยาว อัตราส่วนภาพ และการอ้างอิง

ขั้นตอน:

ลงชื่อเข้าใช้ โคเมทเอพีไอ และทำให้คุณมั่นใจ รับคีย์ของ CometAPI.
เรียกใช้งานจุดสิ้นสุดของโมเดล Veo 3.1 ด้วยเพย์โหลด JSON ซึ่งประกอบด้วยพรอมต์ การอ้างอิง (การอ้างอิง base64 หรือ GCS) ความละเอียด/ระยะเวลาของเป้าหมาย และแฟล็กสำหรับส่วนขยายเสียงหรือฉาก ใช้จุดสิ้นสุด Veo 3.1 Fast สำหรับการรันแบบวนซ้ำ
จัดการเอาต์พุต (ไฟล์วิดีโอ, แทร็กเสียงแยกต่างหาก (ตัวเลือกเสริม) และจัดการกระบวนการหลังการประมวลผล (เกรดสี, การเข้ารหัสสำหรับการจัดส่ง) ในไปป์ไลน์ของคุณ ตรวจสอบต้นทุนและโควต้า คลิปที่มีความยาวหรือความละเอียดสูงจะใช้การประมวลผลมากขึ้น

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ วีโอ 3.1 ผ่านทาง CometAPI โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

สรุป

Veo 3.1 เป็นการอัปเกรดที่ใช้งานได้จริงและมีขอบเขตการทำงานที่ชัดเจน คุณค่าที่เห็นได้ชัดคือการลดความยุ่งยากระหว่างไอเดียและฉากสุดท้าย ด้วยการเพิ่มเสียงเป็นเอาต์พุตเนทีฟ ขยายการควบคุมฉากและการอ้างอิง และเปิดใช้งานเอาต์พุตที่เชื่อมต่อกันแบบยาวขึ้น สำหรับผู้สร้างที่ต้องการการตัดต่อแบบโปรดักชั่นภายในวงจรแบบสร้าง และสำหรับองค์กรที่ต้องการระบบอัตโนมัติเนื้อหาแบบโปรแกรม Veo 3.1 เป็นเครื่องมือที่น่าสนใจที่ควรพิจารณา