Veo 3.1 คือการอัปเดตแบบค่อยเป็นค่อยไปแต่สำคัญสำหรับกลุ่มผลิตภัณฑ์ข้อความและรูปภาพ→วิดีโอ Veo ของ Google โดยเพิ่มเนื้อหาที่สมบูรณ์ยิ่งขึ้น เสียงพื้นเมืองเอาต์พุตวิดีโอที่ยาวขึ้นและควบคุมได้มากขึ้นและละเอียดขึ้น การแก้ไข และ ระดับฉาก การควบคุม
ข้อมูลพื้นฐาน — คุณสมบัติหลัก
Veo 3.1 มุ่งเน้นไปที่การปฏิบัติจริง การสร้างเนื้อหา คุณสมบัติ:
- การสร้างเสียงพื้นเมือง (บทสนทนา เสียงแวดล้อม เอฟเฟกต์เสียง) รวมอยู่ในเอาต์พุต Veo 3.1 สร้าง เสียงพื้นเมือง (บทสนทนา + บรรยากาศ + เอฟเฟกต์พิเศษ) สอดคล้องกับไทม์ไลน์ภาพ โดยโมเดลนี้มุ่งหวังที่จะรักษาการลิปซิงค์และการจัดตำแหน่งภาพและเสียงสำหรับบทสนทนาและสัญญาณฉาก
- เอาท์พุตที่ยาวขึ้น (รองรับสูงสุด ~60 วินาที / 1080p เทียบกับคลิปสั้นมากของ Veo 3, 8 วินาที) และการแจ้งเตือนหลายรายการ หลายช็อต ลำดับความต่อเนื่องของการเล่าเรื่อง
- การขยายฉาก และ เฟรมแรก/เฟรมสุดท้าย โหมดที่ขยายหรือแทรกฟุตเทจระหว่างเฟรมหลัก
- การแทรกวัตถุและการลบวัตถุ (ที่มา) และแก้ไขข้อมูลพื้นฐานภายใน Flow
แต่ละกระสุนด้านบนได้รับการออกแบบมาเพื่อลดการทำงาน VFX ด้วยตนเอง: เสียง และ ความต่อเนื่องของฉาก ตอนนี้เป็นผลลัพธ์ชั้นหนึ่ง ไม่ใช่สิ่งที่คิดขึ้นภายหลัง
รายละเอียดทางเทคนิค (พฤติกรรมของโมเดลและอินพุต)
ครอบครัวและรุ่นของโมเดล: Veo เป็นส่วนหนึ่งของตระกูล Veo-3 ของ Google โดยทั่วไปแล้ว ID รุ่นตัวอย่างจะเป็น veo3.1-pro; veo3.1 (เอกสาร CometAPI) มันยอมรับ ข้อความแจ้ง, อ้างอิงรูปภาพ (เฟรมเดียวหรือลำดับ) และเค้าโครงพร้อมท์หลายรายการที่มีโครงสร้างสำหรับการสร้างช็อตหลายช็อต
ความละเอียดและระยะเวลา: เอกสารตัวอย่างอธิบายผลลัพธ์ที่ 720p / 1080p โดยมีตัวเลือกสำหรับระยะเวลาที่ยาวขึ้น (สูงสุด ~60 วินาทีในการตั้งค่าตัวอย่างบางรายการ) และความเที่ยงตรงที่สูงกว่า Veo รุ่นก่อนหน้า
อัตราส่วนภาพ: 16:9 (รองรับ) และ 9:16 (รองรับยกเว้นในกระแสข้อมูลอ้างอิงภาพบางส่วน)
ภาษาแจ้งเตือน: ภาษาอังกฤษ (ตัวอย่าง)
ขีดจำกัด API: ข้อจำกัดการดูตัวอย่างโดยทั่วไปได้แก่ คำขอ API สูงสุด 10 รายการต่อนาทีต่อโครงการ, วิดีโอสูงสุด 4 รายการต่อคำขอและ ความยาววิดีโอ สามารถเลือกได้ระหว่าง 4, 6 หรือ 8 วินาที (การไหลของภาพอ้างอิงรองรับ 8 วินาที)
ประสิทธิภาพมาตรฐาน
รายงานการประเมินภายในและสรุปต่อสาธารณะของ Google ความชอบที่แข็งแกร่ง สำหรับผลลัพธ์ Veo 3.1 ในการเปรียบเทียบผู้ให้คะแนนของมนุษย์ในหน่วยเมตริก เช่น การจัดตำแหน่งข้อความ, คุณภาพของภาพและ ความสอดคล้องของภาพและเสียง (งานข้อความ→วิดีโอ และรูปภาพ→วิดีโอ)
ประสบความสำเร็จกับ Veo 3.1 แล้ว รัฐของศิลปะ ผลลัพธ์จากการเปรียบเทียบระหว่างผู้ประเมินภายในกับแกนวัตถุประสงค์หลายแกน ได้แก่ การตั้งค่าโดยรวม การจัดตำแหน่งที่รวดเร็ว (ข้อความ→วิดีโอ และรูปภาพ→วิดีโอ) คุณภาพของภาพ การจัดตำแหน่งเสียง-วิดีโอ และ "ฟิสิกส์ที่สมจริงทางสายตา" บนชุดข้อมูลเกณฑ์มาตรฐาน เช่น MovieGenBench และ VBench
ข้อจำกัดและข้อควรพิจารณาด้านความปลอดภัย
ข้อ จำกัด :
- สิ่งประดิษฐ์และความไม่สอดคล้องกัน: แม้จะมีการปรับปรุง แสงบางส่วน ฟิสิกส์ที่ละเอียด และการบดบังที่ซับซ้อนก็ยังคงสร้างสิ่งแปลกปลอมได้ ความสอดคล้องระหว่างภาพกับวิดีโอ (โดยเฉพาะอย่างยิ่งในระยะเวลาอันยาวนาน) ได้รับการปรับปรุงแล้ว แต่ยังไม่สมบูรณ์แบบ
- ความเสี่ยงจากข้อมูลที่ผิดพลาด/ดีปเฟก: เสียงที่สมบูรณ์ยิ่งขึ้น + การแทรก/ลบวัตถุเพิ่มความเสี่ยงในการใช้งานในทางที่ผิด (เสียงปลอมที่สมจริงและคลิปที่ขยาย) Google ระบุมาตรการบรรเทาผลกระทบ (นโยบาย มาตรการป้องกัน) และก่อนหน้านี้ Veo ได้เปิดตัวระบบลายน้ำ/SynthID อ้างอิงเพื่อช่วยระบุแหล่งที่มา อย่างไรก็ตาม มาตรการป้องกันทางเทคนิคไม่ได้ขจัดความเสี่ยงในการใช้งานในทางที่ผิด
- ข้อจำกัดด้านต้นทุนและปริมาณงาน: วิดีโอความละเอียดสูงที่มีความยาวมากนั้นมีค่าใช้จ่ายในการประมวลผลสูง และปัจจุบันถูกจำกัดไว้ในการดูตัวอย่างแบบชำระเงิน คาดว่าจะมีความหน่วงและต้นทุนสูงกว่าเมื่อเทียบกับแบบจำลองภาพ โพสต์ชุมชนและกระทู้ฟอรัมของ Google จะพูดคุยเกี่ยวกับช่วงเวลาพร้อมใช้งานและกลยุทธ์สำรอง
การควบคุมความปลอดภัย: Veo3.1 ได้รวมนโยบายเนื้อหา การใส่ลายน้ำ/การส่งสัญญาณ synthID ไว้ใน Veo รุ่นก่อนหน้า และการควบคุมการเข้าถึงการดูตัวอย่าง โดยขอแนะนำให้ลูกค้าปฏิบัติตามนโยบายของแพลตฟอร์มและใช้การตรวจสอบโดยมนุษย์สำหรับผลลัพธ์ที่มีความเสี่ยงสูง
กรณีใช้งานจริง
- การสร้างต้นแบบอย่างรวดเร็วสำหรับผู้สร้างสรรค์: สตอรี่บอร์ด → คลิปหลายช็อตและแอนิเมติกด้วย บทสนทนาพื้นเมือง เพื่อการทบทวนเชิงสร้างสรรค์ในระยะเริ่มต้น
- การตลาดและเนื้อหารูปแบบสั้น: โฆษณาผลิตภัณฑ์ในช่วงทศวรรษ 15–60 คลิปโซเชียล และตัวอย่างแนวคิดที่ความเร็วมีความสำคัญมากกว่าความสมจริงที่สมบูรณ์แบบ
- การดัดแปลงภาพ→วิดีโอ: การเปลี่ยนภาพประกอบ ตัวละคร หรือสองเฟรมให้เป็นการเปลี่ยนผ่านที่ราบรื่นหรือฉากเคลื่อนไหวผ่าน เฟรมแรก/เฟรมสุดท้าย และ การขยายฉาก.
- การเพิ่มเครื่องมือ: รวมเข้ากับ Flow เพื่อการแก้ไขแบบวนซ้ำ (การแทรก/การลบวัตถุ การตั้งค่าแสงล่วงหน้า) ที่ช่วยลดการผ่าน VFX ด้วยตนเอง
การเปรียบเทียบกับรุ่นชั้นนำอื่นๆ
Veo 3.1 กับ Veo 3 (รุ่นก่อน): Veo 3.1 มุ่งเน้นไปที่ การปฏิบัติตามอย่างรวดเร็วที่ได้รับการปรับปรุง, คุณภาพเสียงและ ความสม่ำเสมอของหลายช็อต — การอัปเดตแบบค่อยเป็นค่อยไปแต่มีผลกระทบซึ่งมุ่งเน้นไปที่การลดสิ่งประดิษฐ์และปรับปรุงความสามารถในการแก้ไข
Veo 3.1 เทียบกับ OpenAI Sora 2: การแลกเปลี่ยนที่รายงานในสื่อ: Veo 3.1 เน้นย้ำ การควบคุมการเล่าเรื่องในรูปแบบยาว, แบบบูรณาการ เสียงและการผสานรวมการตัดต่อแบบ Flow; Sora 2 (เมื่อเปรียบเทียบกันในสื่อสิ่งพิมพ์) มุ่งเน้นไปที่จุดแข็งที่แตกต่างกัน (ความเร็ว กระบวนการตัดต่อที่แตกต่างกัน) TechRadar และสื่ออื่นๆ ระบุว่า Veo 3.1 เป็นคู่แข่งของ Google ที่เป็นเป้าหมายของ Sora 2 สำหรับการรองรับการบรรยายและวิดีโอที่ยาวขึ้น การทดสอบแบบเคียงข้างกันโดยอิสระยังคงมีข้อจำกัด
วิธีการโทร วีโอ 3.1 API จาก CometAPI
รุ่นรุ่น: veo3.1; veo3.1-pro
Veo 3.1 ราคา API ใน CometAPI ลด 20% จากราคาอย่างเป็นทางการ:
| veo3.1 | 0.4000 |
| วีโอ3.1โปร | 2.0000 |
ขั้นตอนที่ต้องดำเนินการ
- เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
- รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง
- รับ url ของเว็บไซต์นี้: https://api.cometapi.com/
ใช้วิธีการ
- เลือก“
veo3.1; veo3.1-pro” จุดสิ้นสุดในการส่งคำขอ API และกำหนดเนื้อหาคำขอ วิธีการคำขอและเนื้อหาคำขอได้รับจากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย - แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
- แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
- ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์เพื่อการโยกย้ายที่ราบรื่น รายละเอียดที่สำคัญ:
- URL ฐาน: https://api.cometapi.com/v1/chat/completions
- ชื่อรุ่น: veo3.1; veo3.1-pro
- รับรองความถูกต้อง:
Bearer YOUR_CometAPI_API_KEYส่วนหัว - ชนิดของเนื้อหา:
application/json.
ดูสิ่งนี้ด้วย โซระ 2


