Veo 3.1 กำลังจะมา (และมีข่าวลืออะไรบ้าง): สิ่งที่เรารู้และสิ่งที่มันจะนำมา?

Veo 3.1 กำลังมา: ฉันเห็น คือโมเดลสร้างวิดีโอ AI ของ Google (ปัจจุบันคือ Veo 3 / Veo 3 Fast) Google เพิ่งเปิดตัว Veo 3 ที่ได้รับการปรับปรุงครั้งใหญ่ (แนวตั้ง 9:16, 1080p, Veo 3 Fast, ราคาถูกลง) และมี ข่าวลือ / โพสต์โซเชียล ที่ วีโอ 3.1 กำลังจะมาถึง — แต่ Google มี ไม่ เผยแพร่ประกาศอย่างเป็นทางการเกี่ยวกับการเปิดตัว Veo 3.1 แล้ว ผมจะแสดงรายการข้อเท็จจริงที่ได้รับการยืนยัน การเปลี่ยนแปลงที่คาดว่าจะเกิดขึ้น/คาดการณ์ไว้ และการเปรียบเทียบโดยตรงกับ OpenAI โซระ 2.

อะไร ฉันเห็น is

ฉันเห็น คือโมเดลวิดีโอเชิงสร้างสรรค์ของ Google (ตระกูล DeepMind / Google Cloud / Gemini) ที่แปลงข้อความหรือรูปภาพเป็นวิดีโอสั้นๆ และ (ใน Veo 3) สร้างเสียงโดยตรง (เอฟเฟกต์เสียง เสียงแวดล้อม และบทสนทนา) มีให้บริการบน Google Cloud (Vertex AI / Gemini API) สำหรับนักพัฒนาและองค์กร และมีลายน้ำที่มา/SynthID ในตัวบนเอาต์พุต

อะไร วีโอ 3 นำมาแล้ว

ข้อความ → วิดีโอ และ รูปภาพ → วิดีโอ ความสามารถ (รวมถึงภาพตัวอย่างเป็นวิดีโอ)
การสร้างเสียงพื้นเมือง (ดนตรี เสียงบรรยากาศ บทสนทนา) — Veo 3 นำเสนอระบบเสียงระดับชั้นนำ
มีสองแบบ:Veo 3 คุณภาพสูงและ ฉันเห็น 3 เร็ว (ปรับให้เหมาะสมสำหรับความเร็ว/การวนซ้ำ)
ความพร้อมใช้งานของแพลตฟอร์ม: มีให้ใช้งานใน Vertex AI / Gemini API (เวอร์ชันตัวอย่างที่ต้องชำระเงิน → อัปเดตความพร้อมใช้งานทั่วไปในกลางปี 2025)
ความปลอดภัย/ที่มา: การใส่ลายน้ำ SynthID และการควบคุม/การอนุมัติการใช้บางรุ่นสำหรับการสร้างบุคคล/เด็ก

แล้ว — อะไรคือ วีโอ 3.1 คาดว่าจะนำมา?

สถานะ: ณ ขณะนี้ยังไม่มีหน้าผลิตภัณฑ์ Veo 3.1 อย่างเป็นทางการจาก Google ที่อธิบายรายละเอียดการเปิดตัวฉบับเต็ม อย่างไรก็ตาม โพสต์นักพัฒนาของ Google / โพสต์ชุมชน และทวีตหลายรายการบ่งชี้ถึงการอัปเดตเพิ่มเติมในระยะใกล้ (มีชื่อว่า "Veo 3.1") ซึ่งคาดว่าจะเน้นไปที่การปรับปรุงแบบวนซ้ำในส่วนของเสียง คุณภาพ และการรองรับรูปแบบ มากกว่าการเขียนใหม่ทั้งหมดเป็นรุ่นใหม่

ต่อไปนี้คือข้อสรุปบางส่วนที่ฉันได้จากโพสต์ของ x และลักษณะเฉพาะของ Veo3:

ปรับปรุงเสียงต้นฉบับ (บทสนทนา การลิปซิงค์หลายเสียง) —บทสนทนาที่สะอาดขึ้น การผสมเอฟเฟกต์เสียงและการสร้างมิติเสียงที่ดีขึ้น Veo 3 สามารถสร้างเสียงได้โดยตรงแล้ว Veo 3.1 สามารถปรับปรุงความสมจริงของบทสนทนาและการรองรับภาษาให้เทียบเท่ากับการปรับปรุงล่าสุดที่คู่แข่งกำลังทำอยู่
เส้นทางที่เร็วกว่า/ถูกกว่า สำหรับเอาท์พุตทั่วไปบางส่วน (ความเท่าเทียมกันและการเพิ่มประสิทธิภาพ Veo 3 Fast เพิ่มเติม)
ปรับปรุงภาพ→ความเที่ยงตรงของวิดีโอและความสม่ำเสมอของตัวละคร/ท่าทางที่ดีขึ้น ในคลิปแบบหลายเฟรม
อัตราส่วนภาพ / การควบคุมความละเอียดที่ขยายเพิ่ม (ยืดหยุ่นมากขึ้น 9:16/16:9 และ 1080p ในทุกคอนฟิก) Google ได้เพิ่มแนวตั้ง + 1080p ไปแล้ว และ Veo 3.1 สามารถขยายการควบคุมเหล่านั้นได้
คลิปยาวขึ้น / แคป 8 วินาทีแบบผ่อนคลาย — ความต้องการของชุมชนและแผนงานก่อนหน้านี้ของ Google แสดงให้เห็นว่าระยะเวลาที่เพิ่มขึ้นนั้นเป็นเป้าหมายที่น่าจะเป็นไปได้ (Veo 3 ในปัจจุบันได้รับการปรับให้เหมาะสมสำหรับคลิปวิดีโอความยาว 8 วินาที)
ภาพที่ดีขึ้น→ความเที่ยงตรงของวิดีโอและการรองรับภาพต่อวิดีโอที่ขยายออกไป (ปรับปรุงความสมจริง ความต่อเนื่องของการเคลื่อนไหว) สร้างขึ้นจากการดูตัวอย่างภาพ→วิดีโอใน Veo 3

Veo 3.1 กำลังจะมา (และมีข่าวลืออะไรบ้าง): สิ่งที่เรารู้และสิ่งที่มันจะนำมา?

เปรียบเทียบ Veo 3 / (คาดว่า) Veo 3.1 → OpenAI Sora 2

โฟกัสหลัก

**Veo 3 (Google)**วิดีโอ 8 วินาทีสั้นๆ ที่มีความเที่ยงตรงสูงจากข้อความ/รูปภาพ เสียงดั้งเดิม รวมเข้ากับ Gemini/Gemini API และ Vertex AI ปรับให้เหมาะสมสำหรับการใช้งานจริงและการรวม API ของนักพัฒนา
โซระ 2 (OpenAI):โมเดลวิดีโอ+เสียงเรือธงของ OpenAI ที่เน้นความสมจริงทางกายภาพ การเคลื่อนไหวที่สอดประสาน บทสนทนาและเสียงที่ซิงโครไนซ์ และแอปโซเชียลที่มาคู่กัน (Sora) พร้อมระบบการแสดงภาพแทน/ยินยอมเพื่อบูรณาการความเหมือนของผู้ใช้ และเน้นอย่างหนักที่ความสมจริงและการควบคุมความปลอดภัย

จุดแข็ง

วีโอ (ตอนนี้): การผสานรวมที่แข็งแกร่งระหว่างนักพัฒนาและองค์กร (Vertex AI, Gemini API), ตัวเลือกราคาสำหรับใช้งานจริง, เส้นทางที่ชัดเจนสำหรับลูกค้าคลาวด์, เวอร์ชันแนวตั้ง/1080p + เวอร์ชันความเร็วสูง เหมาะสำหรับธุรกิจที่กำลังพัฒนา
โซระ 2: ความแม่นยำทางกายภาพที่โดดเด่นและการซิงค์แบบหลายโหมด (บทสนทนา + ภาพ) และแอปสำหรับผู้บริโภคที่ผสานรวมกับเวิร์กโฟลว์โซเชียล (ฟีเจอร์ Cameo, การกลั่นกรอง) เหมาะสำหรับผู้สร้างที่ต้องการฉากการเล่าเรื่องที่สมจริงและระบบนิเวศของแอป

วิธีเข้าถึง Veo ทันที — และวิธีเตรียมพร้อมสำหรับ Veo 3.1

ลองใช้งานใน Gemini (ผู้บริโภค / เว็บ / มือถือ):การสร้าง Veo จะปรากฏในแอป Gemini (แตะตัวเลือก "วิดีโอ" ในแถบแจ้งเตือน) ระดับการเข้าถึง (Pro / Ultra) มีผลต่อรุ่น Veo ที่คุณสามารถใช้ได้
เชิงโปรแกรม / องค์กร: ใช้ API in โคเมทเอพีไอ (รหัสโมเดล Veo มีอยู่ในเอกสารประกอบโมเดล) CometAPI มี veo3-pro, veo3-fast และ veo3 สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ วีโอ 3 's doc.

เคล็ดลับปฏิบัติ (ผู้พัฒนา): หากต้องการขอเอาต์พุตแนวตั้ง ให้ตั้งค่า aspectRatio พารามิเตอร์ (เช่น "9:16") และตรวจสอบการกำหนดค่ารุ่น (Veo 3 เทียบกับ Veo 3 Fast) และแผนของคุณสำหรับขีดจำกัดความละเอียด (720p เทียบกับ 1080p)

วิธีการเข้าถึง Sora 2 (วันนี้)

แอป Sora: Sora 2 เปิดตัวพร้อมแอป Sora (เปิดตัวในสหรัฐอเมริกาและแคนาดาแบบจำกัดจำนวนผู้ได้รับเชิญ) OpenAI ระบุว่าจะมีการเข้าถึงและขยาย API ที่กว้างขึ้นในภายหลัง หากคุณต้องการทดลองใช้ Sora 2 ตอนนี้ ลองดู CpmetAPI โซระ 2 หน้า CometAPI รองรับ Sora 2 API แล้ว และสร้างคลิปโซเชียลความยาวประมาณ 10 วินาที และเน้นที่ความสมจริงของการเคลื่อนไหวสำหรับผู้คน

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ วีโอ 3.1 API ผ่านทาง CometAPI รุ่นใหม่ล่าสุด ได้รับการอัปเดตอยู่เสมอจากเว็บไซต์อย่างเป็นทางการ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

พร้อมไปหรือยัง?→ ลงทะเบียน CometAPI วันนี้ !