Veo 3.1 ของ Google ได้รับการอัปเดตในเดือนมกราคม โดยมาพร้อมการปรับปรุงแบบเน้นจุดที่ผลักดันเวิร์กโฟลว์ ภาพ→วิดีโอ ให้เข้าใกล้คุณภาพระดับพร้อมผลิตมากขึ้น การอัปเดต 3.1 มุ่งเน้นสี่การอัปเกรดเชิงปฏิบัติที่ทำให้เวิร์กโฟลว์ ภาพ→วิดีโอ ใช้งานได้สะดวกขึ้นอย่างมากสำหรับผู้สร้างและนักพัฒนา: พายป์ไลน์ “Ingredients to Video” ที่ทรงพลังขึ้นสำหรับสร้างคลิปไดนามิกจากภาพอ้างอิง, ความสม่ำเสมอที่แข็งแรงขึ้นระหว่างตัวละครและฉาก, เอาต์พุตแนวตั้งแบบเนทีฟ (9:16) สำหรับแพลตฟอร์มที่เน้นมือถือเป็นหลัก, และตัวเลือกเอาต์พุตความเที่ยงตรงสูงใหม่ รวมถึงการอัปสเกล 1080p และ 4K ที่ดีขึ้น สำหรับผู้สร้างและนักพัฒนาที่ต้องทำงานแบบ “crop-then-edit” เพื่อรูปแบบแนวตั้งบนโซเชียล เนทีฟเอาต์พุต 9:16 และการอัปสเกลที่ปรับปรุงของ Veo 3.1 ช่วยลดแรงเสียดทานและมอบคลิปที่ขัดเกลา พร้อมลงแพลตฟอร์มมากขึ้น
สำหรับนักพัฒนาและมืออาชีพด้านสื่อ Veo 3.1 ไม่ได้เป็นเพียงเรื่องพิกเซลที่สูงขึ้น แต่เป็นเรื่องของ ความสม่ำเสมอ การอัปเดตนี้แก้โจทย์ “flicker” และการสูญเสียเอกลักษณ์ที่รบกวนวิดีโอ AI โดยตรง มอบชุดเครื่องมือที่สามารถรักษาความคงตัวของตัวละครและสไตล์ข้ามหลายช็อต ท้าทาย Sora 2.0 ของ OpenAI ในตลาดสื่อสร้างสรรค์ระดับไฮเอนด์อย่างมีประสิทธิภาพ
อะไรคือนิยามสถาปัตยกรรมของ Veo 3.1?
Veo 3.1 สร้างบนสถาปัตยกรรมดิฟฟิวชันแบบทรานส์ฟอร์เมอร์ที่ได้รับการปรับแต่งเพื่อความเข้าใจแบบมัลติโหมด แตกต่างจากรุ่นก่อนที่มุ่งแมปข้อความสู่วิดีโอเป็นหลัก Veo 3.1 ถืออินพุตเชิงภาพ (ภาพ) เป็นองค์ประกอบชั้นหนึ่งเคียงข้างพรอมต์ข้อความ
การเปลี่ยนแปลงด้านสถาปัตยกรรมนี้ทำให้โมเดล “มองเห็น” แอสเซ็ตที่ผู้ใช้ให้มา—เช่น ภาพผลิตภัณฑ์ ภาพอ้างอิงตัวละคร หรือฉากหลังเฉพาะ—และทำให้เคลื่อนไหวด้วยความเข้าใจเชิงเรขาคณิต 3 มิติและแสงอย่างลึกซึ้ง ผลลัพธ์คือระบบที่ให้ความรู้สึกน้อยลงเหมือนตู้สล็อต และมากขึ้นเหมือนเอนจินเรนเดอร์ดิจิทัล
มีอะไรเปลี่ยนใน 3.1 เมื่อเทียบกับเวอร์ชันก่อน?
- การสังเคราะห์จากอ้างอิงที่เข้มข้นขึ้น: โมเดลสกัดลักษณะ (ใบหน้า เครื่องแต่งกาย พื้นผิว องค์ประกอบฉากหลัง) ได้ดีขึ้นและนำกลับมาใช้ซ้ำได้อย่างเชื่อถือข้ามหลายเฟรม ทำให้ตัวละครดูเป็นคนเดียวกันตลอดคลิป
- องค์ประกอบภาพที่ฉลาดขึ้น: แทนที่จะครอปเฟรมแนวนอนให้พอดีกับผ้าใบแนวตั้ง (หรือกลับกัน) Veo 3.1 สร้างองค์ประกอบแนวตั้งแบบเนทีฟ (9:16) ทำให้การวางตัวแบบ สัญญาณความลึก และการเคลื่อนไหวรู้สึกว่าได้รับการจัดวางเพื่อฟอร์แมตนั้น (สำคัญสำหรับงานสร้างสรรค์บน TikTok/Shorts/Reels creative)
- การวนซ้ำที่เร็วขึ้นสำหรับคอนเทนต์สั้น: UX และโมเดลถูกปรับจูนเพื่อเอาต์พุต “social-first” 8 วินาทีในหลายบริบทผลิตภัณฑ์ (Gemini app, Flow) ช่วยให้ผู้สร้างทดลองได้รวดเร็ว
“Ingredients to Video” ทำงานอย่างไร และมีอะไรใหม่ใน 3.1?
ฟีเจอร์ที่โดดเด่นของรุ่นนี้คือความสามารถ “Ingredients to Video” ที่ปรับปรุงใหม่ ฟีเจอร์นี้อนุญาตให้ผู้ใช้ให้ “ส่วนประกอบ” เชิงภาพที่แตกต่างกันซึ่งโมเดลต้องนำไปใช้ในเอาต์พุตสุดท้าย ช่วยเชื่อมช่องว่างระหว่างการจัดการแอสเซ็ตและการสร้างวิดีโอได้อย่างมีประสิทธิภาพ.
แนวคิดของ “Ingredients to Video” คืออะไร?
ในรุ่นก่อน “Image-to-Video” ส่วนใหญ่เป็นงานทำให้ภาพนิ่งเคลื่อนไหวหนึ่งภาพ Veo 3.1 ขยายสิ่งนี้ด้วยการอนุญาตให้อัปโหลด ภาพอ้างอิงหลายภาพ (สูงสุดสามภาพ) เพื่อกำหนดฉาก แอสเซ็ตเหล่านี้ทำหน้าที่เป็นตัวแบบ (บุคคล วัตถุ เนื้อผิว หรือฉากหลัง) และโมเดลจะประพันธ์การเคลื่อนไหว การจัดกรอบกล้อง และทรานซิชันรอบ ๆ สิ่งเหล่านั้นเพื่อสร้างวิดีโอสั้นที่คงเอกลักษณ์ภาพที่ให้มาไว้ นี่แตกต่างจากการสร้างจากข้อความล้วนเพราะวางข้อจำกัดด้านรูปลักษณ์และความต่อเนื่องทางภาพตั้งแต่ต้น
- การผสมบริบท: คุณสามารถอัปโหลดภาพบุคคล (Character A) ภาพสถานที่ (Background B) และภาพอ้างอิงสไตล์ (Style C) Veo 3.1 สังเคราะห์องค์ประกอบที่แตกต่างเหล่านี้ให้เป็นวิดีโอที่กลมกลืน โดยที่ Character A กระทำภายใน Environment B เรนเดอร์ด้วย Style C
- การพรอมต์แบบมัลติโหมด: อินพุตภาพนี้ทำงานร่วมกับข้อความ คุณสามารถให้ภาพผลิตภัณฑ์และพรอมต์ข้อความว่า "ระเบิดเป็นอนุภาค" และโมเดลจะยึดรายละเอียดภาพของผลิตภัณฑ์อย่างเคร่งครัดขณะดำเนินฟิสิกส์ตามพรอมต์ข้อความ
มีอะไรใหม่ในโหมด Ingredients ของ Veo 3.1?
Veo 3.1 นำเสนอการปรับปรุงที่เป็นรูปธรรมหลายประการในโฟลว์ Ingredients:
- ความแสดงออกจากพรอมต์สั้น: แม้พรอมต์ข้อความสั้น ๆ ก็ให้การเคลื่อนไหวเชิงบรรยายและอารมณ์ที่เข้มขึ้นเมื่อจับคู่กับภาพส่วนประกอบ ทำให้ง่ายขึ้นในการได้ผลลัพธ์ที่ใช้ได้ด้วยการวนซ้ำน้อยลง
- การคงเอกลักษณ์ของตัวแบบที่แข็งแรงขึ้น: โมเดลคงเอกลักษณ์ภาพของตัวแบบ (ใบหน้า เครื่องแต่งกาย ตราสินค้าบนผลิตภัณฑ์) ข้ามหลายช็อตและการเปลี่ยนฉากได้ดีขึ้น ลดความจำเป็นในการป้อนแอสเซ็ตซ้ำเพื่อความต่อเนื่อง
- ความสม่ำเสมอของวัตถุและฉากหลัง: วัตถุและองค์ประกอบฉากสามารถคงอยู่ข้ามคัต ช่วยให้เรื่องเล่ามีความสอดคล้อง และเปิดโอกาสให้ใช้พร็อพหรือเท็กซ์เจอร์ซ้ำ
- เพิ่มการกระทำแบบไดนามิกและจังหวะการเล่าเรื่องให้ฉากโดยอัตโนมัติ;
- วิดีโอที่ได้มีความเข้มข้นด้าน "การเล่าเรื่อง" และ "รายละเอียดใบหน้า" มากขึ้น เพิ่มความเป็นธรรมชาติในการรับรู้ภาพของมนุษย์
การปรับปรุงเหล่านี้ออกแบบมาเพื่อลดจุดเจ็บปวดที่พบบ่อยที่สุดของการสร้างจากภาพสู่วิดีโอ: การเบี่ยงเบนของตัวแบบ ความไม่สอดคล้องของฉากหลัง และการสูญเสียการปรับแต่งสไตล์เมื่อขยับระหว่างเฟรม
กรณีใช้งานจริงของ Ingredients to Video
- ทำให้มาสคอตแบรนด์เคลื่อนไหวจากแอสเซ็ตงานออกแบบ
- แปลงภาพถ่ายพอร์ตเทรตของนักแสดงเป็นคลิปเคลื่อนไหวสำหรับโฆษณาโซเชียล
- ทำต้นแบบอย่างรวดเร็วของงานจัดแสงและเนื้อผิวก่อนการผลิตเต็มรูปแบบ
Veo 3.1 แนะนำการอัปเกรดด้านความสม่ำเสมออะไรบ้าง?
ในการสร้างซีเควেন্সหลายช็อตหรือหลายฉาก การรักษาเอกลักษณ์ของตัวแบบ (ใบหน้า เครื่องแต่งกาย ฉลากผลิตภัณฑ์) การวางตำแหน่งวัตถุ และความต่อเนื่องของฉากหลังเป็นสิ่งสำคัญต่อความน่าเชื่อถือของเรื่องเล่า ความไม่สอดคล้อง—การเปลี่ยนแปลงเล็กน้อยในโครงหน้า รูปร่างวัตถุ หรือพื้นผิว—ทำลายความเชื่อของผู้ชมและต้องการการแก้มือหรือสร้างใหม่ด้วยตนเอง รุ่นก่อนหน้ามักแลกความยืดหยุ่นกับความสอดคล้อง; Veo 3.1 พยายามลดการแลกนี้
Veo 3.1 ทำให้สามารถสร้างซีเควেন্সสั้นและจังหวะเรื่องราวที่อ่านเป็นเรื่องเล่าต่อเนื่อง ไม่ใช่ชุดวินเยตต์แยกกัน การปรับปรุงนี้เป็นแกนกลางของประสบการณ์ 3.1:
- เสถียรภาพตามเวลา: โมเดลลดเอฟเฟ็กต์ "morphing" อย่างมีนัยสำคัญ ซึ่งใบหน้าหรือวัตถุเปลี่ยนรูปทรงเล็กน้อยเมื่อเวลาผ่านไป
- ความสอดคล้องข้ามช็อต: ด้วยการใช้ภาพ "ส่วนประกอบ" เดียวกันข้ามพรอมต์ต่าง ๆ ผู้สร้างสามารถสร้างหลายคลิปของตัวละครเดียวกันในสถานการณ์ต่าง ๆ โดยไม่ทำให้ดูเหมือนคนละคน นี่เป็นก้าวกระโดดครั้งใหญ่สำหรับแนวทางแบรนด์และการสร้างคอนเทนต์แบบตอน
- การผสมเท็กซ์เจอร์: อนุญาตให้ตัวละคร วัตถุ และฉากหลังสไตล์ต่าง ๆ ผสมกลมกลืนกัน สร้างวิดีโอคุณภาพสูงที่มีสไตล์เป็นหนึ่งเดียว
ผลกระทบเชิงปฏิบัติ
สำหรับบรรณาธิการและผู้สร้างคอนเทนต์บนโซเชียล หมายถึงการแก้น้อยลงและลดงานโรโต้สโคป; สำหรับนักพัฒนาและสตูดิโอ ช่วยลดแรงเสียดทานเมื่อต้องทำให้ซีเควেন্সหลายช็อตเป็นอัตโนมัติ และลดการคัดเลือกด้วยมือที่ต้องใช้เพื่อคงความต่อเนื่องทางภาพระหว่างแอสเซ็ต

การอัปเกรดเอาต์พุตของ Veo 3.1: แนวตั้งและความเที่ยงตรงสูง
เอาต์พุตแนวตั้งแบบเนทีฟ
ด้วยการครองตลาดของ TikTok, YouTube Shorts และ Instagram Reels ความต้องการวิดีโอแนวตั้งคุณภาพสูงนั้นมหาศาล Veo 3.1 ในที่สุดก็ให้ความสำคัญกับฟอร์แมตนี้อย่างเหมาะสม
Veo 3.1 แนะนำการสร้างอัตราส่วนภาพ 9:16 แบบเนทีฟ.
- ไม่ต้องครอป: ต่างจากเวิร์กโฟลว์ก่อนหน้าที่สร้างวิดีโอจัตุรัสหรือแนวนอนแล้วครอป (สูญเสียความละเอียดและการจัดกรอบ) Veo 3.1 ประพันธ์ช็อตแนวตั้งตั้งแต่แรก
- ความฉลาดด้านการจัดกรอบ: โมเดลเข้าใจกฎองค์ประกอบแนวตั้ง มั่นใจว่าตัวแบบอยู่กึ่งกลางและโครงสร้างที่สูงถูกใช้ประโยชน์อย่างมีประสิทธิภาพ แทนที่จะสร้างเส้นขอบฟ้ากว้างที่ดูเทอะทะเมื่อบีบลงบนหน้าจอโทรศัพท์
การสร้างแนวตั้งแบบเนทีฟเปลี่ยนเวิร์กโฟลว์อย่างไร
- เผยแพร่เร็วขึ้น: ไม่ต้องครอปและจัดกรอบใหม่หลังการสร้าง
- องค์ประกอบที่ดีขึ้น: โมเดลประพันธ์ฉากโดยคำนึงถึงการจัดกรอบแนวตั้ง (พื้นที่เหนือศีรษะ เส้นทางการเคลื่อนไหว)
- พร้อมแพลตฟอร์ม: ส่งออกเหมาะกับ TikTok และ Shorts โดยแทบไม่ต้องแก้ไข
เอาต์พุตความเที่ยงตรงสูง
ความละเอียดเป็นคอขวดใหญ่สำหรับวิดีโอ AI Veo 3.1 ทะลุเพดาน 720p/1080p ด้วยการรองรับ 4K แบบเนทีฟ
- อัปสเกลแบบบูรณาการ: พายป์ไลน์รวมโมดูลซูเปอร์เรโซลูชันใหม่ที่อัปสเกลคอนเทนต์ที่สร้างเป็น 4K (3840x2160) หรือ 1080p ด้วยบิตเรตที่คงความเที่ยงตรงสูง
- ลดอาร์ติแฟกต์: ตัวอัปสเกลได้รับการฝึกกับอาร์ติแฟกต์ที่เกิดเฉพาะในงานสร้าง ทำให้สามารถปรับเรียบ "shimmer" ที่มักพบในเท็กซ์เจอร์ของ AI พร้อมเพิ่มความคมชัดของขอบ ทำให้เอาต์พุตเหมาะกับไทม์ไลน์ตัดต่อระดับมืออาชีพ
Veo 3.1 เทียบกับ Sora 2.0 อย่างไร?
การเปรียบเทียบระหว่าง Veo 3.1 ของ Google และ Sora 2.0 ของ OpenAI กำหนดภูมิทัศน์ปัจจุบันของวิดีโอ AI แม้ทั้งคู่จะทรงพลัง แต่ก็รับใช้เป้าหมายที่ต่างกัน
| คุณสมบัติ | Google Veo 3.1 | OpenAI Sora 2.0 |
|---|---|---|
| ปรัชญาหลัก | การควบคุมและความสม่ำเสมอ ออกแบบเพื่อเวิร์กโฟลว์การผลิตที่ต้องเคารพแอสเซ็ตเฉพาะ (ผลิตภัณฑ์ ตัวละคร) | การจำลองและฟิสิกส์ ออกแบบเพื่อจำลองโลกแห่งความจริงอย่างเที่ยงตรง มุ่งเน้น "การสร้างแบบครั้งเดียว" จากข้อความและภาพ โดยให้ความสำคัญกับความสมจริงทางภาพ ความถูกต้องทางฟิสิกส์ และเสียงที่ซิงก์ |
| ความยืดหยุ่นของอินพุต | สูง "Ingredients to Video" อนุญาตให้ใส่ภาพหลายภาพเพื่อควบคุมแอสเซ็ตอย่างแม่นยำ | ปานกลาง แข็งแกร่งด้านข้อความสู่วิดีโอและภาพเริ่มต้นเดี่ยว แต่ควบคุมองค์ประกอบเฉพาะได้ละเอียดน้อยกว่า |
| วิดีโอแนวตั้ง | 9:16 แบบเนทีฟ องค์ประกอบถูกปรับเหมาะกับฟอร์แมตมือถือ | รองรับ แต่บ่อยครั้งให้ความสำคัญกับภาพยนตร์ 16:9 จอกว้างตามข้อมูลฝึก |
| ความละเอียด | 4K (ผ่านการอัปสเกล) เอาต์พุตคมชัดพร้อมออกอากาศ | 1080p แบบเนทีฟ คุณภาพสูง แต่ต้องอัปสเกลภายนอกเพื่อเวิร์กโฟลว์ 4K |
| ความปลอดภัยของแบรนด์ | สูง ราวกันชนที่เข้มและความคงตัวของแอสเซ็ตทำให้ปลอดภัยสำหรับงานพาณิชย์ | แปรผัน อาจจินตนาการฟิสิกส์หรือรายละเอียดที่หลุดจากพรอมต์เพื่อความ "สร้างสรรค์" |
| เอกลักษณ์/ความสม่ำเสมอ | ปรับปรุงความสม่ำเสมอของตัวแบบและวัตถุโดยยึดกับภาพอ้างอิง (Ingredients) | Sora 2 เน้นความสม่ำเสมอและการควบคุมข้ามหลายช็อตเช่นกัน |
ความแตกต่างเชิงปฏิบัติ
- เวิร์กโฟลว์มือถือและแนวตั้ง: Veo 3.1 มุ่งเป้าอย่างชัดเจนไปที่ผู้สร้างบนมือถือด้วยการเรนเดอร์แนวตั้งแบบเนทีฟและการเชื่อมต่อ YouTube Shorts โดยตรง—เป็นข้อได้เปรียบด้านประสิทธิภาพสำหรับสายงานคอนเทนต์สั้น
- เสียงและซิงก์เสียง: Sora 2 เน้นบทสนทนาและเอฟเฟ็กต์เสียงที่ซิงก์เป็นความสามารถหลัก ซึ่งอาจเป็นตัวตัดสินสำหรับผู้สร้างที่ต้องการการสร้างเสียงแบบบูรณาการร่วมกับภาพเคลื่อนไหว
โดยสรุป: Veo 3.1 ทำให้ช่องว่างเชิงปฏิบัติสำคัญด้านการจัดรูปแบบบนมือถือและการอัปสเกลเพื่อการผลิตแคบลง ขณะที่ Sora 2 ยังคงนำในด้านเสียงแบบบูรณาการและเมตริกความสมจริงบางประการ ทางเลือกขึ้นกับลำดับความสำคัญของเวิร์กโฟลว์: การเล่าเรื่องที่ยึดกับภาพอ้างอิงและเน้นมือถือ (Veo) เทียบกับความสมจริงระดับภาพยนตร์พร้อมเสียง (Sora 2)
เหตุผลที่สำคัญ: หากคุณเป็นผู้สร้างคอนเทนต์โซเชียลที่ต้องการคลิปไวรัลสุดสมจริงของแมมมอธขนยาวเดินผ่าน NYC Sora 2.0 มักให้ “ว้าว” ต่อวินาทีมากกว่า อย่างไรก็ตาม หากคุณเป็นเอเจนซี่โฆษณาที่ต้องทำให้กระป๋องโซดาเฉพาะ (Ingredient A) เคลื่อนไหวบนชายหาดเฉพาะ (Ingredient B) สำหรับโฆษณาแนวตั้งบน Instagram Veo 3.1 คือเครื่องมือที่เหนือกว่า
นักพัฒนาและผู้สร้างจะเริ่มใช้ Veo 3.1 ได้อย่างไรตั้งแต่วันนี้?
Veo 3.1 มีให้ใช้ที่ไหน?
Veo 3.1 มีให้ใช้ใน Gemini API ผ่าน CometAPI ทำไมฉันถึงแนะนำ CometAPI ให้คุณ? เพราะถูกที่สุดและใช้งานง่าย และคุณยังสามารถพบ sora 2 API ฯลฯ ได้ในนั้น.
รูปแบบการใช้งานตัวอย่างและโค้ดตัวอย่าง
import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post( f"{BASE_URL}/create", headers={ "Authorization": COMETAPI_KEY, "Content-Type": "application/json", }, json={ "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene", "model": "veo3.1", "enhance_prompt": True, },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True: query_response = requests.get( f"{BASE_URL}/query/{task_id}", headers={ "Authorization": f"Bearer {COMETAPI_KEY}", }, ) result = query_response.json() status = result["data"]["status"] progress = result["data"].get("progress", "") print(f"Checking status... {status} {progress}") if status == "SUCCESS" or result["data"]["data"]["status"] == "completed": video_url = result["data"]["data"]["video_url"] print(f"Video URL: {video_url}") break elif status == "FAILED": print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}") break time.sleep(10)
บทสรุป
Veo 3.1 แสดงถึงการเติบโตเต็มที่ของวิดีโอสร้างสรรค์ ด้วยการก้าวข้ามการสร้างจากข้อความสู่พิกเซลแบบเดาสุ่ม และนำเสนอเครื่องมือที่แข็งแรงสำหรับการควบคุมแอสเซ็ต ("Ingredients") การปรับรูปแบบ (แนวตั้งแบบเนทีฟ) และคุณภาพการส่งมอบ (4K) Google ได้มอบ API วิดีโอสร้างสรรค์ระดับ "สตูดิโอเกรด" ตัวแรก สำหรับองค์กรที่ต้องการทำให้การผลิตคอนเทนต์เป็นอัตโนมัติในวงกว้าง การรอคอยโมเดลวิดีโอที่ควบคุมได้และความเที่ยงตรงสูงสิ้นสุดลงแล้ว
นักพัฒนาสามารถเข้าถึง Veo 3.1 API ผ่าน CometAPI เพื่อเริ่มต้น สำรวจความสามารถของโมเดลบน CometAPI ใน Playground และดู API guide สำหรับคำแนะนำโดยละเอียด ก่อนเข้าถึง โปรดตรวจสอบให้แน่ใจว่าได้ล็อกอิน CometAPI และได้รับคีย์ API แล้ว CometAPI มีราคาต่ำกว่าราคาอย่างเป็นทางการอย่างมากเพื่อช่วยให้คุณผสานรวมได้
Ready to Go?→ Sign up for CometAPI today !
หากคุณต้องการเคล็ดลับ คู่มือ และข่าวสารด้าน AI เพิ่มเติม โปรดติดตามเราได้บน VK, X และ Discord!
