xAI ประกาศเปิดตัว Imagine ลองนึกภาพ v0.9ซึ่งเป็นการอัปเดตครั้งสำคัญสำหรับตระกูล Grok “Imagine” ที่แปลงข้อความและรูปภาพเป็นวิดีโอ ซึ่งเป็นครั้งแรกที่บริษัทสามารถสร้างเสียงที่ซิงโครไนซ์ภายในคลิปวิดีโอที่สร้างขึ้น ซึ่งรวมถึงดนตรีประกอบ บทสนทนา และการร้องเพลง พร้อมทั้งปรับปรุงคุณภาพของภาพ การเคลื่อนไหว และการควบคุมภาพยนตร์ โมเดลนี้เปิดตัวโดย xAI 7 ตุลาคม 2025 และกำลังเปิดตัวในผลิตภัณฑ์ xAI/Grok
Imagine v0.9 คืออะไร
Imagine v0.9 คือโมเดลวิดีโอรุ่นใหม่ของ xAI (ซึ่งเป็นส่วนหนึ่งของตระกูล Grok/Aurora) ที่แปลงข้อความแจ้งเตือนหรือรูปภาพที่ส่งมาให้เป็นคลิปภาพยนตร์สั้นๆ ในขณะที่เวอร์ชันก่อนหน้าสร้างคลิปเสียงเงียบหรือต้องใช้เครื่องมือเสียงแยกต่างหาก Imagine v0.9 จะสร้าง แทร็กเสียงแบบบูรณาการที่สอดคล้องกับเหตุการณ์ภาพ (การเคลื่อนไหวของริมฝีปาก การกระทำ บรรยากาศ) เป็นส่วนหนึ่งของการส่งผ่านรุ่นเดียว xAI ได้วางตำแหน่งโมเดลดังกล่าวเป็นวิวัฒนาการของชุดเครื่องมือ Grok Imagine
หัวข้อสำคัญ
- การซิงโครไนซ์เสียงและวิดีโอดั้งเดิม: Imagine v0.9 สร้างดนตรีประกอบ เสียงบรรยากาศ บทสนทนา และแม้กระทั่งการร้องเพลงที่ซิงโครไนซ์กับภาพที่สร้างขึ้น แทนที่จะต้องมีการแก้ไขเสียงแยกต่างหาก
- ปรับปรุงความเที่ยงตรงของภาพและการเคลื่อนไหว: การเคลื่อนไหวของตัวละครที่สมจริงยิ่งขึ้น ฟิสิกส์ที่ราบรื่นยิ่งขึ้น และเอฟเฟกต์กล้องภาพยนตร์ (การเปลี่ยนโฟกัส การแพน)
- อินเทอร์เฟซที่เน้นเสียงเป็นหลัก: ตัวเลือกในการสร้างเนื้อหาโดยการพูดแจ้งเตือน - มุ่งเป้าไปที่เวิร์กโฟลว์แบบแฮนด์ฟรี
- ความเร็วและการวนซ้ำ: การสาธิตต่อสาธารณะและการรายงานอ้างว่าสามารถสร้างคลิปสั้นได้ในเวลาต่ำกว่า 15 วินาที (ขึ้นอยู่กับโหมดและโหลดของรุ่น)
- โหมดเอาท์พุตหลายโหมด: ข้อความ→รูปภาพ→วิดีโอ และการแปลงรูปภาพ→วิดีโอโดยตรง (สร้างภาพเคลื่อนไหวเป็นคลิปสั้นๆ)
- **เวลาในการสร้างที่รวดเร็ว:**ความล่าช้าในการสร้างระยะสั้น (ตัวอย่างจำนวนมากทำงานในช่วง ~15–20 วินาทีสำหรับคลิปสั้น)
มีอะไรใหม่เมื่อเทียบกับเวอร์ชันก่อนหน้า
การเปลี่ยนแปลงหัวข้อข่าวคือ เสียงที่สร้างเป็นเอาท์พุตระดับเฟิร์สคลาสไม่ใช่เรื่องที่คิดขึ้นภายหลัง นั่นหมายความว่า Imagine v0.9 พยายามจับคู่เหตุการณ์เสียง (เสียงพูด เสียงฝีเท้า เสียงคำราม คิวดนตรี) ให้ตรงกับจังหวะของวิดีโอที่สร้างขึ้น แทนที่จะต้องมีขั้นตอนการพากย์เสียงหรือตัดต่อแยกต่างหาก xAI ยังเน้นความสมจริงของการเคลื่อนไหวแบบก้าวกระโดด ความสามารถในการควบคุมกล้อง และอินเทอร์เฟซที่เร็วขึ้นและโต้ตอบได้มากขึ้น เมื่อเปรียบเทียบกับความสามารถด้านวิดีโอ Imagine/Grok ก่อนหน้านี้ของ xAI (เช่น v0.1) Imagine v0.9 นำเสนอ:
- การสร้างเสียงแบบบูรณาการ (ไม่ใช่แค่เพียงวิดีโอแบบเงียบหรือโอเวอร์เลย์ TTS แยกต่างหาก)
- ปรับปรุงการควบคุมการเคลื่อนไหวและกล้องช่วยให้สามารถจัดวางฉากภาพยนตร์และการเล่าเรื่องแบบไดนามิกได้มากขึ้น
- UX ที่เน้นเสียงเป็นหลัก เพื่อการเข้าใช้งานที่รวดเร็ว และรายงานความเร็วและการอัปเกรดปริมาณงานที่ขับเคลื่อนโดยสแต็ก Aurora/Grok ที่เป็นพื้นฐานของ xAI
วิธีการเข้าถึง Imagine v0.9
ที่ไหน: ความสามารถที่ปรากฏออกมาผ่าน กร๊าก (ผู้ช่วยของ xAI) และแอปและการผสานรวม Grok / xAI
วิธีการ:
- โหมดเสียง: หากคุณต้องการพูดคำแนะนำ ให้เปิดใช้งานแอป เสียงมาก่อน โหมด (มักมีป้ายกำกับว่า "เปิดแอปในโหมดเสียง" ในคู่มือฉบับแรกๆ) และกำหนดทิศทางคำกระตุ้นหรือฉากของคุณ
- รูปภาพ → วิดีโอ: คุณสามารถแปลงภาพนิ่งเป็นคลิปสั้นๆ ที่ซิงค์เสียงได้ โดยใส่ภาพพร้อมคำแนะนำสำหรับการเคลื่อนไหวและเสียง (ดนตรีประกอบ บทพูด สไตล์การร้องเพลง)
- ขอรูปแบบ การดำเนินการของกล้อง หรือระยะเวลาสั้น ๆ คลิปเอาต์พุตในปัจจุบันสั้น (ตัวอย่าง/ประกาศแสดงให้เห็นว่าสั้นมาก — หลายวินาที)
ข้อจำกัดและหมายเหตุด้านความปลอดภัย
- ฉันสังเกตเห็นปัญหาที่เกิดขึ้นอย่างต่อเนื่องในกายวิภาคของมนุษย์ ความต่อเนื่องระหว่างเฟรม และสิ่งประดิษฐ์อื่นๆ ที่พบได้ทั่วไปในระบบวิดีโอเชิงสร้างสรรค์ ผลลัพธ์นั้นน่าประทับใจแต่ไม่สมบูรณ์แบบ
- Grok Imagine ถูกวิพากษ์วิจารณ์เกี่ยวกับการตั้งค่าการควบคุม: เวอร์ชัน 0.9 เปิดเผยโหมด "เผ็ดร้อน" และที่ผ่านมา Grok ก็หลีกเลี่ยงข้อจำกัดต่างๆ ดังนั้นจึงมีข้อกังวลด้านความปลอดภัยของเนื้อหา (เช่น ดีปเฟก, NSFW, การใช้ในทางที่ผิดโดยละเมิดลิขสิทธิ์/โดยบุคคลที่มีชื่อเสียง) โปรดใช้ด้วยความระมัดระวังและปฏิบัติตามกฎของแพลตฟอร์ม
สรุป:
Imagine v0.9 ถือเป็นก้าวสำคัญสู่การผลิตวิดีโอสั้นที่มีข้อความ/รูปภาพที่บูรณาการอย่างแท้จริง ด้วยการเพิ่มเสียงที่ซิงโครไนซ์แบบดั้งเดิม (เพลง บทสนทนา การร้องเพลง) ให้กับเอาต์พุต Grok Imagine ของ xAI พร้อมทั้งปรับปรุงการเคลื่อนไหวและการควบคุมภาพยนตร์
อยากได้คำแนะนำแบบเดโม่ไหม?
ใช้คำกระตุ้นที่กระชับและอธิบายได้ชัดเจน พร้อมระบุคำแนะนำเกี่ยวกับการเคลื่อนไหวและกล้อง ตัวอย่าง:
Prompt: ภาพระยะใกล้ของมังกรแดงที่กำลังคำราม กล้องเคลื่อนเข้าไปและเอียงขึ้นขณะที่มันพ่นเปลวไฟ แสงไฟแบบภาพยนตร์ วนซ้ำ 6 วินาที เพิ่มเสียงคำรามอันดังสนั่นที่สอดประสานกับลมหายใจ
รูปแบบนั้น (วัตถุ + การเคลื่อนไหว + กล้อง + ความยาว + เสียง) มักจะให้ผลลัพธ์ที่ชัดเจนกว่า
วิธีเริ่มต้นสร้างวิดีโอผ่าน CometAPI
CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI
CometAPI สัญญาว่าจะติดตามพลวัตของ API รุ่นล่าสุด รวมถึง Grok Imagine API ซึ่งจะเปิดตัวพร้อมกับการเปิดตัวอย่างเป็นทางการ โปรดติดตามและให้ความสนใจกับ CometAPI ต่อไป ในระหว่างที่รอ ลองสำรวจโมเดลภาพอื่นๆ ของเรา เช่น โซระ 2,และ โซระ 2 ในเวิร์กโฟลว์ของคุณหรือลองใช้ใน AI Playground คุณสามารถสำรวจความสามารถของโมเดลได้ใน สนามเด็กเล่น และดูคำแนะนำโดยละเอียดในคู่มือ API ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว CometAPI เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณในการผสานรวม
