xAI đã công bố Imagine Hãy tưởng tượng v0.9, một bản cập nhật lớn cho dòng sản phẩm Grok "Imagine" chuyển đổi văn bản và hình ảnh thành video, lần đầu tiên trong quy trình phát triển, tạo ra âm thanh đồng bộ bên trong các video clip đã sản xuất — bao gồm nhạc nền, lời thoại và giọng hát — đồng thời cải thiện chất lượng hình ảnh, chuyển động và điều khiển điện ảnh. Mô hình này được xAI công bố vào ngày 7 Tháng Mười và đang được triển khai trên các sản phẩm xAI/Grok.
Imagine v0.9 là gì
Imagine v0.9 là mô hình video thế hệ tiếp theo của xAI (một phần của hệ thống Grok/Aurora) có khả năng biến lời nhắc văn bản hoặc hình ảnh được cung cấp thành các đoạn phim ngắn mang tính điện ảnh. Trong khi các phiên bản trước chỉ tạo ra các đoạn phim câm hoặc yêu cầu công cụ âm thanh riêng biệt, Imagine v0.9 tạo ra các bản âm thanh tích hợp được căn chỉnh theo các sự kiện trực quan (chuyển động môi, hành động, bầu không khí) như một phần của một thế hệ duy nhất. xAI đã định vị mô hình này như một sự phát triển của bộ công cụ Grok Imagine của họ.
Đặc tính nổi bật
- Đồng bộ hóa âm thanh-video gốc: Imagine v0.9 tạo ra nhạc nền, âm thanh xung quanh, lời thoại và thậm chí cả giọng hát được đồng bộ với hình ảnh được tạo ra thay vì yêu cầu chỉnh sửa âm thanh riêng biệt.
- Cải thiện độ trung thực và chuyển động của hình ảnh: chuyển động nhân vật sống động hơn, vật lý mượt mà hơn và hiệu ứng máy quay điện ảnh (chuyển tiêu điểm, lia máy).
- Giao diện giọng nói đầu tiên: một tùy chọn để tạo nội dung bằng lời nhắc — hướng đến quy trình làm việc rảnh tay.
- Tốc độ và lặp lại: bản demo công khai và báo cáo khẳng định thời gian tạo clip ngắn dưới 15 giây (tùy thuộc vào chế độ mô hình và tải).
- Nhiều chế độ đầu ra: đường dẫn văn bản→hình ảnh→video và chuyển đổi hình ảnh trực tiếp→video (chuyển đổi ảnh thành clip ngắn).
- **Thời gian tạo ra sản phẩm nhanh:**độ trễ tạo ngắn (nhiều ví dụ chạy trong khoảng 15–20 giây đối với các clip ngắn).
Có gì mới so với phiên bản trước
Tiêu đề thay đổi là âm thanh được tạo ra như một đầu ra hạng nhất, không phải là một ý tưởng chợt nảy. Điều đó có nghĩa là Imagine v0.9 cố gắng khớp các sự kiện âm thanh (lời nói, bước chân, tiếng gầm rú, tín hiệu âm nhạc) với thời gian video mà nó tạo ra, thay vì yêu cầu một bước lồng tiếng hoặc chỉnh sửa riêng biệt. xAI cũng nhấn mạnh những bước nhảy vọt về độ chân thực chuyển động, khả năng điều khiển camera và giao diện nhanh hơn, tương tác hơn. So với các tính năng video Imagine/Grok trước đây của xAI (ví dụ: v0.1), Imagine v0.9 mang đến:
- Tạo âm thanh tích hợp (không chỉ là video im lặng hoặc lớp phủ TTS riêng biệt).
- Cải thiện khả năng điều khiển chuyển động và camera, cho phép tạo khung hình điện ảnh hơn và kể chuyện năng động hơn.
- UX ưu tiên giọng nói để nhập cảnh nhanh chóng và báo cáo về các nâng cấp về tốc độ và thông lượng được thúc đẩy bởi ngăn xếp Aurora/Grok cơ bản của xAI.
Cách truy cập Imagine v0.9
Trong đó: Khả năng được thể hiện thông qua Cảm nhận (trợ lý của xAI) và các ứng dụng và tích hợp Grok / xAI.
Phương pháp:
- Chế độ giọng nói: Nếu bạn thích lời nhắc nói, hãy bật ứng dụng giọng nói đầu tiên chế độ (thường được gắn nhãn "Mở ứng dụng ở chế độ giọng nói" trong các hướng dẫn ban đầu) và đọc lời nhắc hoặc hướng cảnh của bạn.
- Hình ảnh → video: Bạn có thể chuyển đổi hình ảnh tĩnh thành các clip ngắn có âm thanh đồng bộ bằng cách cung cấp hình ảnh cùng hướng dẫn về chuyển động và âm thanh (nhạc nền, lời thoại, phong cách hát).
- Yêu cầu kiểu dáng, hành động máy quay hoặc thời lượng ngắn; clip đầu ra hiện tại ngắn (ví dụ/thông báo hiển thị rất ngắn—vài giây).
Hạn chế và lưu ý về an toàn
- Tôi nhận thấy những vấn đề dai dẳng trong giải phẫu học con người, tính liên tục giữa các khung hình và các hiện tượng khác thường thấy ở hệ thống video tạo hình — kết quả rất ấn tượng nhưng không hoàn hảo.
- Grok Imagine đã vấp phải chỉ trích về cài đặt kiểm duyệt: phiên bản 0.9 có chế độ "Spicy" (Cay Cay) và trước đây, các rào cản của Grok đã bị bỏ qua, do đó có những lo ngại thực sự về an toàn nội dung (deepfake, NSFW, lạm dụng bản quyền/người nổi tiếng). Hãy sử dụng thận trọng và tuân thủ các quy tắc của nền tảng.
Kết luận:
Imagine v0.9 là một bước tiến đáng chú ý hướng tới việc sản xuất video ngắn → văn bản/hình ảnh tích hợp thực sự bằng cách thêm âm thanh gốc, đồng bộ (nhạc, hội thoại, ca hát) vào đầu ra Grok Imagine của xAI đồng thời cải thiện khả năng điều khiển chuyển động và điện ảnh.
Bạn có muốn nhận lời khuyên theo kiểu demo không?
Sử dụng lời nhắc ngắn gọn, mô tả và bao gồm hướng dẫn về chuyển động và máy quay. Ví dụ:
nhắc nhở: “Cảnh quay cận cảnh một con rồng đỏ đang gầm rú, máy quay tiến vào và nghiêng lên khi nó phun lửa, ánh sáng điện ảnh, vòng lặp 6 giây, thêm tiếng gầm rú sâu lắng đồng bộ với hơi thở.”
Mẫu đó (chủ thể + chuyển động + máy quay + chiều dài + âm thanh) thường mang lại kết quả rõ ràng hơn.
Cách bắt đầu tạo video thông qua CometAPI
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
CometAPI cam kết sẽ theo dõi các động thái API mô hình mới nhất, bao gồm cả API Grok Imagine, sẽ được phát hành đồng thời với bản phát hành chính thức. Hãy đón chờ và tiếp tục theo dõi CometAPI. Trong khi chờ đợi, hãy khám phá các mô hình hình ảnh khác của chúng tôi, chẳng hạn như: Sora 2và Sora 2 trên quy trình làm việc của bạn hoặc thử chúng trong AI Playground. Bạn có thể khám phá các khả năng của mô hình trong Sân chơi và tham khảo hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
