xAI mengumumkan Imagine Bayangkan v0.9, kemas kini utama kepada keluarga teks-dan-imej-ke-video Grok "Imagine" yang, buat pertama kali dalam perancangannya, menjana audio yang disegerakkan di dalam klip video yang dihasilkan — termasuk muzik latar belakang, dialog pertuturan dan nyanyian — sambil meningkatkan kualiti visual, gerakan dan kawalan sinematik. Model itu telah diperkenalkan oleh xAI pada Oktober 7, 2025 dan sedang dilancarkan di seluruh produk xAI/Grok.
Apa itu Bayangkan v0.9
Bayangkan v0.9 ialah model video generasi seterusnya xAI (sebahagian daripada keluarga keupayaan Grok / Aurora) yang menukar gesaan teks atau imej yang dibekalkan kepada klip sinematik pendek. Apabila lelaran awal menghasilkan klip senyap atau memerlukan alatan audio berasingan, Bayangkan v0.9 dihasilkan trek audio bersepadu yang diselaraskan dengan acara visual (pergerakan bibir, tindakan, suasana) sebagai sebahagian daripada pas generasi tunggal. xAI telah meletakkan model tersebut sebagai evolusi set alat Grok Imagine mereka.
Ciri-ciri utama
- Penyegerakan audio–video asli: Bayangkan v0.9 menghasilkan muzik latar belakang, bunyi ambien, dialog pertuturan dan juga nyanyian yang disegerakkan dengan visual yang dihasilkan dan bukannya memerlukan penyuntingan bunyi yang berasingan.
- Kesetiaan & gerakan visual yang dipertingkatkan: pergerakan watak yang lebih hidup, fizik yang lebih lancar dan kesan kamera sinematik (anjakan fokus, kuali).
- Antara muka suara pertama: pilihan untuk menjana kandungan dengan gesaan bercakap — bertujuan untuk aliran kerja bebas tangan.
- Kelajuan & lelaran: tunjuk cara awam dan tuntutan pelaporan generasi sub-15 saat untuk klip pendek (bergantung pada mod model dan beban).
- Mod keluaran berbilang: teks → imej → saluran paip video dan imej langsung → penukaran video (menghidupkan foto menjadi klip pendek).
- **Masa penjanaan cepat:**t kependaman generasi pendek (banyak contoh berjalan dalam julat ~15–20 saat untuk klip pendek).
Perkara baharu berbanding versi terdahulu
Perubahan tajuk ialah audio yang dihasilkan sebagai output kelas pertama, bukan renungan. Ini bermakna Imagine v0.9 cuba memadankan peristiwa bunyi (pertuturan, jejak kaki, raungan, isyarat muzik) dengan pemasaan video yang dibuatnya, dan bukannya memerlukan langkah alih suara atau pengeditan yang berasingan. xAI juga menekankan lonjakan dalam realisme gerakan, kemampuan kawalan kamera dan antara muka yang lebih pantas dan lebih interaktif. Berbanding dengan keupayaan video Imagine/Grok awal xAI (cth, v0.1), Imagine v0.9 membawakan:
- Penjanaan audio bersepadu (bukan hanya video senyap atau tindanan TTS berasingan).
- Pergerakan dan kawalan kamera dipertingkat, membolehkan lebih banyak pembingkaian sinematik dan penceritaan dinamik.
- UX yang mengutamakan suara untuk kemasukan segera, dan melaporkan peningkatan kelajuan dan daya pemprosesan yang didorong oleh timbunan Aurora/Grok asas xAI.
Bagaimana untuk mengakses Imagine v0.9
Di mana: Keupayaan itu muncul melalui grok (pembantu xAI) dan apl dan integrasi Grok / xAI.
Kaedah:
- Mod suara: Jika anda lebih suka bercakap gesaan, dayakan apl itu suara dahulu mod (sering dilabel "Buka Apl dalam Mod Suara" dalam panduan awal) dan tentukan arah gesaan atau pemandangan anda.
- Imej → video: Anda boleh menukar imej pegun kepada klip pendek yang disegerakkan bunyi dengan membekalkan imej serta arahan untuk gerakan dan audio (skor latar belakang, baris dialog, gaya nyanyian).
- Minta gaya, tindakan kamera atau tempoh yang singkat; klip output pada masa ini pendek (contoh/pengumuman menunjukkan sangat singkat—beberapa saat).
Had & nota keselamatan
- Saya perhatikan isu berterusan dalam anatomi manusia, kesinambungan merentas bingkai, dan artifak lain yang tipikal sistem video generatif — keputusannya mengagumkan tetapi tidak sempurna.
- Grok Imagine telah menghadapi kritikan berhubung tetapan penyederhanaan: v0.9 mendedahkan mod "Pedas" dan mengikut sejarah pagar Grok telah dipintas, jadi terdapat kebimbangan keselamatan kandungan sebenar (deepfakes, NSFW, hak cipta/penyalahgunaan selebriti). Gunakan dengan berhati-hati dan ikuti peraturan platform.
Kesimpulan:
Imagine v0.9 ialah satu langkah yang ketara ke arah penghasilan teks/imej yang benar-benar terintegrasi → video pendek dengan menambahkan audio asli yang disegerakkan (muzik, dialog, nyanyian) pada output XAI's Grok Imagine sambil menambah baik kawalan gerakan dan sinematik.
Inginkan petua gaya demo?
Gunakan gesaan deskriptif yang ketat dan sertakan gerakan dan arahan kamera. Contoh:
meminta: “Dari dekat naga merah mengaum, kamera menolak masuk dan mencondongkan ke atas sambil menghidupkan nyalaan, pencahayaan sinematik, gelung 6 saat, tambahkan deruan gemuruh yang diselaraskan dengan nafas.”
Corak itu (subjek + gerakan + kamera + panjang + audio) biasanya memberikan hasil yang lebih jelas.
Bagaimana untuk Bermula Menjana Video melalui CometAPI
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
CometAPI berjanji untuk menjejaki dinamik API model terkini termasuk API Grok Imagine, yang akan dikeluarkan serentak dengan keluaran rasmi. Sila nantikannya dan teruskan memberi perhatian kepada CometAPI. Sambil menunggu, teroka model imej kami yang lain seperti Sora 2, dan Sora 2 pada aliran kerja anda atau cuba mereka di Taman Permainan AI. Anda boleh menerokai keupayaan model dalam Taman Permainan dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
