xAIがImagine v0.9をリリース ― その概要とアクセス方法

CometAPI
AnnaOct 10, 2025
xAIがImagine v0.9をリリース ― その概要とアクセス方法

xAIがImagineを発表 イマジン v0.9は、Grokの「Imagine」テキスト・画像動画変換ファミリーのメジャーアップデートであり、パイプラインとして初めて、制作した動画クリップ内に同期した音声(バックグラウンドミュージック、セリフ、歌声など)を生成すると同時に、画質、モーション、映画的なコントロールを向上させる。このモデルはxAIによって発表された。 2025 年 10 月 7 日 xAI/Grok 製品全体に展開されています。

Imagine v0.9とは

Imagine v0.9は、xAIの次世代ビデオモデル(Grok / Auroraファミリーの機能の一部)であり、テキストプロンプトまたは提供された画像を短い映画クリップに変換します。以前のバージョンでは無音のクリップが生成されたり、別途オーディオツールが必要でしたが、Imagine v0.9では 視覚的なイベントに合わせた統合オーディオトラック (唇の動き、アクション、雰囲気) を 1 回の生成パスの一部として提供します。xAI ではこのモデルを Grok Imagine ツールセットの進化形として位置付けています。

主な特徴

  • ネイティブオーディオとビデオの同期: Imagine v0.9 は、個別のサウンド編集を必要とせず、生成されたビジュアルに同期したバックグラウンド ミュージック、環境音、会話、さらには歌までも生成します。
  • 視覚的な忠実度とモーションの向上: よりリアルなキャラクターの動き、よりスムーズな物理特性、映画のようなカメラ効果(フォーカスシフト、パン)。
  • 音声ファーストインターフェース: ハンズフリーのワークフローを目的とした、音声プロンプトでコンテンツを生成するオプション。
  • スピードと反復: 公開デモとレポートでは、短いクリップを 15 秒未満で生成できると主張しています (モデル モードと負荷によって異なります)。
  • 複数の出力モード: テキスト→画像→ビデオのパイプラインと直接画像→ビデオ変換(写真を短いクリップにアニメーション化します)。
  • **高速生成時間:**生成のレイテンシが短い(短いクリップの場合、多くの例では約 15 ~ 20 秒の範囲で実行されます)。

以前のバージョンと比較した新機能

見出しの変更は ファーストクラスの出力として生成されたオーディオ後付けではありません。つまり、Imagine v0.9は、音声イベント(会話、足音、叫び声、音楽の合図)を、作成するビデオのタイミングに合わせようとします。そのため、別途ダビングや編集の手順は必要ありません。xAIはまた、モーションリアリティ、カメラコントロールのアフォーダンス、そしてより高速でインタラクティブなインターフェースの飛躍的な向上にも力を入れています。xAIの以前のImagine/Grokビデオ機能(例:v0.1)と比較して、Imagine v0.9は以下の機能を提供します。

  • 統合オーディオ生成 (無音ビデオや個別の TTS オーバーレイだけではありません)。
  • モーションとカメラコントロールの改善より映画的なフレーミングとダイナミックなストーリーテリングが可能になります。
  • 音声ファーストのUX 迅速な入力が可能になり、xAI の基盤となる Aurora/Grok スタックによって速度とスループットが向上したと報告されています。

Imagine v0.9へのアクセス方法

どこ: この能力は、 グロク (xAI のアシスタント) および Grok / xAI アプリと統合。

メソッド:

  1. 音声モード: 音声プロンプトをご希望の場合は、アプリの 音声ファースト モード(初期のガイドでは「音声モードでアプリを開く」というラベルが付いていることが多い)を起動し、プロンプトやシーンの指示を音声で伝えます。
  2. 画像 → 動画: 画像に加えて、モーションとオーディオの指示 (バックグラウンド スコア、セリフ、歌唱スタイル) を提供することで、静止画像を短いサウンド同期クリップに変換できます。
  3. スタイル、カメラアクション、または短い継続時間をリクエストします。出力クリップは現在短いです (例/アナウンスでは非常に短い、数秒と表示されます)。

制限事項と安全上の注意事項

  • 人体の構造、フレーム間の連続性、および生成ビデオ システムに典型的なその他のアーティファクトに関する継続的な問題に気付きました。結果は印象的ですが、完璧ではありません。
  • Grok Imagineは、モデレーション設定に関して批判を受けています。v0.9では「Spicy」モードが公開されており、これまでGrokのガードレールが回避されてきたため、コンテンツの安全性に関する懸念(ディープフェイク、NSFW、著作権侵害コンテンツ/有名人の悪用など)が存在します。プラットフォームのルールを遵守し、慎重にご利用ください。

まとめ:

Imagine v0.9 は、ネイティブの同期オーディオ (音楽、会話、歌声) を xAI の Grok Imagine 出力に追加し、モーションと映画のコントロールを改善することで、真に統合されたテキスト/画像 → 短編ビデオ制作に向けた注目すべき一歩です。

デモスタイルのヒントが欲しいですか?

簡潔で説明的なプロンプトを使用し、動きやカメラの指示を含めてください。例:

プロンプト: 「赤いドラゴンが咆哮するクローズアップ、ドラゴンが炎を吐くと同時にカメラが近づき、上方に傾く、映画のような照明、6 秒間のループ、呼吸に合わせて深く轟くような咆哮を追加する。」
このパターン (被写体 + 動き + カメラ + 長さ + 音声) により、通常はより鮮明な結果が得られます。

CometAPI を使ってビデオを生成する方法

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

CometAPIは、正式リリースと同時にリリースされるGrok Imagine APIを含む最新のモデルAPIの動向を常に把握することをお約束します。どうぞご期待ください。引き続きCometAPIにご注目ください。お待ちいただく間、他の画像モデルもぜひご覧ください。 ソラ2ソラ2 ワークフローに組み込んだり、AIプレイグラウンドで試したりできます。モデルの機能については、 プレイグラウンド 詳しい手順についてはAPIガイドをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることをご確認ください。CometAPIは、連携を容易にするために、公式価格よりもはるかに低価格で提供しています。

もっと読む

1つのAPIで500以上のモデル

最大20%オフ