gen4_イメージ ランウェイのGen-4ファミリーの主力マルチモーダル画像生成モデルであり、 促された生成と視覚的な参照 (参照画像を「@メンション」することができます)これにより、画像および画像→ビデオ パイプラインに対して、高度に制御可能でスタイル的に一貫性のある出力が生成されます。
はじめに — 何 Gen-4イメージ is
gen4_イメージ ランウェイの第4世代のビジュアル生成モデルファミリーは、 テキストプロンプト + 視覚的な参照 高画質の静止画やメディア対応フレームを作成し、 アイデンティティ および 角度や照明を変えて、モデルはより広範な第4世代スイート(ビデオバリアントを含む)の一部として提示されます。 gen4_turbo)のために特別に設計されており、 クリエイティブプロダクション — 例: 一貫したキャラクターレンダリング、大規模な製品写真撮影、仮想試着、ゲームアセット生成。
主な特徴
- 参照ベースの生成(1~3 個の参照)。 モデルのポーズ、照明、背景などを変更しながら、アイデンティティ、スタイル、場所を維持できるように、最大 3 枚の参照画像を使用します。
- 高い視覚的忠実度(生産準備が整った出力)。 出力は、強力なディテールとスタイル制御を備えた高解像度 (1080p オプションも利用可能) をターゲットとします。
- アイデンティティとシーンの一貫性。 複数の世代にわたって同じキャラクターまたは環境の一貫性を保つように設計されています。マルチショットのビジュアルやキャラクター中心のアセットに役立ちます。
- マルチモーダル (テキスト + 画像) プロンプト。 自然言語の指示と参照画像を組み合わせて、構図、雰囲気、服装、カメラアングルなどを調整します。
- 画像 → 画像 + テキスト → 画像のワークフロー。 連続性を維持するために参照を使用して、画像から画像への変換 (編集/変換) やテキストから画像への変換として機能します。
- パフォーマンス層 (Turbo) が利用可能です。 「Gen-4 Image Turbo」バリアントは、参照駆動型機能を維持しながら、コストと速度(たとえば、約 2.5 倍高速)をトレードオフします。
- 制御と再現性。 一般的な API オプションには、アスペクト比プリセット、解像度 (720p/1080p)、再現性のシード、特定の入力を指す参照タグなどがあります。
技術的な詳細
入力: テキスト/画像
出力: 画像
ワークフロー:
- ユーザー用品: テキストプロンプト + 0~3 個の参照画像 (およびオプションのマスク、キーフレーム、カメラモーション指示)。
- 前処理参照は正規化およびエンコードされ、テキストはトークン化されます。アイデンティティ/スタイルの埋め込みは抽出され、再利用のためにキャッシュされます。
- コンディショニング: テキストと参照埋め込みはマルチモーダル バックボーン内で融合され、オプションの制御信号 (ポーズ、深度、マスク) が添付されます。
- サンプリング/ノイズ除去: デコーダーはノイズ除去の反復 (拡散ステップ) を実行して、画像 (またはビデオのフレームのシーケンス) を生成します。
gen4_image — 具体的な制限
時間的/動きのエッジケース。 レビュー担当者と作成者からは、時折発生するモーション アーティファクト、奇妙な時間的ダイナミクス (生成されたクリップの前後の不具合)、非常に複雑な複数の俳優による振り付けの失敗が報告されています。対象シーンでテストしてください。
コンピューティング、コスト、キューイング。 高品質な画像→動画生成はGPUに負荷をかけます。ユーザーからは、キュー時間とレンダリングあたりのコストが大量生産において大きな問題となる可能性があるとの報告があります。予算とスループットを適切に計画してください。
創造的なトレードオフと純粋な芸術性モデル。 Gen-4 の強みは一貫性です。高度に様式化された、絵画的な、または「驚くべき」美的出力が必要な場合は、Midjourney または調整された SDXL チェックポイントにより、好ましいアート ディレクションが生成される場合があります。
標準的な使用例
- プリプロダクションとストーリーボード作成: 参照写真から、スタイルの一貫性があるキャラクター/シーンのバリエーションを迅速に作成します。
- マーケティングとコンテンツ生成: 一貫したブランドキャラクターを使用したヒーローイメージ、アニメーション化されたソーシャルクリップ、キャンペーンアセットの迅速な制作。(Runway では、ライブツアーやミュージックビデオなどの企業事例を紹介しています。)
- ゲーム/アセットのプロトタイピングと仮想試着: 少数の参照セットから、複数のカメラアングル、衣装のバリエーション、環境コンセプトを生成します。
他のモデルとの比較
- gen4_image→ベスト 必要なときに 参照/アイデンティティの一貫性 (単一のキャラクターまたはオブジェクトはショット間で同じまま)そして、 画像→動画 およびマルチショットパイプライン。
- DALL·E 3 → ベスト プロンプトから画像への厳密な忠実度と、ChatGPT をベースとした会話型の編集フローに加え、安全性と出所の検証機能が組み込まれています。
- SDXL(安定拡散ファミリー)→最適 オープン モデル、ローカル/カスタムの微調整、コストに柔軟な展開が必要な場合。
- 旅の途中 → ベスト 高度に様式化された芸術的に美しいレンダリングと、強力なコミュニティ主導のプリセット/「様式化」コントロールを実現します。
- Runway Gen-4 vs. ByteDance Seedream 4.0 / Google「Nano Banana」型モデル: 最近の競合他社の製品(例:Seedream 4.0)は、 超高速レンダリングとマルチ参照処理 商業クリエイターを対象としています。Runway の利点は、緊密に統合された画像→ビデオ パイプラインと制作指向のコントロール、そして成熟した API と SDK エコシステムです。
電話方法 gen4_イメージ CometAPI からの API
| 価格 | $0.32000 |
必要な手順
- ログインする コムタピまだユーザーでない場合は、まず登録してください
- インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
- このサイトの URL を取得します: https://api.cometapi.com/
使用方法
- APIリクエストを送信するには、「gen4_image」エンドポイントを選択し、リクエストボディを設定してください。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。
- 交換するアカウントの実際の CometAPI キーを使用します。
- コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
- API 応答を処理して、生成された回答を取得します。
CometAPIは、シームレスな移行のために完全に互換性のあるREST APIを提供します。 APIドキュメント:
- 終点:
https://api.cometapi.com/runwayml/v1/text_to_image - モデルパラメータ:
gen4_image - 認証:
Bearer YOUR_CometAPI_API_KEY - コンテンツタイプ:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
参照 ランウェイ/第2幕
