Runway gen-4.5 評測:現有功能及新增功能

CometAPI
AnnaDec 2, 2025
Runway gen-4.5 評測:現有功能及新增功能

Runway Gen-4.5 是該公司最新的旗艦級文字轉視訊模型,於 2025 年 12 月 1 日發布。它定位為 Gen-4 系列的漸進式但意義重大的升級,重點提升了運動質量、響應速度和時間/物理真實性——這些正是以往區分“優秀”AI 視頻和“可信”AI 視頻的關鍵所在。 Runway Gen-4.5 目前在 Artificial Analysis 的文本轉視頻排行榜上名列前茅(Elo 積分 1,247 分),並針對電影級、可控的輸出進行了優化——儘管它仍然存在一些典型的生成式 AI 局限性,例如細節瑕疵和偶爾出現的因果錯誤。

以下將深入、實用地(在可能的情況下)以證據為依據,探討 Gen-4.5 是什麼,與 Gen-4 相比有哪些新特性,它與 Google 的 Veo (3.1) 和 OpenAI 的 Sora 2 等競爭對手相比如何,實際性能指標和基準聲明,以及對局限性、風險和最佳實踐的坦誠討論。

什麼是 Runway Gen-4.5?

Runway Gen-4.5 是 Runway 公司最新推出的文字轉影片產生模型,是 Gen-4 系列的迭代升級,也是意義重大的改進。 Runway 將 Gen-4.5 定位為視頻生成的“新前沿”,並強調了其相對於早期版本的三大主要改進:顯著提升的物理精度(物體具有真實的重量和動量)、更強的指令響應性(能夠更可靠地實現指令所求)以及更高的動態和時間視覺保真度(頭髮、織物紋理和表面鏡面反射等幀在與時間視覺保真度之間保持一致)。目前,Gen-4.5 在用於文字轉影片基準測試的獨立人工評判排行榜中名列前茅。

Runway Gen-4.5 是從哪裡來的?它為什麼重要?

Runway 的視訊模型從第一代 (Gen-1) 迅速發展到第三代/Alpha 版 (Gen-3/Alpha) 再到第四代 (Gen-4);第四代半版 (Gen-4.5) 是對架構升級、預訓練資料策略和後訓練技術的整合與最佳化,旨在最大限度地提升動態性、時間一致性和可控性。對於創作者和製作團隊而言,這些改進旨在減少早期文字轉影片模型中常見的「粗草稿」感,從而使 AI 生成的影片片段在預先視覺化、廣告/行銷內容和短片敘事製作中更具實用價值。

Runway Gen-4.5 的 4 個主要特點

1)改進的物理真實感與運動動力學

Runway Gen-4.5 強調更流暢、更符合物理規律的運動。 Gen-4.5 專注於更真實的物體運動——包括重量、慣性、液體、布料以及符合物理規律的碰撞——從而創造出互動效果更自然、更貼近現實的場景。在演示和我的測試中,該模型展現出更佳的物體軌跡、更逼真的鏡頭運動,以及更少的早期視訊模型中常見的「漂浮」感。這是相比 Gen-4 的主要升級之一。

2) 視覺保真度和樣式控制

Runway Gen-4.5 擴展了 Runway 的控制模式(文字轉影片、影像轉影片、影片轉影片、關鍵影格),並改進了照片層級渲染、風格化和影片級構圖。 Runway 聲稱 Gen-4.5 可以產生難以與真實素材區分的短影片片段,尤其是在結合高品質的參考影像或關鍵影格時。

3)提高及時遵守和組成意識。

當提示包含多個演員、鏡頭方向或跨場景連續性約束時,模型表現出更高的保真度;與前幾代相比,它能更可靠地遵循指令。該模型在遵循描述性提示方面具有更高的準確性,從而減少了影片片段中出現的幻覺或無關元素。

4)更高的視覺細節和時間穩定性。

表面紋理、毛髮/絲狀物的連續性以及幀間光照的一致性都得到了顯著提升。角色和物體在剪輯過程中外觀變化的可能性也大大降低。 Runway 聲稱,這些改進是在保持 Gen-4 延遲特性的基礎上實現的。其中一項更注重實際製作的進步是,該模型能夠更好地處理角色面部表情和跨鏡頭的隱含情緒。雖然 Runway Gen-4.5 不能取代訓練有素的演員,但它能更好地保持情緒的連貫性(例如,角色的表情在鏡頭移動中保持不變),並且能夠根據“焦慮的微笑、目光移開、急促地呼吸”等簡潔的指令生成逼真的表演線索。

Runway Gen-4.5 在基準測試和實際測試中的表現如何?

Runway 報告的 Elo 分數為 1,247 在人工智慧分析文字轉影片排行榜上(截至發佈時),Gen-4.5 名列該特定基準測試的榜首。此類基準測試使用對多個模型輸出進行成對的人工或自動偏好判斷;

Runway gen-4.5 評測:現有功能及新增功能

實際效能(使用者可以期待的)

  • 影片片段長度和解析度: Gen-4.5 目前針對短電影片段進行了最佳化(通常為 4-20 秒的高清/1080p 單鏡頭輸出)。 Runway 強調在不增加延遲的情況下,提供比 Gen-4 更高的保真度。
  • 渲染時間和成本: Runway 的宣傳語是,其成本/延遲與 Gen-4 在各個訂閱等級中相當;實際時間會因所選解析度、品質設定和佇列負載而異。

Runway Gen-4.5 與 Gen-4 有何不同?

Gen-4 確立了 Runway 的製作理念:統一的角色形象、影像到影片的控制模式(影像→影片、關鍵影格、影片→影片)以及對使用者工作流程的重視。 Gen-4.5 保留了這些基礎,並在此基礎上進行了擴展。 世界建模 (物理學,運動學) 迅速遵守 在不犧牲吞吐量的前提下,進一步提升效能。實際上,第四代處理器對於快速、風格化的任務和預算有限的項目仍然非常出色;而當您需要更逼真的動態效果和更精細的控制時,第四代半處理器是升級的理想選擇。

技術層面(高層次)發生了哪些變化?

Runway Gen-4.5 被描述為一種演進,而非徹底的架構重寫。 Runway 的資料顯示,該模型受益於預訓練資料效率的提升和後訓練技術的改進(例如,針對性微調和時間正規化)。實際上,這意味著更好的權重/運動建模、更連貫的多元素場景,以及在幀間更好地保留高頻細節(例如頭髮、布料紋理)。

實際差異,創作者會注意到

  • 更好的身體行為: 物體遵循感知質量,液體/流體的行為更符合常理。
  • 減少身分認同斷裂: 角色和物件在影片片段播放過程中不太可能改變外觀。
  • 同樣的速度,更高的品質: Runway 指出,Gen-4.5 的表現(延遲)與 Gen-4 相當,同時畫質有所提升。這使得 Gen-4.5 對那些無法接受過長渲染延遲的製作團隊極具吸引力。

何時選擇第四代(Gen4)或第四代半(Gen4.5)

  • 使用 第一代 當您需要更便宜、更快速的概念驗證,或者現有管道/控制已經針對該引擎進行了調整時。
  • 使用 第一代 當您需要提高真實感、複雜的多物件互動或生產級輸出,而運動物理和快速準確性至關重要時(例如,產品視覺化、VFX 預視覺化、角色驅動短片)。

與第四代控制器相容。 Runway 支援的所有編輯器模式(影像→影片、關鍵影格、影片→影片、演員參考)都將整合到 Gen-4.5 中,以便創作者能夠重複使用熟悉的控制並獲得更好的結果。

Gen-4.5 與 Veo 3.1 和 Sora 2 相比如何?

它與谷歌的 Veo 3.1 相比如何?

Veo 3.1 是Google的高傳真文字轉影片系列(Veo 3 → 3.1 更新)。該模型以其電影級的質感、強烈的風格渲染和精準的色彩/光照控製而備受讚譽。獨立對比表明,Veo 3.1 在氛圍營造和風格化場景方面表現出色,並且可以透過Google的 API 廣泛使用,但與一些頂尖的專業競爭對手相比,它在多物體物理效果和長距離時間連貫性方面略顯不足。早期的盲測和用戶評測表明,Runway Gen-4.5 在運動真實性和對物理效果要求較高的提示的響應方面更勝一籌,而 Veo 則經常在風格化、繪畫式或電影式的單場景測試中勝出。

Veo往往會走向何方:音訊保真度和結構化敘事功能(Flow/Veo Studio),以及與Google生態系統的緊密整合(Gemini API/Vertex AI)。

第四代半的發展趨勢:根據 Runway 引用的 Video Arena 排名,透過盲測對視覺真實感、反應速度和複雜動作表現進行使用者偏好測試。在幾個公開的盲測對比中,Gen-4.5 在 Elo 評分上略微領先於 Veo 的各種變體,但領先幅度及其意義會因內容類型而異。

它與 OpenAI 的 Sora 2 相比如何?

索拉 2 (OpenAI) 它注重物理上的精確性、同步音訊(包括對話和音效)以及可控制性。 Sora 2 在製作具有高層次敘事線索的連貫動畫場景方面表現出色,並且在音訊和對話是生成流程重要組成部分的工作流程中也同樣適用。

Sora 2 的發展方向:在某些設定下整合音訊生成和多模態同步;往往會產生極具氛圍感、敘事性強的片段。

第四代半的發展趨勢根據 Runway 引用的獨立盲測結果,視覺真實感、反應速度和運動一致性都是重要的考量。當然,實際選擇取決於您的需求:如果原生音訊產生和整合工具至關重要,那麼 Sora 2 或 Veo 可能是更佳選擇;如果複雜場景下的純粹視覺保真度是首要考慮因素,那麼 Gen-4.5 在盲測中的優勢就非常顯著了。

實用性對比表(摘要)

區域跑道第二代第四代跑道(前身)谷歌維奧3.1OpenAI Sora 2
發布/定位2025年4.5月-「第四代半」:品質與保真度提升;最高基準得分(1,247 Elo)早期第四代:在一致性和可控性方面邁出了重要一步Veo 3.1:Google的視訊產生器;原生音訊和快速/快速品質選項Sora 2:OpenAI 的旗艦級視訊+音訊模型;強調物理精確度和音訊同步。
核心優勢動態品質、快速反應、電影級視覺效果、API集成角色連貫性、多鏡頭一致性、可控制性快速 8 秒輸出,原生音訊/對話生成,針對速度/使用者體驗進行了最佳化。物理效果與真實感、聲音/對話同步、可控制性
輸出長度/格式短片;支援影像→影片、文字→影片、關鍵影格等格式。短片;類似的控制模式8 秒高品質視頻,Veo 3.1 快速選項支援720p/1080p輸出,附音頻,注重保真度
原生音訊雖然這不是主要新聞(重點在於視覺保真度),但 Runway 透過工具支援音訊工作流程。有限的原生音訊生成原生音訊產生(音效、對話)。注重音頻品質。同步音訊和音效是其顯著特點。
典型限制細節瑕疵(例如人臉/人群),偶爾出現的因果/時間錯誤早期版本有一些瑕疵,運動方面比 4.5 版本更不一致。短時長是一種設計上的權衡;質量與時長之間的取捨。複雜場景下的狹窄故障模式;仍在發展中
  • 視覺真實感與動態效果:Gen-4.5 > Veo 3.1 ≈ Sora 2(因場景而異)。
  • 音訊和原生音效Veo 3.1 ≥ Sora 2 > Runway(Runway 具有工作流程音訊工具,但 Veo 和 Sora 在產品化中融入了更深層的原生音訊生成)。
  • 控制與編輯Runway(關鍵影格、影像→影片、參考連續性)和 Veo(Flow Studio)都提供了強大的控制功能;Sora 則專注於同步的多模態控制。
  • 簡而言之:Sora 2 在敘事連貫性方面表現出色;Veo 3.1 在電影質感方面表現出色;Gen-4.5 在動作真實性和可控性方面表現出色。

第四代半技術還存在哪些具體的限制與風險?

沒有哪個模型是完美的,第四代半模型在採用之前也存在已知的限制和現實風險需要考慮。

技術限制

  • 極端情況下的物理學和因果誤差: 雖然模型有了很大的改進,但在場景變得非常複雜時,仍然會偶爾出現因果順序錯誤(例如,結果出現在原因之前)和細微的物體持久性錯誤。這些問題出現的頻率較低,但仍然存在。
  • 長篇連貫性: 與目前大多數文字轉視訊模型一樣,Gen-4.5 針對短影片片段(幾秒鐘)進行了最佳化。產生較長的場景或完整序列仍需要拼接、編輯介入或混合工作流程。
  • 大規模的識別和一致性: 要製作數百個由同一角色持續表演的鏡頭,仍然需要耗費大量工作流程;Gen-4.5 有所幫助,但並不能取代參考設計系統或集中式資產流程。

安全、誤用與倫理風險

  • 深度偽造/冒充風險: 任何高保真視訊產生器都會增加製作逼真但具有欺騙性的媒體的風險。各機構應實施安全措施(例如浮水印、內容策略、身分驗證流程)並監控濫用風險。
  • 版權和資料集來源: 訓練資料的來源仍然是整個行業普遍關注的問題。創作者和版權所有者應該意識到,輸出結果可能反映了從受版權保護的資料中學習到的模式,這會引發關於在商業環境中重複使用資料的法律和倫理問題。
  • 偏見和代表性損害: 生成模型可能會重現訓練資料中存在的偏差(例如,過度代表/代表不足、刻板印像等)。因此,嚴格的測試和流程內的緩解策略仍然不可或缺。

結論—Gen-4.5 在不斷發展的 AI 視訊領域中的定位

Runway Gen-4.5 在文字轉影片的真實感和可控性方面取得了顯著進步。目前,它在獨立的盲人偏好排行榜中名列前茅。 Runway 的產品宣傳和早期報告將其定位為創作者的實用升級方案,能夠提供更逼真的動態效果、更高的提示保真度和更佳的時間連貫性,同時又不犧牲生成速度。同時,來自 Google (Veo 3.1) 和 OpenAI (Sora 2) 的競爭系統也在不斷強化其互補優勢,例如整合音訊、產品化的故事/敘事工具以及更深層的生態系統整合。選擇合適的平台仍然取決於專案本身:您是優先考慮視覺真實感、原生音訊、平台整合還是治理控制。

Gen-4.5 正在以與 Gen 4 類似的價格在各個套餐中推出。

開發人員可以訪問 維奧 3.1 , 索拉2號 Runway/gen4_aleph 等等,透過 CometAPI, 最新型號版本 始終與官方網站同步更新。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

準備出發了嗎? → 免費試用 gen-4.5 !

如果您想了解更多有關 AI 的提示、指南和新聞,請關注我們 VKX   不和!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣