20 年 2025 月 XNUMX 日,Google DeepMind 悄悄揭開了 雙子擴散,一個實驗性的文本傳播模型,有望重塑生成式人工智慧的格局。這個最先進的研究原型在 2025 年 Google I/O 大會上展出,它利用了擴散技術(以前在圖像和視訊生成中很流行),透過迭代細化隨機雜訊來產生連貫的文字和程式碼。早期的基準測試表明,它在速度和品質上可以與Google現有的基於 Transformer 的模型相媲美,在某些情況下甚至優於後者。
什麼是雙子擴散?
擴散如何應用於文字和程式碼生成?
傳統的大型語言模型 (LLM) 依賴自回歸架構,透過根據所有先前的輸出預測下一個單字來一次產生一個標記的內容。相比之下, 雙子擴散 從隨機「雜訊」場開始,並透過一系列去噪步驟重複將該雜訊細化為連貫的文字或可執行程式碼。這種範式反映了 Imagen 和 Stable Diffusion 等擴散模型創建圖像的方式,但這是這種方法首次以類似生產的速度擴展到文字生成。
為什麼「噪音到敘事」很重要
想像一下當沒有訊號時電視螢幕上的靜電——無形的隨機閃爍。在基於擴散的人工智慧中,靜態是起點;該模型從混亂中「雕刻」出意義,逐漸形成結構和語義。每個改進階段的這種整體視圖允許固有的自我修正,從而減輕可能困擾逐個標記模型的不連貫性或「幻覺」等問題。
關鍵創新與能力
- 加速一代:Gemini Diffusion 可以同時產生整個文字區塊,與逐個標記產生方法相比,顯著減少了延遲。 ()
- 增強連貫性:透過一次產生更大的文本段,該模型實現了更高的上下文一致性,從而產生更連貫、邏輯結構更清晰的輸出。 ()
- 迭代細化:此模型的架構允許在生成過程中進行即時糾錯,從而提高最終輸出的準確性和品質。 ()
谷歌為什麼要開發 Gemini Diffusion?
解決速度和延遲瓶頸
自迴歸模型雖然功能強大,但卻面臨根本的速度限制:每個標記都依賴前面的上下文,從而產生了順序瓶頸。 Gemini Diffusion 透過在所有位置實現並行細化打破了這一限制,從而 端對端生成速度提高 4-5 倍 與類似大小的自回歸對應物相比。這種加速可以轉化為即時應用程式(從聊天機器人到程式碼助理)的更低延遲。
開闢通用人工智慧的新途徑
除了速度之外,擴散的迭代、全局視圖與通用人工智慧 (AGI) 的關鍵能力相一致:推理、世界建模和創造性綜合。 Google DeepMind 的領導層將 Gemini Diffusion 視為更廣泛策略的一部分,旨在建立更具情境感知能力、主動性的人工智慧系統,能夠在數位和實體環境中無縫運作。
Gemini Diffusion 內部是如何運作的?
雜訊注入和去噪循環
- 初始化:模型從隨機雜訊張量開始。
- 去雜訊步驟:在每次迭代中,神經網路都會根據學習到的語言或程式碼模式預測如何稍微降低雜訊。
- 精緻:重複的步驟收斂到一致的輸出,每次傳遞都允許在整個上下文中進行錯誤修正,而不是僅依賴過去的標記。
建築創新
- 排比:透過解耦令牌依賴關係,擴散可以實現同時更新,從而最大限度地提高硬體利用率。
- 參數效率:儘管架構更加緊湊,但早期基準測試表明其性能與更大的自回歸模型相當。
- 自我糾正:迭代特性本質上支援中期調整,這對於程式碼調試或數學推導等複雜任務至關重要。
哪些基準可以證明 Gemini Diffusion 的效能?
令牌採樣速度
Google 的內部測試報告顯示 平均取樣率為每秒 1,479 個令牌,與先前的 Gemini Flash 型號相比有了顯著的飛躍,儘管每個請求的平均啟動開銷為 0.84 秒。此指標強調了擴散的高通量應用能力。
編碼和推理評估
- HumanEval(編碼):通過率為 89.6%,與 Gemini 2.0 Flash-Lite 的 90.2% 非常接近。
- MBPP(編碼):76.0%,而 Flash-Lite 為 75.8%。
- BIG-Bench Extra Hard(推理):15.0%,低於Flash-Lite的21.0%。
- 全球MMLU(多語言):69.1%,而 Flash-Lite 為 79.0%。
這些混合結果揭示了擴散對於迭代、局部化任務(例如編碼)的特殊能力,並突出了仍然需要架構改進的領域——複雜的邏輯推理和多語言理解。
Gemini Diffusion 與之前的 Gemini 型號相比如何?
Flash-Lite、Pro 與 Difusion
- 雙子座 2.5 Flash-Lite 為一般任務提供經濟高效、延遲優化的推理。
- 雙子座2.5專業版 專注於深度推理和編碼,具有分解複雜問題的“深度思考”模式。
- 雙子擴散 專注於極快的生成和自我校正輸出,將自己定位為一種補充方法,而不是直接取代。
優點和局限
- 我們的強項:速度、編輯能力、參數效率、程式碼任務的強大效能。
- 限制:在抽象推理和多語言基準測試中表現較弱;由於多次去噪,內存佔用更高;生態系統成熟度落後於自回歸工具。
如何造訪 Gemini Diffusion?
加入搶先體驗計劃
谷歌已經開設了 候補名單 對於實驗性的 Gemini Diffusion 演示,開發人員和研究人員可以透過 Google DeepMind 部落格進行註冊。早期訪問旨在更廣泛地推出之前收集反饋、完善安全協議並優化延遲。
未來的可用性和集成
雖然尚未公佈確切的發布日期,但谷歌暗示 一般情況 與即將推出的 Gemini 2.5 Flash-Lite 更新保持一致。預期的整合路徑包括:
- 谷歌人工智慧工作室 用於互動式實驗。
- 雙子座API 以便在生產流程中無縫部署。
- 第三方平台 (例如,Hugging Face)託管用於學術研究和社區驅動的基準的預發布檢查點。
透過從擴散的角度重新構想文字和程式碼生成,Google DeepMind 在人工智慧創新的下一篇章中佔有一席之地。無論 Gemini Diffusion 是開創新標準還是與自回歸巨頭共存,其速度和自我修正能力的結合都有望重塑我們構建、改進和信任生成式人工智慧系統的方式。
入門
CometAPI 提供統一的 REST 接口,在一致的端點下聚合數百種 AI 模型(包括 Gemini 系列),並內建 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。
開發人員可以訪問 Gemini 2.5 Flash Pre API (模型:gemini-2.5-flash-preview-05-20) and Gemini 2.5 Pro API (模型:gemini-2.5-pro-preview-05-06)等透過 彗星API。首先,在 Playground 中探索模型的功能,並查閱 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。
