DeepSeek 的 Janus Pro 代表了開源多模式人工智慧的重大進步,提供了可與專有解決方案相媲美的高級文字轉圖像功能。 Janus Pro 於 2025 年 XNUMX 月發布,結合了優化的訓練策略、廣泛的資料擴展和模型架構增強,在基準任務上實現了最先進的效能。這篇綜合性的文章探討了 Janus Pro 是什麼、它如何運作、它與競爭對手相比如何、感興趣的用戶如何獲得訪問權限,以及該模型的更廣泛的應用和未來發展軌跡。
什麼是 Janus Pro?
Janus Pro 是 DeepSeek 最新的開源多模式 AI 模型,專為圖像理解和生成而設計。該模型於 27 年 2025 月 1 日發布,有兩種規模——7 億個參數和 XNUMX 億個參數——可滿足不同的計算預算和應用需求。它的名字反映了一種雙焦點架構(“Janus”),它透過專門的路徑處理視覺和文字輸入,從而實現跨模態的無縫指令追蹤。作為原始 Janus 模型的更新,Janus Pro 整合了三個核心改進:優化的訓練方案、大幅擴展的資料集以及擴展到更大的參數數量。
Janus 系列的起源
DeepSeek 於 2024 年底首次利用原始 Janus 模型進入多模態領域,在視覺和語言基準測試中都展示了令人鼓舞的結果。在成功和社群回饋的基礎上,該公司與學術夥伴合作,改進訓練演算法並豐富資料語料庫,最終於 2025 年初推出 Janus Pro。
核心規格
- 參數選項: 1B 和 7B 變體。
- 訓練數據: 72 萬張與真實世界照片平衡的高品質合成影像。
- 輸入解析度: 最大可達 384×384 像素,對於更大的輸出,建議使用外部升級。
- 許可: MIT 開源,允許商業和研究使用,不受限制條款的影響。
Janus Pro 如何運作?
Janus Pro 的核心是採用解耦的視覺生成架構,其中專門的編碼器和離散標記器協作來理解提示和合成影像。
技術架構
Janus Pro 的視覺編碼器 SigLIP-L 以 384×384 的解析度處理影像輸入,然後將特徵投射到潛在空間。然後,離散 VQ 標記器處理生成階段,使用 16× 下採樣表示來有效地產生像素輸出。這種關注點的分離使得有針對性的最佳化成為可能——在保留細粒度細節的同時加速推理。
訓練方案
此模型的訓練流程分為三個階段:
- 多模態資料預訓練 源自大規模網路爬蟲和精選資料集。
- 合成影像增強其中生成方法產生了 72 萬張高保真圖像,增強了現實世界的多樣性。
- 指令微調,使用人工策劃的提示-圖像對來調整模型以遵循複雜的文字到圖像指令。
推理和生成
在推理過程中,使用者提供文字提示,模型在與視覺編碼器提示合併之前對其進行標記(執行理解任務時)。然後,VQ 標記器會依序將潛在表示解碼為像素,從而產生連貫且上下文準確的影像。單一 A100 GPU 上的典型生成延遲在 1.2×384 解析度下每張影像約為 384 秒。
DeepSeek 的影像生成模型能力如何?
基準性能
2025 年 7 月,DeepSeek 推出了 Janus-Pro-7B,這是一個擁有 3 億個參數的文本轉圖像模型,該公司聲稱該模型在 GenEval 基準測試中優於 OpenAI 的 DALL-E 67(準確率為 3%)和 Stability AI 的 Stable Diffusion 74(準確率為 80% 的 72%),獲得了 XNUMX% 的得分準確率為 XNUMX% 的 XNUMX%。路透社隨後證實了這些結果,並指出 Janus-Pro 在官方排行榜測試中名列前茅,這歸功於加強的訓練制度以及納入了 XNUMX 萬張與真實世界數據平衡的合成圖像。
- GenEval(文字到圖像的準確度): Janus Pro-7B 的整體準確率達到 80%,而 OpenAI 的 DALL-E 67 的準確率僅為 3%,Stable Diffusion 74 Medium 的準確率則為 3%。
- DPG-Bench(密集快速處理): Janus Pro-7B 得分為 84.19,在複雜場景描述上略勝於 Stable Diffusion 3(84.08)和 OpenAI 的 DALL-E 3(83.50)。
- MMBench(多模式理解): 7B 變體的得分為 79.2,超過了原始 Janus(69.4)和其他社區模型,如 TokenFlow-XL(68.9)。
技術架構
Janus-Pro 採用雙路徑「分而治之」架構:SigLIP-L 視覺編碼器處理高達 384×384 像素的輸入,而離散 VQ 標記器以 16 倍下取樣率處理產生。這種分離允許對理解和生成路徑進行專門的優化,與單片設計相比,可以實現更快的推理和更精細的細節渲染。
Janus-Pro 與業界競爭對手相比如何?
對抗 DALL-E 3 和穩定擴散的性能
獨立評估表明,Janus-Pro 在處理複雜提示方面具有優勢(DPG-Bench:84.2% vs. Stable Diffusion 74 的 3% 和 DALL-E 67 的 ~3%)。從品質上看,使用者報告的場景構圖更加連貫,紋理更加豐富,偽影更少——儘管一些邊緣情況,例如遠處的精細面部細節,仍然對模型構成挑戰。
開源與專有模型
DeepSeek 寬鬆的 MIT 授權與 OpenAI 和 Stability AI 更嚴格的條款形成鮮明對比,使得開發人員能夠不受限制地進行本地部署和自訂微調。這種開放性推動了社群的快速實驗,但也引發了企業對版本控制和支援的擔憂。專有型號通常提供更高的原始解析度(例如,DALL-E 3 可以渲染高達 1 024×1 024 像素),而 Janus-Pro 的上限為 384×384,除非進行外部升級。
潛在的限制和挑戰是什麼?
解析度和細節約束
384×384 像素的輸出限制了 Janus-Pro 對印刷品質資產或大幅面媒體的適用性,通常需要外部升級或細化。 Hugging Face 上的社區討論表明,16×下採樣編碼器會使精細細節變得柔和,從而影響遠處物體的清晰度。
安全和隱私問題
作為一個中國平台,DeepSeek 的資料實踐受到中共情報共享授權的審查。 CIS 研究人員警告稱,DeepSeek 模型的整合可能會將專有資料或個人資料暴露給監管機構,從而為全球企業帶來合規風險 CIS。此外,開源部署可能導致深度偽造生成中的未經授權或惡意使用,從而加劇虛假資訊挑戰。
使用者如何存取 Janus Pro?
Janus Pro 的顯著特點之一是其廣泛的可訪問性:該模型有多種格式可供選擇,以滿足研究人員、企業和業餘愛好者的需求。
開源版本和儲存庫
所有 Janus Pro 程式碼和權重均根據 MIT 許可在 DeepSeek 的官方 GitHub 儲存庫上發布。此版本包括與 VLMEvalKit 工具包相容的模型檢查點、推理腳本和評估程式碼。
Hugging Face 集成
DeepSeek 在 Hugging Face 的模型中心發布了這兩種模型變體,並為 Python 用戶提供了完整的範例筆記本。安裝僅需 pip install transformers accelerate 以及一個簡短的腳本來加載 deepseek/janus-pro-7b 模型,可立即進行實驗。
商業 API 和雲端平台
對於尋求託管服務的用戶,一些雲端供應商和 AI API 平台(例如 Helicone 和 JanusAI.pro)提供託管的 Janus Pro 端點。這些服務支援 RESTful 呼叫、批次和自訂微調選項,其定價層級旨在削弱大型供應商提供的同類產品。
DeepSeek 影像生成的前景如何?
即將推出的車型升級
據業內人士透露,DeepSeek 正在加快發布 R2 推理模型和 Janus-Pro 的繼任者(可能被稱為 Janus-Ultra),以保持發展勢頭,預計在 2025 年中期之前發布。預計增強功能將包括更高的原始解析度、更精細的升級模組以及改進的多模式對齊。
行業和監管考慮
隨著美國晶片出口限制的解除和全球競爭的加劇,DeepSeek 或許能找到跨國合作的機會。然而,不斷發展的人工智慧法規(例如歐洲的《人工智慧法案》和美國對生成模型的潛在保護措施)可能會要求對訓練資料來源和輸出審計進行更嚴格的管理,從而影響 DeepSeek 的開源模型分發。
結論
DeepSeek 的 Janus Pro 標誌著開源多模式人工智慧的一個轉折點,表明社群驅動的模型可以匹敵——甚至在某些領域超越——專有產品。 Janus Pro 擁有強大的基準、多功能的應用程式和不受限制的存取權限,為全球的開發人員、研究人員和創意人員提供支援。隨著人工智慧領域的發展,DeepSeek 對透明度和快速迭代的承諾對於塑造負責任的尖端創新至關重要。無論是設計行銷資料、推進科學視覺化,還是培養新的社群工具,Janus Pro 都隨時準備好重新定義文字到圖像生成的可能性
入門
CometAPI 提供了一個統一的 REST 接口,在一致的端點下聚合了數百個 AI 模型,並具有內建的 API 金鑰管理、使用配額和計費儀表板。您無需處理多個供應商 URL 和憑證,只需將用戶端指向基本 URL 並在每個請求中指定目標模型。
開發者可以存取DeepSeek的API,例如DeepSeek-V3(型號名稱: deepseek-v3-250324) 和 Deepseek R1 (型號名稱: deepseek-ai/deepseek-r1)通過 彗星API.首先,探索模型在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。
首次接觸 CometAPI? 開始免費 $1 試用 並讓 Sora 完成最艱鉅的任務。
我們迫不及待地想看看您建造了什麼。如果感覺有什麼不對勁,請點擊回饋按鈕 - 告訴我們哪裡出了問題,這是最快的改進方法。
