Gemma 3n:功能、架構等

CometAPI
AnnaMay 26, 2025
Gemma 3n:功能、架構等

谷歌最新的設備內建人工智慧 傑瑪 3n,代表著在使最先進的生成模型緊湊、高效和保護隱私方面取得了飛躍。 Gemma 2025n 於 3 年 XNUMX 月下旬在 Google I/O 上以預覽版形式發布,它已經引起了開發人員和研究人員的興奮,因為它將先進的多模式 AI 功能直接帶到了行動和邊緣設備。本文綜合了最新的公告、開發人員見解和獨立基準。

Gemma 3n 是什麼?

Gemma 3n 是 Google Gemma 系列生成式 AI 模型的最新成員,專為 設備上 在智慧型手機、平板電腦和嵌入式系統等資源受限的硬體上進行推理。與 Gemma 3 及更早的版本不同,Gemma 3n 的架構主要針對雲端或單 GPU 使用進行最佳化,而 Gemma XNUMXn 的架構則優先考慮 低延遲, 減少記憶體佔用動態資源使用情況,使用戶無需持續的網路連線即可運行高級 AI 功能。

為什麼是「3n」?

Gemma 3n 中的“n”代表“嵌套”,反映了該模型使用 俄羅斯娃娃變形金剛 墊板成型機) 建築學。這種設計將較小的子模型嵌套在較大的模型中,類似於俄羅斯娃娃,允許選擇性地啟動特定任務所需的組件。透過這樣做,與每次請求時啟動所有參數的模型相比,Gemma 3n 可以大幅降低計算和能源消耗。

預覽版和生態系統

谷歌打開了 Gemma 3n 預覽 在 I/O 上,它可以透過 Google AI Studio、Google GenAI SDK 以及在預覽許可下在 Hugging Face 等平台上使用。雖然這些權重尚未完全開源,但開發人員可以在瀏覽器中試驗指令調整的變體,或透過 Google 正在快速擴展的 API 將它們整合到原型中。


Gemma 3n 如何運作?

了解 Gemma 3n 的機制對於評估其是否適合設備應用至關重要。下面我們來分解它的三大核心技術創新。

俄羅斯娃娃變壓器 (MatFormer) 架構

Gemma 3n 的核心在於 墊板成型機,由以下組成的變壓器變體 嵌套子模型 大小各異。對於輕量級任務(例如,具有簡短提示的文字生成),僅啟動最小的子模型,消耗最少的 CPU、記憶體和電量。對於更複雜的任務(例如程式碼產生或多模式推理),更大的「外部」子模型會被動態載入。這種彈性使得 Gemma 3n 計算自適應,按需擴展資源使用。

每層嵌入(PLE)緩存

為了進一步節省內存,Gemma 3n 採用 PLE快取,將很少使用的每層嵌入卸載到快速的外部或專用儲存中。這些參數不是永久駐留在 RAM 中,而是 即時獲取 僅在需要時進行推理。根據早期測試,與始終載入的嵌入相比,PLE 快取可將峰值記憶體佔用減少高達 40%。

條件參數載入

除了 MatFormer 和 PLE 快取之外,Gemma 3n 還支持 條件參數載入。開發人員可以預先定義他們的應用程式所需的模式(文字、視覺、音訊); Gemma 3n 然後 跳過載入 未使用的模態特定權重,進一步減少 RAM 使用量。例如,純文字聊天機器人可以直接排除視覺和音訊參數,從而簡化載入時間並減少應用程式大小。

效能基準測試顯示了什麼?

早期的基準測試凸顯了 Gemma 3n 在速度、效率和準確性方面令人印象深刻的平衡。

單 GPU 比較

儘管 Gemma 3n 是為邊緣設備設計的,但它在單一 GPU 上仍然具有競爭力。根據 The Verge 報導,Gemma 3(其更大的表親)在單 GPU 設定中的表現優於 LLaMA 和 GPT 等領先模型,展示了谷歌在效率和安全檢查方面的工程實力 一觸即發。 Gemma 3n 的完整技術報告即將發布,初步測試表明吞吐量提升了 20-30% 與 Gemma 3 在同類硬體上相比。

聊天機器人競技場得分

Chatbot Arena 等平台上的獨立評估顯示 Gemma 3n 的 4 個 B 參數變體 性能優於 GPT-4.1 Nano 在混合任務中的表現,包括數學推理和對話品質。 KDnuggets 的助理編輯指出 Gemma 3n 能夠與 Elo 評分提高 1.5 倍 比其前代產品更出色,同時將響應延遲縮短了近一半。

設備上的吞吐量和延遲

在現代旗艦智慧型手機(例如 Snapdragon 8 Gen 3、Apple A17)上,Gemma 3n 實現了 5-10 個令牌/秒 在僅使用 CPU 進行推理的情況下,擴展到 20-30 個令牌/秒 當利用裝置上的 NPU 或 DSP 時。記憶體使用量峰值在 GB 2 在執行複雜的多模式任務時,RAM 可以輕鬆滿足大多數高階行動硬體預算。


Gemma 3n 提供哪些功能?

Gemma 3n 的功能集遠遠超出了原始性能,專注於現實世界的適用性。

多模式理解

  • 文本:全面支援指令調整的文字產生、摘要、翻譯和程式碼產生。
  • 願景:分析和添加圖像標題,支援非方形和高解析度輸入。
  • 音頻:裝置上的自動語音辨識 (ASR) 和跨 140 多種語言的語音到文字翻譯。
  • 影片(即將推出):Google表示,未來 Gemma 3n 更新將支援視訊輸入處理。

隱私優先且離線就緒

Gemma 3n 完全在設備上運行,確保 數據永遠不會離開用戶的硬體,解決日益嚴重的隱私問題。離線準備也意味著應用程式在低連接環境中仍能正常運作 - 這對於現場工作、旅行和安全企業應用程式至關重要。

動態資源使用情況

  • 選擇性子模型激活 透過 MatFormer
  • 條件參數載入 省略未使用的模態權重
  • PLE 快取 卸載嵌入

這些功能結合起來可以讓開發人員根據自己的確切需求自訂其資源配置檔案 - 無論這意味著對電池敏感的應用程式佔用最少的空間還是對多媒體任務的全功能部署。

多語言卓越

Gemma 3n 的訓練語料庫跨越 140種語言,在日語、韓語、德語和西班牙語等高影響力市場表現特別強勁。早期測試顯示 與先前的設備模型相比,非英語任務的準確性有所提高。

安全性和內容過濾

Gemma 3n 包含一個內建影像安全分類器(類似 ShieldGemma 2)來過濾露骨或暴力內容。 Google 的隱私優先設計確保這些過濾器在本地運行,讓開發人員相信用戶生成的內容無需外部 API 呼叫即可保持合規。

Gemma 3n 的典型用例是什麼?

Gemma 3n 透過將多模式能力與設備效率結合,開啟了各行業的新應用。

哪些消費應用受益最多?

  • 網路攝影機助手:直接在裝置上進行即時場景描述或翻譯,無雲延遲。
  • 語音優先介面:汽車或智慧家庭設備中的私人離線語音助理。
  • 增強現實(AR):AR眼鏡上的即時物體辨識和字幕疊加。

Gemma 3n 在企業場景中如何使用?

  • 現場檢查:利用行動裝置上的影像文字推理,為公用事業和基礎設施提供離線檢查工具。
  • 安全文件處理:用於金融或醫療保健領域敏感文件分析的內部部署 AI,確保資料永遠不會離開裝置。
  • 支持多種語言:即時即時翻譯和摘要國際通訊。

有哪些限制和注意事項?

雖然這代表著向前邁出了一大步,但開發人員應該意識到當前的限制。

存在哪些權衡?

  • 質量與速度:較低參數的子模型提供更快的反應,但輸出保真度略有降低;選擇正確的混合物取決於應用需求。
  • 上下文視窗管理:儘管 128 K 個令牌已經相當可觀,但需要更長對話或大量文件處理的應用程式可能仍然需要基於雲端的模型。
  • 硬件兼容性:缺乏 NPU 或現代 GPU 的傳統裝置可能會遇到推理速度較慢的情況,從而限制即時使用情況。

那麼負責任的人工智慧又如何呢?

谷歌的發布附帶了模型卡,詳細說明了偏見評估、安全緩解措施和建議的使用指南,以最大限度地減少傷害並確保合乎道德的部署。


結論

Gemma 3n 預示著 設備上的生成式人工智慧將尖端變壓器創新與實際部署最佳化相結合。它是 墊板成型機 建築, PLE快取條件參數載入 解鎖從旗艦手機到嵌入式邊緣設備的硬體上的高品質推理。 Gemma 3n 憑藉多模式功能、強大的隱私保護和強大的早期基準(以及透過 Google AI Studio、SDK 和 Hugging Face 輕鬆存取),邀請開發人員重新構想用戶身在何處的 AI 驅動體驗。

無論您是建立旅行適用的語言助理、離線優先的照片字幕工具還是私人企業聊天機器人,Gemma 3n 都能提供您所需的效能和靈活性,同時又不會犧牲隱私。隨著Google繼續擴展其預覽程式並添加視訊理解等功能,現在是探索 Gemma 3n 在下一個 AI 專案中的潛力的最佳時機。

入門

CometAPI 提供統一的 REST 接口,在一致的端點下聚合數百種 AI 模型(包括 Gemini 系列),並內建 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。

開發人員可以訪問 Gemini 2.5 Flash Pre API  (模型:gemini-2.5-flash-preview-05-20) and Gemini 2.5 Pro API (模型:gemini-2.5-pro-preview-05-06)等透過 彗星API。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣