如何存取和使用 Gemma 3n?

CometAPI
AnnaJun 1, 2025
如何存取和使用 Gemma 3n?

隨著人工智慧的快速發展,開發人員和組織正在尋求能夠在日常硬體上運行的強大而高效的模型。 傑瑪 3n是 Google DeepMind Gemma 系列的最新開源模型,專為低佔用空間的裝置端推理而設計,是行動、邊緣和嵌入式應用的理想之選。在本深入指南中,我們將探討 Gemma 3n 是什麼、它為何脫穎而出,以及——最重要的是——如何訪問並立即開始使用它.

Gemma 3n 是什麼?

Gemma 3n 是 Google 開放式 Gemma AI 模型系列的最新成員,專為資源受限的環境而設計。與前代產品不同,Gemma 3n 整合了一個擁有 4 億個活躍參數的「主」模型和一個整合的 2 億個參數的子模型,無需在單獨的檢查點之間切換即可實現動態的品質與延遲權衡。這種被稱為「多合一」的雙尺度架構利用了每層嵌入 (PLE)、鍵值快取 (KVC) 共享和高級激​​活量化等創新技術,以減少記憶體佔用並加速設備端推理。

Gemma 3n 與其他 Gemma 變異體有何不同?

二合一彈性: Gemma 3n 的嵌套子模型允許開發人員在高品質 4 B 參數模型和更快的 2 B 參數版本之間無縫調整,而無需載入單獨的二進位檔案。

提高效率: 透過 PLE 快取和 KVC 共享等技術,Gemma 3n 在行動裝置上的回應時間比 Gemma 1.5 3 B 提高了約 4 倍,同時保持或提高了輸出品質。

多模式支援: 除了文字之外,Gemma 3n 還可以處理視覺和音訊輸入,將其定位為圖像字幕、音訊轉錄和多模式推理等任務的統一解決方案。

Gemma 3n 擴展了 Gemma 開放模型系列(始於 Gemma 2 以及之後的 Gemma 3),透過明確自訂架構來適應受限硬體。 Gemma 3 的目標客戶是工作站、入門級 GPU 和雲端實例,而 Gemma 3n 則針對僅配備 2 GB RAM 的裝置進行了最佳化,實現了嵌套多合一模型,可根據可用資源動態擴充子模型大小。

Gemini Nano 扮演什麼角色?

Gemini Nano 即將推出 Android 和 Chrome 集成 與 Gemma 3n 採用相同的底層架構。它將在今年稍後將這些設備內建功能直接嵌入到 Google 的主要消費者平台中,從而擴大可訪問性,進一步鞏固 離線優先的人工智慧 .

如何訪問 Gemma 3n?

Gemma 3n 預覽版可透過多種管道訪問,每種管道都適合不同的開發偏好。

透過 Google AI Studio 進行基於雲端的探索

  1. 登入 使用您的 Google 帳戶存取 Google AI Studio。
  2. 運行設定 面板中,選擇 傑瑪 3n E4B (或最新預覽)模型。
  3. 在中央編輯器中輸入提示符,然後 運行 查看即時回覆。

無需本地設定——非常適合在瀏覽器中進行快速原型設計和實驗。

使用 Google GenAI SDK 存取 SDK

整合到 Python 應用程式中:

pythonfrom google.genai import Client

client = Client(api_key="YOUR_API_KEY")
model = client.get_model("gemma-3n-e4b-preview")
response = model.generate("Translate this sentence to Japanese.")
print(response.text)

此方法只需幾行程式碼即可將 Gemma 3n 功能嵌入後端或桌面工具中。

使用 Google AI Edge 進行裝置部署

Google AI Edge 提供原生庫和外掛程式(例如,Android 版透過 AAR 包,iOS 版透過 CocoaPods),可直接在行動應用程式中部署 Gemma 3n。此路線解鎖 離線 推理,透過將資料保留在設備上來保護用戶隱私。設定通常涉及:

  1. 將 AI Edge 依賴項新增至您的專案。
  2. 使用所需的模態標誌初始化 Gemma 3n 解釋器。
  3. 透過低階 API 或高級包裝器運行推理呼叫。

文件和範例程式碼可在 Google Developers 網站上找到。

社區模特兒分享在擁抱的臉上

Gemma 3n E4B IT 版本的預覽版已在 Hugging Face 上線。訪問方式:

  1. 登入 or 註冊申請 SearchGPT 等候名單 在 Hugging Face。
  2. 同意 Google 的使用許可 google/gemma-3n-E4B-it-litert-預覽 頁。
  3. 透過以下方式克隆或下載模型文件 git lfs 或 Python transformers API。

一旦您接受許可條款,您的請求就會立即被處理。

如何整合 Gemma 3n?

Gen AI SDK: 為 Android、iOS 和 Web 提供預先建置的用戶端程式庫,用於管理模型載入、量化和執行緒等低階細節。

TensorFlow Lite(TFLite): 自動轉換工具將 Gemma 3n 的檢查點轉換為 TFLite FlatBuffer 文件,應用訓練後量化來最小化二​​進位大小。

Edge TPU 與行動 GPU: 對於針對專用加速器的開發人員,Gemma 3n 可以使用 XLA 或 TensorRT 進行編譯,從而在配備 Coral Edge TPU 或 Adreno GPU 的裝置上解鎖額外的吞吐量。

需要什麼先決條件?

  1. 硬體:具有現代基於 ARM 的 CPU 的設備,建議使用可選的 NPU 或 GPU 支援來提高吞吐量。
  2. 軟體:
  • Android 12+ 或 Linux 核心 5.x+ 用於 edge-lite 運行時。
  • AI Edge SDK v1.2.0 或更高版本,可透過 Google 的 Maven 和 apt 儲存庫取得。
  • Python 3.9+ 或 Java 11+ 用於範例用戶端程式庫。

如何將 Gemma 3n 整合到 Android 應用程式中?

新增 AI-Edge-Lite 依賴項

groovyimplementation 'com.google.ai:edge-lite:1.2.3'

載入模型二進位文件

javaModelLoader loader = new ModelLoader(context, "gemma-3n.tflite"); EdgeModel model = loader.load();

運行推理

javaTensor input = Tensor.fromImage(bitmap); Tensor output = model.run(input); String caption = output.getString(0);

處理多模式輸入
使用 EdgeInputBuilder 在一次推理調用中結合文字、視覺和音訊張量。

如何在 Linux 上本地試用 Gemma 3n?

下載 TFLite 模型:可透過 Google Cloud Storage 儲存桶取得:

arduinogs://gemma-models/gemma-3n.tflite

安裝 Python SDK:

bashpip install ai-edge-lite

Python 推理範例:

 pythonfrom edge_lite import EdgeModel model = EdgeModel("gemma-3n.tflite") response = model.generate_text("Explain quantum entanglement in simple terms.") print(response)

Gemma 3n 的典型用例是什麼?

透過將多模式能力與設備效率相結合,它開啟了跨行業的新應用。

哪些消費應用受益最多?

  • 網路攝影機助手:直接在裝置上進行即時場景描述或翻譯,無雲延遲。
  • 語音優先介面:汽車或智慧家庭設備中的私人離線語音助理。
  • 增強現實(AR):AR眼鏡上的即時物體辨識和字幕疊加。

Gemma 3n 在企業場景中如何使用?

  • 現場檢查:利用行動裝置上的影像文字推理,為公用事業和基礎設施提供離線檢查工具。
  • 安全文件處理:用於金融或醫療保健領域敏感文件分析的內部部署 AI,確保資料永遠不會離開裝置。
  • 支持多種語言:即時即時翻譯和摘要國際通訊。

結論

Gemma 3n 代表在以下方面的重大飛躍: 強大的多模態生成人工智慧 到你的手掌。透過結婚 最先進的效率 - 隱私優先、離線就緒的設計它賦能開發者打造尊重使用者資料、以極低延遲運作的智慧體驗。無論您是在 Google AI Studio 中進行原型設計,透過 Hugging Face 進行實驗,還是透過 Gen AI SDK 進行集成,它都能為設備端創新提供一個多功能平台。隨著模型及其生態系統的成熟——Gemini Nano 即將問世——真正無處不在、私密且響應迅速的人工智慧的承諾正越來越接近現實。

入門

CometAPI 提供統一的 REST 接口,在一致的端點下聚合數百種 AI 模型(包括 Gemini 系列),並內建 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。

開發人員可以訪問 Gemini 2.5 Flash Pre API  (模型:gemini-2.5-flash-preview-05-20) and Gemini 2.5 Pro API (模型:gemini-2.5-pro-preview-05-06)等透過 彗星API。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣