如何使用 CometAPI 存取 Gemini Flash API

CometAPI
AnnaMay 11, 2025
如何使用 CometAPI 存取 Gemini Flash API

在快速發展的生成式人工智慧領域,Google的 Gemini Flash 多模態 API 代表著一次重大飛躍——為開發人員提供了一個統一的高效能介面,用於處理文字、圖像、視訊、音訊等。結合 CometAPI 的簡化端點管理和計費控制,您可以在幾分鐘內將尖端的多模式推理整合到您的應用程式中。本文結合了 Gemini 2025 年 XNUMX 月至 XNUMX 月發布週期的最新進展以及透過 CometAPI 存取 Gemini Flash Multimodality API 的實踐指南。

什麼是 Gemini Flash 多模態 API?

雙子座多模態視覺概述

Gemini Flash 是 Google 更廣泛的 Gemini 系列大型 AI 模型的一部分,該模型從頭開始設計用於處理「多模式」輸入 - 即在單一 API 呼叫中結合文字、圖像、音訊和視訊的提示。與純文字模型不同,Flash 變體擅長以最小的延遲解釋和產生豐富的混合媒體內容。

  • Gemini 2.5 Flash(「spark」)提供新一代多模態輸入功能和高吞吐量,適用於即時任務。 Gemini 2.5 Flash 引入了增強的「透過思考進行推理」功能,以提高其輸出的準確性和情境感知能力
  • Gemini 2.0 Flash 影像產生功能升級,提升視覺品質與文字渲染能力,減少內容安全攔截

Flash 多模態的主要特點

  • 原生影像生成: 直接製作或編輯高度情境化的影像,無需外部管道。
  • 流動模式與思考模式: 利用雙向串流(Live API)進行即時音訊/視訊交互,或啟用「思考模式」來揭示內部推理步驟並增強透明度。
  • 結構化輸出格式: 將輸出限制為 JSON 或其他結構化模式,以促進與下游系統的確定性整合。
  • 可擴充上下文視窗: 上下文長度高達一百萬個標記,可在單一會話中分析大型文件、記錄或媒體串流。

什麼是 CometAPI?

CometAPI 是一個統一的 API 網關,它將超過 500 個 AI 模型(包括來自 OpenAI、Anthropic 和 Google 的 Gemini 的模型)聚合到一個易於使用的介面中。透過集中模型存取、身份驗證、計費和速率限制,CometAPI 簡化了開發人員和企業的整合工作,無論底層提供者是誰,都能提供一致的 SDK 和 REST 端點。值得注意的是,CometAPI 發布了對 Gemini 2.5 Flash 預覽 API gemini-2.0-flash-exp-image-generation API 上個月剛推出,重點突出了快速回應時間、自動擴展和持續更新等功能——所有這些都可以透過單一端點存取。

CometAPI 提供了一個統一的 REST 接口,在一致的端點下聚合了數百種 AI 模型(包括 Google 的 Gemini 系列),並內建了 API 金鑰管理、使用配額和計費儀表板。您無需處理多個供應商 URL 和憑證,只需讓客戶指向 https://api.cometapi.com/v1 or https://api.cometapi.com 並在每個請求中指定目標模型。

使用 CometAPI 的好處

  1. 簡化的端點管理:所有 AI 服務的單一基本 URL 可減少設定開銷。
  2. 統一計費和速率限制:在一個儀表板中追蹤 Google、OpenAI、Anthropic 和其他模型的使用情況。
  3. 代幣配額池:在不同的AI供應商之間分享免費試用或企業級代幣預算,優化成本效率。

雙子座閃光

如何開始將 Gemini Flash API 與 CometAPI 結合使用?

如何取得 CometAPI 金鑰?

  1. 註冊帳號
    瀏覽 彗星API 儀表板並使用您的電子郵件註冊。
  2. 導航至 API 金鑰
    帳戶設定 → API 金鑰點擊此處成為Trail Hunter 產生新密鑰.
  3. 複製你的密鑰
    安全儲存此金鑰;您將在每個請求中引用它來透過 CometAPI 進行身份驗證。

小提示: 將您的 API 金鑰視為密碼。避免將其提交到原始程式碼控製或在客戶端程式碼中公開它。

如何設定 CometAPI 客戶端?

使用官方的Python SDK,您可以如下初始化客戶端:

pythonimport os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key="<YOUR_API_KEY>",    
)
  • base_url: 總是 "https://api.cometapi.com/v1" 用於 CometAPI。
  • api_key:您的個人 CometAPI 金鑰。

您如何提出第一個多式聯運請求?

下面是如何調用 Gemini 2.0實驗版 API(純文字和圖像生成變體)透過 彗星API 使用普通 requests 在Python中。

需要什麼依賴項?

確保已安裝以下 Python 套件:

bashpip install openai pillow requests
  • openai:與 CometAPI 相容的 SDK。
  • pillow:影像處理。
  • requests:遠端資產的 HTTP 請求。

我如何準備我的多模式輸入?

Gemini Flash 接受「內容」列表,其中每個元素可以是:

  • 文本 (串)
  • 圖片 (PIL.Image.Image 目的)
  • 音頻 (二進位或類似檔案的物件)
  • 視頻資料 (二進位或類似檔案的物件)

從 URL 載入圖像的範例:

pythonfrom PIL import Image
import requests

image = Image.open(
    requests.get(
        "https://storage.googleapis.com/cloud-samples-data/generative-ai/image/meal.png",
        stream=True,
    ).raw
)

如何呼叫 Gemini 2.5 Flash 端點?

pythonresponse = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=[
        image,
        "Write a concise, engaging caption for this meal photo."
    ]
)
print(response.text)
  • model:選擇目標模型 ID(例如, "gemini-2.5-flash-preview-04-17").
  • contents:混合模式提示清單。
  • response.text:包含模型的文字輸出。

呼叫圖像生成實驗模型

產生 圖片, 使用 Gemini 2.0 Flash Exp‑Image‑Generation 模型:

payload = {
    "model": "Gemini 2.0 Flash Exp-Image-Generation",
    "messages": [
        {"role": "system",  "content": "You are an AI that can draw anything."},
        {"role": "user",    "content": "Create a 3D‑style illustration of a golden retriever puppy."}
    ],
    # you can still control response length if you want mixed text + image captions:

    "max_tokens": 100,
}

resp = requests.post(ENDPOINT, headers=headers, json=payload)
resp.raise_for_status()

data = resp.json()
choice = data

# 1) Print any text (caption, explanation, etc.)

print("Caption:", choice.get("content", ""))

# 2) Decode & save the image if provided as base64

if "image" in choice:
    import base64
    img_bytes = base64.b64decode(choice)
    with open("output.png", "wb") as f:
        f.write(img_bytes)
    print("Saved image to output.png")

請注意: 根據 CometAPI 對 Gemini API 的具體包裝,影像欄位可能被稱為 "image" or "data"。檢查 data 確認。


一個腳本中的完整範例

import requests, base64

API_KEY    = "sk‑YOUR_COMETAPI_KEY"
ENDPOINT   = "https://api.cometapi.com/v1/chat/completions"
HEADERS    = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

def call_gemini(model, messages, max_tokens=200):
    payload = {
        "model": model,
        "messages": messages,
        "max_tokens": max_tokens
    }
    r = requests.post(ENDPOINT, headers=HEADERS, json=payload)
    r.raise_for_status()
    return r.json()

# Text‑only call

text_msg = call_gemini(
    "gemini-2.0-flash-exp",
    [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "Summarize the lifecycle of a star."}
    ],
    max_tokens=250
)
print("🌟 Text output:\n", text_msg.get("content"))

# Image call

img_msg = call_gemini(
    "Gemini 2.0 Flash Exp-Image-Generation",
    [
        {"role": "system", "content": "You draw photorealistic images."},
        {"role": "user",   "content": "Show me a photorealistic apple on a marble table."}
    ],
    max_tokens=50
)
print("\n🎨 Caption:\n", img_msg.get("content"))

if img_msg.get("image"):
    img_data = base64.b64decode(img_msg)
    with open("apple.png", "wb") as img_file:
        img_file.write(img_data)
    print("Saved illustration to apple.png")

使用此模式,您可以插入任何 Gemini 閃光燈變體——只需交換 model 字段 gemini-2.5-flash-preview-04-17 用於文字或 Gemini 2.0 Flash Exp‑Image‑Generation 用於多模態影像工作。

如何利用 Gemini Flash 的進階功能?

我如何處理串流媒體和即時回應?

Gemini 2.5 Flash 支援低延遲應用程式的串流輸出。若要啟用串流:

pythonfor chunk in client.models.stream_generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=,
):
    print(chunk.choices.delta.content, end="")
  • stream_generate_content:產生部分響應(chunk).
  • 非常適合需要立即回饋的聊天機器人或即時字幕。

如何透過函數呼叫來強制執行結構化輸出?

Gemini Flash 可以傳回符合指定模式的 JSON。定義您的函數簽名:

pythonfunctions = [
    {
        "name": "create_recipe",
        "description": "Generate a cooking recipe based on ingredients.",
        "parameters": {
            "type": "object",
            "properties": {
                "title": {"type": "string"},
                "ingredients": {
                    "type": "array",
                    "items": {"type": "string"}
                },
                "steps": {
                    "type": "array",
                    "items": {"type": "string"}
                }
            },
            "required": 
        }
    }
]

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=,
    functions=functions,
    function_call={"name": "create_recipe"},
)
print(response.choices.message.function_call.arguments)
  • functions:JSON 模式數組。
  • function_call:指示模型呼叫您的模式,返回結構化資料。

結論和後續步驟

在本指南中,您了解了 什麼 Gemini Flash 多模態模型包括: 如何 CometAPI 簡化了對它們的訪問,並且 一步步 有關提出第一個多式聯運請求的說明。您還了解如何解鎖串流和函數呼叫等高級功能,並介紹了成本和效能優化的最佳實踐。

下一步是:

  1. 實驗 透過 CometAPI 與 Gemini 2.0 Flash Exp-Image-Generation 和 2.5 Flash 模型一起使用。
  2. 原型開發 多模式應用程式(例如圖像到文字的轉換器或音訊摘要器)來探索現實世界的潛力。
  3. 監控器 您的使用情況並迭代提示和模式以實現品質、延遲和成本的最佳平衡。

透過 CometAPI 的統一介面利用 Gemini Flash 的強大功能,您可以加速開發、降低營運開銷,並在創紀錄的時間內為您的用戶帶來尖端的多模式 AI 解決方案。

快速指引

彗星API 提供遠低於官方價格的價格,幫助您整合 Gemini 2.5 Flash Pre API Gemini 2.0 Flash Exp-影像產生 API,註冊登入後您將在帳戶中獲得1美元!歡迎註冊體驗CometAPI,CometAPI按使用量付費,Gemini 2.5 Flash Pre API (型號名稱: gemini-2.5-flash-preview-04-17) 在 CometAPI 定價中的架構如下:

  • 輸入代幣:0.24 美元/百萬代幣
  • 輸出代幣:0.96 美元/百萬代幣

如需快速集成,請參閱 API 文件

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣