Cách truy cập Gemini Flash API bằng CometAPI

CometAPI
AnnaMay 11, 2025
Cách truy cập Gemini Flash API bằng CometAPI

Trong bối cảnh AI tạo sinh đang phát triển nhanh chóng, API Đa phương thức Gemini Flash của Google đại diện cho một bước tiến lớn—cung cấp cho các nhà phát triển một giao diện thống nhất, hiệu suất cao để xử lý văn bản, hình ảnh, video, âm thanh, v.v. Kết hợp với quản lý điểm cuối hợp lý và kiểm soát thanh toán của CometAPI, bạn có thể tích hợp lý luận đa phương thức tiên tiến vào ứng dụng của mình chỉ trong vài phút. Bài viết này kết hợp những phát triển mới nhất trong chu kỳ phát hành tháng 2025–tháng XNUMX năm XNUMX của Gemini với hướng dẫn thực hành để truy cập API Đa phương thức Gemini Flash thông qua CometAPI.

API đa phương thức Gemini Flash là gì?

Tổng quan về tầm nhìn đa phương thức của Gemini

Gemini Flash là một phần của gia đình Gemini rộng lớn hơn của Google về các mô hình AI quy mô lớn, được thiết kế từ đầu để xử lý các đầu vào "đa phương thức"—tức là các lời nhắc kết hợp văn bản, hình ảnh, âm thanh và video—trong một lệnh gọi API duy nhất. Không giống như các mô hình chỉ có văn bản, các biến thể Flash vượt trội trong việc diễn giải và tạo nội dung đa phương tiện phong phú với độ trễ tối thiểu.

  • Gemini 2.5 Flash (“spark”) cung cấp khả năng nhập liệu đa phương thức thế hệ tiếp theo và thông lượng cao cho các tác vụ thời gian thực. Gemini 2.5 Flash giới thiệu “lý luận thông qua suy nghĩ” nâng cao để cải thiện độ chính xác và nhận thức ngữ cảnh trong các đầu ra của nó
  • Nâng cấp chức năng tạo hình ảnh Flash Gemini 2.0 Cải thiện chất lượng hình ảnh và khả năng hiển thị văn bản Giảm tình trạng chặn bảo mật nội dung

Các tính năng chính của Flash Multimodality

  • Tạo hình ảnh gốc: Tạo hoặc chỉnh sửa hình ảnh có tính ngữ cảnh cao trực tiếp, không cần thông qua đường ống bên ngoài.
  • Chế độ phát trực tuyến và suy nghĩ: Tận dụng phát trực tuyến hai chiều (API trực tiếp) để tương tác âm thanh/video theo thời gian thực hoặc bật “Chế độ suy nghĩ” để hiển thị các bước lý luận nội bộ và tăng cường tính minh bạch.
  • Định dạng đầu ra có cấu trúc: Giới hạn đầu ra thành JSON hoặc các lược đồ có cấu trúc khác, tạo điều kiện tích hợp xác định với các hệ thống hạ nguồn.
  • Cửa sổ ngữ cảnh có thể mở rộng: Độ dài ngữ cảnh lên tới một triệu mã thông báo, cho phép phân tích các tài liệu, bản ghi hoặc luồng phương tiện lớn trong một phiên duy nhất.

CometAPI là gì?

CometAPI là một cổng API hợp nhất tổng hợp hơn 500 mô hình AI—bao gồm các mô hình từ OpenAI, Anthropic và Gemini của Google—thành một giao diện duy nhất, dễ sử dụng. Bằng cách tập trung quyền truy cập mô hình, xác thực, thanh toán và giới hạn tốc độ, CometAPI đơn giản hóa các nỗ lực tích hợp cho các nhà phát triển và doanh nghiệp, cung cấp các SDK và điểm cuối REST nhất quán bất kể nhà cung cấp cơ bản nào. Đáng chú ý, CometAPI đã phát hành hỗ trợ cho API xem trước Flash Gemini 2.5gemini-2.0-flash-exp-image-generation API mới ra mắt vào tháng trước, làm nổi bật các tính năng như thời gian phản hồi nhanh, tự động mở rộng quy mô và cập nhật liên tục—tất cả đều có thể truy cập thông qua một điểm cuối duy nhất.

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả gia đình Gemini của Google—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp, bạn chỉ định khách hàng của mình tại https://api.cometapi.com/v1 or https://api.cometapi.com và chỉ định mô hình mục tiêu trong mỗi yêu cầu.

Lợi ích của việc sử dụng CometAPI

  1. Quản lý điểm cuối được đơn giản hóa: URL cơ sở duy nhất cho tất cả các dịch vụ AI giúp giảm chi phí cấu hình.
  2. Thanh toán hợp nhất & giới hạn tỷ lệ: Theo dõi mức sử dụng trên Google, OpenAI, Anthropic và các mô hình khác trong một bảng điều khiển.
  3. Nhóm hạn ngạch mã thông báo: Chia sẻ ngân sách mã thông báo dùng thử miễn phí hoặc cấp doanh nghiệp trên nhiều nhà cung cấp AI khác nhau, giúp tối ưu hóa hiệu quả về chi phí.

Tia chớp Song Tử

Làm thế nào bạn có thể bắt đầu sử dụng Gemini Flash API với CometAPI?

Làm thế nào để tôi có được Khóa CometAPI?

  1. Đăng ký tài khoản
    Truy cập vào Sao chổiAPI bảng điều khiển và đăng ký bằng email của bạn.
  2. Điều hướng đến Khóa API
    Theo Cài đặt tài khoản → Khóa API, Click Tạo khóa mới.
  3. Sao chép khóa của bạn
    Lưu trữ khóa này một cách an toàn; bạn sẽ tham chiếu khóa này trong mỗi yêu cầu để xác thực với CometAPI.

Mẹo: Xử lý khóa API của bạn như một mật khẩu. Tránh cam kết nó với kiểm soát nguồn hoặc tiết lộ nó trong mã phía máy khách.

Làm thế nào để cấu hình CometAPI Client?

Sử dụng Python SDK chính thức, bạn có thể khởi tạo máy khách như sau:

pythonimport os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.cometapi.com/v1",
    api_key="<YOUR_API_KEY>",    
)
  • base_url: Luôn luôn "https://api.cometapi.com/v1" dành cho CometAPI.
  • api_key: Khóa CometAPI cá nhân của bạn.

Bạn thực hiện yêu cầu đa phương thức đầu tiên như thế nào?

Dưới đây là ví dụ từng bước về cách gọi Gemini 2.0 thử nghiệm API (cả biến thể chỉ có văn bản và biến thể tạo hình ảnh) thông qua Sao chổiAPI sử dụng đồng bằng requests bằng Python.

Những phụ thuộc nào là cần thiết?

Đảm bảo bạn đã cài đặt các gói Python sau:

bashpip install openai pillow requests
  • openai: SDK tương thích với CometAPI.
  • pillow: Xử lý hình ảnh.
  • requests: Yêu cầu HTTP cho các tài sản từ xa.

Tôi phải chuẩn bị dữ liệu đầu vào đa phương thức như thế nào?

Gemini Flash chấp nhận danh sách “nội dung”, trong đó mỗi phần tử có thể là:

  • bản văn (chuỗi)
  • Hình ảnh (PIL.Image.Image vật)
  • Bài nghe (đối tượng nhị phân hoặc giống như tệp)
  • Video (đối tượng nhị phân hoặc giống như tệp)

Ví dụ về cách tải hình ảnh từ URL:

pythonfrom PIL import Image
import requests

image = Image.open(
    requests.get(
        "https://storage.googleapis.com/cloud-samples-data/generative-ai/image/meal.png",
        stream=True,
    ).raw
)

Tôi có thể gọi điểm cuối Gemini 2.5 Flash như thế nào?

pythonresponse = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=[
        image,
        "Write a concise, engaging caption for this meal photo."
    ]
)
print(response.text)
  • model: Chọn ID mô hình mục tiêu của bạn (ví dụ: "gemini-2.5-flash-preview-04-17").
  • contents: Danh sách các lời nhắc kết hợp các phương thức.
  • response.text: Chứa nội dung văn bản đầu ra của mô hình.

Gọi Mô hình thử nghiệm tạo hình ảnh

Để tạo ra hình ảnh, sử dụng Gemini 2.0 Flash Exp‑Image‑Generation mô hình:

payload = {
    "model": "Gemini 2.0 Flash Exp-Image-Generation",
    "messages": [
        {"role": "system",  "content": "You are an AI that can draw anything."},
        {"role": "user",    "content": "Create a 3D‑style illustration of a golden retriever puppy."}
    ],
    # you can still control response length if you want mixed text + image captions:

    "max_tokens": 100,
}

resp = requests.post(ENDPOINT, headers=headers, json=payload)
resp.raise_for_status()

data = resp.json()
choice = data

# 1) Print any text (caption, explanation, etc.)

print("Caption:", choice.get("content", ""))

# 2) Decode & save the image if provided as base64

if "image" in choice:
    import base64
    img_bytes = base64.b64decode(choice)
    with open("output.png", "wb") as f:
        f.write(img_bytes)
    print("Saved image to output.png")

Lưu ý: Tùy thuộc vào cách gói cụ thể của CometAPI đối với Gemini API, trường hình ảnh có thể được gọi "image" or "data". Kiểm tra data xác nhận.


Ví dụ đầy đủ trong một tập lệnh

import requests, base64

API_KEY    = "sk‑YOUR_COMETAPI_KEY"
ENDPOINT   = "https://api.cometapi.com/v1/chat/completions"
HEADERS    = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

def call_gemini(model, messages, max_tokens=200):
    payload = {
        "model": model,
        "messages": messages,
        "max_tokens": max_tokens
    }
    r = requests.post(ENDPOINT, headers=HEADERS, json=payload)
    r.raise_for_status()
    return r.json()

# Text‑only call

text_msg = call_gemini(
    "gemini-2.0-flash-exp",
    [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "Summarize the lifecycle of a star."}
    ],
    max_tokens=250
)
print("🌟 Text output:\n", text_msg.get("content"))

# Image call

img_msg = call_gemini(
    "Gemini 2.0 Flash Exp-Image-Generation",
    [
        {"role": "system", "content": "You draw photorealistic images."},
        {"role": "user",   "content": "Show me a photorealistic apple on a marble table."}
    ],
    max_tokens=50
)
print("\n🎨 Caption:\n", img_msg.get("content"))

if img_msg.get("image"):
    img_data = base64.b64decode(img_msg)
    with open("apple.png", "wb") as img_file:
        img_file.write(img_data)
    print("Saved illustration to apple.png")

Với mẫu này, bạn có thể cắm bất kỳ biến thể Gemini flash nào—chỉ cần hoán đổi model trường để gemini-2.5-flash-preview-04-17 cho văn bản hoặc Gemini 2.0 Flash Exp‑Image‑Generation cho công việc hình ảnh đa phương thức.

Làm thế nào để tận dụng các tính năng nâng cao của Gemini Flash?

Tôi có thể xử lý phản hồi phát trực tuyến và thời gian thực như thế nào?

Gemini 2.5 Flash hỗ trợ đầu ra phát trực tuyến cho các ứng dụng có độ trễ thấp. Để bật phát trực tuyến:

pythonfor chunk in client.models.stream_generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=,
):
    print(chunk.choices.delta.content, end="")
  • stream_generate_content: Mang lại phản ứng một phần (chunk).
  • Thích hợp cho chatbot hoặc phụ đề trực tiếp khi cần phản hồi ngay lập tức.

Làm thế nào tôi có thể áp dụng các đầu ra có cấu trúc bằng cách gọi hàm?

Gemini Flash có thể trả về JSON tuân thủ theo một lược đồ đã chỉ định. Xác định chữ ký hàm của bạn:

pythonfunctions = [
    {
        "name": "create_recipe",
        "description": "Generate a cooking recipe based on ingredients.",
        "parameters": {
            "type": "object",
            "properties": {
                "title": {"type": "string"},
                "ingredients": {
                    "type": "array",
                    "items": {"type": "string"}
                },
                "steps": {
                    "type": "array",
                    "items": {"type": "string"}
                }
            },
            "required": 
        }
    }
]

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-04-17",
    contents=,
    functions=functions,
    function_call={"name": "create_recipe"},
)
print(response.choices.message.function_call.arguments)
  • functions: Mảng lược đồ JSON.
  • function_call: Chỉ đạo mô hình gọi lược đồ của bạn, trả về dữ liệu có cấu trúc.

Kết luận và các bước tiếp theo

Trong hướng dẫn này, bạn đã học được Các mô hình đa phương thức của Gemini Flash là, làm thế nào CometAPI hợp lý hóa việc truy cập vào chúng và bước-by-step hướng dẫn thực hiện yêu cầu đa phương thức đầu tiên của bạn. Bạn cũng đã thấy cách mở khóa các khả năng nâng cao như phát trực tuyến và gọi hàm, và đề cập đến các biện pháp thực hành tốt nhất để tối ưu hóa chi phí và hiệu suất.

Bước tiếp theo ngay sau đây:

  1. Thử nghiệm với cả hai mô hình Gemini 2.0 Flash Exp-Image-Generation và 2.5 Flash thông qua CometAPI.
  2. Prototype một ứng dụng đa phương thức—chẳng hạn như trình dịch hình ảnh sang văn bản hoặc trình tóm tắt âm thanh—để khám phá tiềm năng thực tế.
  3. Màn Hình cách sử dụng của bạn và lặp lại các lời nhắc và lược đồ để đạt được sự cân bằng tốt nhất giữa chất lượng, độ trễ và chi phí.

Bằng cách tận dụng sức mạnh của Gemini Flash thông qua giao diện hợp nhất của CometAPI, bạn có thể đẩy nhanh quá trình phát triển, giảm chi phí vận hành và mang đến cho người dùng các giải pháp AI đa phương thức tiên tiến trong thời gian kỷ lục.

Khởi động nhanh

Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp Gemini 2.5 Flash Pre APIAPI tạo hình ảnh Exp-Image-Generation của Gemini 2.0 Flashvà bạn sẽ nhận được 1 đô la trong tài khoản của mình sau khi đăng ký và đăng nhập! Chào mừng bạn đến đăng ký và trải nghiệm CometAPI.CometAPI trả tiền khi bạn sử dụng,Gemini 2.5 Flash Pre API (tên mẫu: gemini-2.5-flash-preview-04-17) trong CometAPI Giá được cấu trúc như sau:

  • Mã thông báo đầu vào: $0.24/M mã thông báo
  • Mã thông báo đầu ra: 0.96 đô la/M mã thông báo

Để tích hợp nhanh chóng, vui lòng xem Tài liệu API

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%