Cách sử dụng API Gemini 3.1 Pro

Một hướng dẫn thực dụng, thiên về mã cho Gemini 3.1 Pro — nó là gì, cách gọi (bao gồm qua CometAPI), các điều khiển đa phương thức và “thinking level”, gọi hàm/sử dụng công cụ, mẹo vibe-coding, và tích hợp với GitHub Copilot, VS Code, Gemini CLI và Google Antigravity. Gemini 3.1 Pro đang tiếp tục mở rộng biên giới của các mô hình đa phương thức lớn với câu chuyện tập trung cho nhà phát triển: cửa sổ ngữ cảnh lớn hơn, các chế độ “thinking” có thể cấu hình, khả năng gọi công cụ/hàm được cải thiện, và hỗ trợ rõ ràng cho quy trình agentic.

Gemini 3.1 Pro là gì?

Gemini 3.1 Pro là bậc “Pro” mới nhất trong họ Gemini 3: một mô hình gốc đa phương thức, đặt suy luận lên hàng đầu, được tinh chỉnh cho các tác vụ phức tạp, nhiều bước và sử dụng công cụ theo kiểu tác tử. Nó được trình bày như một bản tinh chỉnh so với Gemini 3 Pro với ba trọng tâm thực dụng: tăng cường suy luận/căn cứ thực tế, hiệu quả token tốt hơn và các chế độ thực thi có thể điều khiển nhắm vào quy trình nhà phát triển (mã, lập kế hoạch, tác vụ tăng cường truy xuất). Thẻ mô hình và trang dành cho nhà phát triển mô tả nó được tối ưu cho hành vi kỹ thuật phần mềm, pipeline tác tử và đầu vào đa phương thức (văn bản, hình ảnh, âm thanh, video và kho mã).

Vì sao điều đó quan trọng với bạn: sự kết hợp giữa cửa sổ ngữ cảnh một triệu token (trên nhiều biến thể của nhà cung cấp), các nguyên thủy gọi hàm rõ ràng, và điều khiển “thinking level” giúp các nhóm dự đoán chi phí và đầu ra tốt hơn cho mọi thứ từ tạo mẫu nhanh đến điều phối tác tử trong sản xuất. CometAPI đã đưa 3.1 Pro lên thông qua các chợ API và cầu nối tương thích OpenAI, cung cấp mô hình truy cập trả theo mức dùng.

Làm thế nào sử dụng API Gemini 3.1 Pro (CometAPI)?

Cần những gì trước khi bắt đầu?

Danh sách kiểm (điều kiện tiên quyết)

Một tài khoản CometAPI và khóa API của CometAPI (lưu trong biến môi trường).
Tùy chọn một dự án Google Cloud/Google AI Studio và khóa API Gemini nếu bạn gọi Google trực tiếp (không cần khi đi qua Comet).
python 3.9+ hoặc node 18+, có curl để thử nhanh.
Một cơ chế quản lý bí mật an toàn: biến môi trường, vault, hoặc kho bí mật của CI.
Xác nhận id model Comet cho Gemini 3.1 Pro trong bảng điều khiển Comet của bạn (ví dụ: "google/gemini-3.1-pro" hoặc một bí danh riêng của Comet).

CometAPI hỗ trợ cả lời gọi định dạng gốc của Gemini, cũng như định dạng chat của OpenAI. CometAPI đơn giản hóa việc chuyển đổi mô hình, cung cấp một base URL duy nhất và các SDK, và có thể giảm ma sát tích hợp cho các stack đa nhà cung cấp.

Dưới đây là hai ví dụ cụ thể, dễ copy-paste: đầu tiên gọi Gemini qua CometAPI (client tương thích OpenAI), và thứ hai gọi Gemini qua endpoint HTTP chính thức của Google. Thay YOUR_API_KEY bằng khóa nhà cung cấp của bạn và đặt tên mô hình thành biến thể có sẵn (ví dụ, gemini-3.1-pro-preview nếu được cung cấp).

Ví dụ: gọi Gemini 3.1 Pro bằng CometAPI (curl + Python)

Curl (trình bao tương thích OpenAI dùng CometAPI base URL)

# curl example: CometAPI (OpenAI-compatible)curl https://api.cometapi.com/v1/chat/completions \  -H "Authorization: Bearer YOUR_API_KEY" \  -H "Content-Type: application/json" \  -d '{    "model": "gemini-3.1-pro-preview",    "messages": [      {"role":"system","content":"You are a concise programming assistant."},      {"role":"user","content":"Write a Python function to fetch CSV from a URL and return pandas DataFrame."}    ],    "max_tokens": 800  }'

Python (client tương thích OpenAI cấu hình về CometAPI base_url)

from openai import OpenAI  # or openai-python-compatible SDK offered by your platformclient = OpenAI(api_key="YOUR_API_KEY", base_url="https://api.cometapi.com/v1")resp = client.chat.completions.create(    model="gemini-3.1-pro-preview",    messages=[        {"role": "system", "content": "You are a concise programming assistant."},        {"role": "user", "content": "Write a Python function to fetch CSV from a URL and return pandas DataFrame."}    ],    max_tokens=800,)print(resp.choices[0].message.content)

Lý do: CometAPI cung cấp một cầu nối tương thích OpenAI trong nhiều tài liệu của họ, cho phép bạn tái sử dụng mã client OpenAI hiện có chỉ bằng cách thay đổi base_url và tên mô hình. Điều này tiện lợi cho thử nghiệm đa nhà cung cấp và tạo mẫu nhanh.

Ví dụ: gọi Gemini qua API chính thức của Gemini (Node.js / HTTP)

Các endpoint Gemini chính thức của Google là tốt nhất cho đầy đủ bộ tính năng (điều khiển thinking-level, function calling, tải lên đa phương thức). Dưới đây là một ví dụ HTTP tối thiểu dùng bề mặt API Gemini được mô tả trong tài liệu nhà phát triển Google AI.

Chỉ cần thay Base URL và API Key trong SDK chính thức hoặc các request để sử dụng nó:

Base URL: https://api.cometapi.com (thay cho generativelanguage.googleapis.com)
API Key: Thay $GEMINI_API_KEY bằng $COMETAPI_KEY

Curl (API Gemini chính thức — minh họa)

curl "https://api.cometapi.com/v1beta/models/gemini-3-1-pro-preview:generateContent" \
  -H "x-goog-api-key: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "How does AI work?"
          }
        ]
      }
    ]
  }'

Các tham số thường dùng

temperature (0.0–1.0) — độ ngẫu nhiên. Dùng 0.0 cho đầu ra mã có tính quyết định.
max_output_tokens / max_tokens — ngân sách độ dài đầu ra.
top_p — nucleus sampling.
presence_penalty / frequency_penalty — giảm lặp lại.
thinking_level hoặc biến thể mô hình — xác định độ sâu suy luận (ví dụ, -low, -medium, -high hoặc thinking_level tường minh). Dùng mức thinking thấp nhất thỏa mãn độ chính xác để kiểm soát chi phí/độ trễ.

Các khả năng đa phương thức của Gemini 3.1 Pro là gì?

Gemini 3.1 Pro hỗ trợ những phương thức nào?

Gemini 3.1 Pro chấp nhận văn bản, hình ảnh, video, âm thanh và PDF trong nhiều bản preview — và có thể tổng hợp đầu ra văn bản tham chiếu hoặc tóm tắt nội dung đa phương thức. Comet hỗ trợ chuyển tiếp đầu vào đa phương thức tới Gemini — hoặc bằng URL hình ảnh, tải tệp (Comet file API), hoặc cho phép Gemini đọc tệp lưu trên lưu trữ đám mây.

Nhà phát triển nên nghĩ về prompt đa phương thức như thế nào?

Cấu trúc prompt đa phương thức với các khối ngữ cảnh rõ ràng: ví dụ, đặt hướng dẫn văn bản ngắn trước, rồi đính kèm siêu dữ liệu hoặc con trỏ cho hình ảnh/video/PDF.
Dùng các trường đính kèm media và tải tệp của SDK thay vì nhúng dữ liệu nhị phân vào trường văn bản — các client chính thức và ví dụ Vertex AI / Gemini API cho thấy cách truyền media một cách gọn gàng.

Ví dụ thực tiễn (mã giả): hiển thị một hình ảnh kèm câu hỏi

# Pseudocode — attach an image with a caption and ask a questionfrom google.gemini import GemSDK  # conceptual import; use official client per docsresponse = client.generate(    model="gemini-3.1-pro-preview",    inputs = [        {"type": "text", "content": "Summarize the visual diagram and list actionable next steps."},        {"type": "image", "uri": "gs://my-bucket/diagram.png", "alt": "system architecture diagram"}    ])print(response.text)

Mẹo thực tế:

Dùng đính kèm hình ảnh cho việc phân loại lỗi UI: đính kèm ảnh chụp màn hình và yêu cầu chỉ ra khác biệt hoặc nguyên nhân có thể.
Kết hợp bản chép âm thanh với mẫu mã để tóm tắt ghi âm phỏng vấn.
Khi gửi artefact lớn (video, codebase lớn), hãy ưu tiên cách tiếp cận theo giai đoạn: tải tài sản lên (lưu trữ đám mây), truyền URL + manifest ngắn, và dùng mô hình để điều khiển một pipeline tăng cường truy xuất thay vì nhồi tất cả vào một prompt.

Thinking Levels (Low, Medium, High) là gì và khi nào nên dùng?

“Thinking levels” là gì?

Dòng Gemini 3 giới thiệu tham số thinking_level để hướng dẫn ngân sách tính toán/chuỗi suy luận nội bộ của mô hình. Hãy coi nó như một núm điều chỉnh đánh đổi độ trễ + chi phí để lấy độ sâu suy luận cao hơn:

Low: suy luận tối thiểu, tối ưu thông lượng và tác vụ ngắn, có tính quyết định.
Medium: suy luận cân bằng — mới trong 3.1 và lý tưởng cho nhiều quy trình kỹ thuật và phân tích.
High: suy luận sâu hơn, kiểu chain-of-thought động; tốt nhất cho các bài toán nhiều bước phức tạp.
(Cũng có cách gọi minimal/max ở các biến thể khác — tham khảo tài liệu mô hình để biết các tùy chọn chính xác theo từng biến thể.)

Chọn thinking level thế nào?

Dùng Low cho chat người dùng thông lượng cao, hướng dẫn ngắn, hoặc khi chi phí/độ trễ là then chốt.
Dùng Medium mặc định cho hầu hết tác vụ nhà phát triển cần mức suy luận vừa phải (đây là “điểm ngọt” mới trong 3.1).
Dùng High khi giải đố, lập chuỗi logic dài, lập kế hoạch, hoặc khi bạn cần độ trung thực cao và chấp nhận độ trễ/tiêu thụ token tăng.

Cách đặt thinking level trong request

curl "https://api.cometapi.com/v1beta/models/gemini-3-1-pro-preview:generateContent" \
  -H "x-goog-api-key: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{ "parts": [{ "text": "Explain quantum physics simply." }] }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingLevel": "LOW"
      }
    }
  }'

Tôi triển khai function calling và sử dụng công cụ với Gemini 3.1 Pro như thế nào?

Function calling / tool use là gì?

Function calling (còn gọi là sử dụng công cụ) cho phép mô hình phát ra các đối tượng “call” có cấu trúc để cho ứng dụng biết nên chạy công cụ hoặc hàm nào (ví dụ, get_current_weather(location)) và với đối số nào. Mô hình có thể chuỗi nhiều lời gọi, nhận đầu ra công cụ và tiếp tục suy luận — kích hoạt hành vi tác tử. SDK của Gemini cung cấp hỗ trợ tích hợp cho vòng lặp mô hình-đến-công-cụ (MCP/đăng ký tool) để bạn tự động hóa thực thi một cách an toàn.

Bạn có thể khai báo các công cụ trong cấu hình để bật hành vi proxy. Các công cụ tích hợp sẵn được hỗ trợ gồm google_search, code_execution và url_context.

Mẫu an toàn khi dùng công cụ

Khai báo giao diện công cụ: đăng ký hàm/công cụ với schema rõ ràng và kiểu đối số được xác thực.
Để mô hình đề xuất lời gọi: mô hình phát JSON có cấu trúc mô tả công cụ cần gọi.
Host chỉ thực thi công cụ trong danh sách cho phép: áp dụng danh sách trắng và xác thực nghiêm ngặt.
Trả kết quả công cụ về mô hình: vòng lặp SDK đưa phản hồi công cụ về mô hình để mô hình tiếp tục lập kế hoạch/thực thi thêm.

Hướng dẫn tích hợp Gemini 3.1 Pro

GitHub Copilot

GitHub Copilot (Copilot) đã bổ sung hỗ trợ các mô hình họ Gemini ở các gói cao cấp, cho phép nhóm chọn Gemini làm mô hình nền cho chat và gợi ý. Điều đó nghĩa là người dùng trên gói đủ điều kiện có thể chọn biến thể Gemini trong bộ chọn mô hình của Copilot, tận hưởng cải tiến ở cấp mô hình mà không cần đổi tiện ích mở rộng IDE. Với các nhóm, Copilot vẫn là con đường quản lý tiện lợi để có suy luận Gemini ngay trong VS Code và các trình soạn thảo được hỗ trợ.

Gemini CLI và Code Assist

Nguồn mở Gemini CLI đưa các mô hình Gemini lên terminal; nhẹ và tích hợp tốt với luồng công việc hiện có (diff, commit, CI và chạy server headless). Dùng CLI cho vòng lặp nhanh, script các lượt chạy tác tử, hoặc nhúng mô hình vào luồng DevOps. Gemini Code Assist là tiện ích VS Code và tích hợp IDE rộng hơn đem gợi ý mã theo ngữ cảnh, review PR và sửa lỗi tự động trực tiếp trong editor. Các công cụ này cho phép bạn kiểm soát lựa chọn mô hình, cửa sổ ngữ cảnh và ưu tiên thinking level.

Visual Studio Code

Visual Studio Code và chợ tiện ích của nó có cả GitHub Copilot và Gemini Code Assist. Bạn có thể cài Code Assist cho Gemini hoặc tiếp tục dùng Copilot; mỗi cái có đánh đổi khác nhau (tốc độ, độ sâu, quyền riêng tư). VS Code vẫn là bề mặt trưởng thành nhất cho tạo mã tương tác, chat trong editor và tích hợp trực tiếp với chạy cục bộ hoặc bộ khung kiểm thử.

Google Antigravity

Google Antigravity là một IDE và nền tảng ưu tiên tác tử, coi tác tử là thực thể hạng nhất, cung cấp “Mission Control” cho điều phối tác tử, tự động hóa trình duyệt tích hợp và giao diện cho dự án đa tác tử. Antigravity và Gemini CLI phục vụ nhu cầu khác nhau: Antigravity là bề mặt IDE agentic đầy đủ; Gemini CLI là thuần terminal nhưng tích hợp vào Antigravity và VS Code qua extension và máy chủ MCP (Model Context Protocol). Hệ sinh thái Antigravity phù hợp cho các nhóm muốn điều phối tác tử mạnh và bề mặt trực quan, có định kiến tích hợp.

Ai nên dùng công cụ nào?

Tạo mẫu nhanh & sửa một tệp đơn lẻ: Gemini CLI + kiểm thử cục bộ hoặc Copilot cho tốc độ.
Suy luận sâu, nghiên cứu dài hơi: Gemini API (Vertex) với thinking level cao và function calling.
Điều phối tác tử & tự động hóa nhiều bước: Antigravity cho quản lý trực quan hoặc pipeline tác tử tùy chỉnh dùng function calling + MCP.
Thử nghiệm đa nhà cung cấp / kiểm soát chi phí: Dùng CometAPI hoặc nền tảng tương tự để chuyển đổi mô hình hoặc thử Flash vs Pro một cách kinh tế.

Các cân nhắc thiết kế khi tích hợp:

Bảo mật: tránh gửi bí mật hoặc PII trong prompt. Dùng tài khoản dịch vụ với phạm vi token cho các lời gọi phía server.
Cục bộ vs đám mây: chạy các tính năng trợ lý nhẹ cục bộ (hoàn thành nhanh) nhưng chuyển phân tích đa phương thức nặng lên đám mây.
Quyền kiểm soát của người dùng: cung cấp “giải thích gợi ý này” và điều khiển hoàn tác dễ dàng cho các chỉnh sửa mã do mô hình tạo.

Mẫu tích hợp & kiến trúc khuyến nghị

Ứng dụng nhẹ (chat hoặc trợ lý)

Client (trình duyệt/di động) → microservice backend → Gemini API (thinking_level=low)
Dùng streaming/đầu ra từng phần cho UX chat. Xác thực đầu vào người dùng, và không bao giờ cho phép lời gọi công cụ thô từ client không tin cậy.

Backend agentic (quy trình tự động)

Dịch vụ điều phối: đăng ký một tập nhỏ công cụ được phép (đọc DB, runner job CI, API nội bộ).
Để Gemini lập kế hoạch và phát lời gọi công cụ; trình điều phối thực thi lời gọi đã xác thực và trả kết quả. Dùng thinking level cao cho giai đoạn lập kế hoạch và trung bình cho các bước thực thi.

Pipeline thu nhận đa phương thức

Tiền xử lý và lập chỉ mục tài liệu, hình ảnh hoặc video lớn.

Khi nào nên chọn Gemini 3.1 Pro?

Chọn Gemini 3.1 Pro khi bạn cần:

suy luận đa bước, độ trung thực cao trên đầu vào đa phương thức;
điều phối công cụ và quy trình tác tử đáng tin cậy;
vòng lặp tổng hợp/chỉnh sửa mã tốt hơn trong IDE (qua Copilot/CLI/Antigravity); hoặc
tạo mẫu so sánh đa nhà cung cấp với cổng như CometAPI.

Nếu bạn quan tâm đến thông lượng và chi phí, hãy áp dụng chiến lược hỗn hợp: mặc định dùng thinking mức trung bình cho hầu hết quy trình, mức thấp cho chat người dùng thông lượng cao, và mức cao chỉ cho tác vụ thực sự cần suy luận sâu (lập kế hoạch, chứng minh, tổng hợp nhiều bước).

Nhận xét cuối cùng: Gemini 3.1 Pro phù hợp ở đâu trong stack

Gemini 3.1 Pro tập trung vào những gì các LLM hướng đến nhà phát triển hiện đại phải có: hiểu biết đa phương thức, điều phối công cụ tường minh, và điều khiển thực dụng cho ngân sách suy luận. Dù bạn truy cập trực tiếp qua API của Google và Vertex, qua Copilot trên các gói cao cấp, hay qua các nền tảng đa mô hình như CometAPI, các kỹ năng then chốt cho đội ngũ vẫn giống nhau: điều phối thinking level cẩn trọng, mẫu function-calling an toàn, và tích hợp vào luồng công việc nhà phát triển vững chắc (CLI, IDE, kiểm thử tự động).

Nhà phát triển có thể truy cập Gemini 3.1 Pro qua CometAPI ngay bây giờ. Để bắt đầu, hãy khám phá khả năng của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn đáng kể so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu? → Đăng ký Gemini 3.1 Pro ngay hôm nay!

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!