Mô hìnhGiáDoanh nghiệp
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Công ty
Về chúng tôiDoanh nghiệp
Tài nguyên
Mô hình AIBlogNhật ký thay đổiHỗ trợ
Điều khoản Dịch vụChính sách Bảo mật
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

Đầu vào:$0.2/M
Đầu ra:$1.2/M
Gemini 3.1 Flash-Lite là một mô hình Tier-3 rất tiết kiệm chi phí và có độ trễ thấp trong dòng Gemini 3 của Google, được thiết kế cho các quy trình AI sản xuất khối lượng lớn, nơi thông lượng và tốc độ quan trọng hơn độ sâu suy luận tối đa. Nó kết hợp một cửa sổ ngữ cảnh đa phương thức lớn với hiệu năng suy luận hiệu quả, với chi phí thấp hơn so với phần lớn các mẫu đầu bảng.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

📊 Thông số kỹ thuật

SpecificationDetails
Họ mô hìnhGemini 3 (Flash-Lite)
Cửa sổ ngữ cảnhLên đến 1 triệu token (văn bản, hình ảnh, âm thanh, video đa phương thức)
Giới hạn token đầu raLên đến 64 K token
Loại đầu vàoVăn bản, hình ảnh, âm thanh, video
Nền tảng kiến trúc cốt lõiDựa trên Gemini 3 Pro
Kênh triển khaiGemini API (Google AI Studio), Vertex AI
Giá (xem trước)~$0.25 cho mỗi 1M token đầu vào, ~$1.50 cho mỗi 1M token đầu ra
Điều khiển suy luận“Mức độ suy nghĩ” có thể điều chỉnh (ví dụ: từ tối thiểu đến cao)

🔍 Gemini 3.1 Flash-Lite là gì?

Gemini 3.1 Flash-Lite là biến thể có chi phí tối ưu của dòng Gemini 3 của Google, được tối ưu cho khối lượng công việc AI quy mô lớn—đặc biệt trong những trường hợp ưu tiên giảm độ trễ, giảm chi phí trên mỗi token và thông lượng cao. Mô hình này vẫn giữ lại nền tảng suy luận đa phương thức cốt lõi của Gemini 3 Pro, đồng thời nhắm đến các trường hợp sử dụng xử lý hàng loạt như dịch thuật, phân loại, kiểm duyệt nội dung, tạo giao diện người dùng và tổng hợp dữ liệu có cấu trúc.

✨ Tính năng chính

  1. Cửa sổ ngữ cảnh siêu lớn: Xử lý tới 1 M token đầu vào đa phương thức, cho phép suy luận trên tài liệu dài và xử lý ngữ cảnh video/âm thanh.
  2. Thực thi tiết kiệm chi phí: Chi phí trên mỗi token thấp hơn đáng kể so với các mô hình Flash-Lite trước đó và các đối thủ cạnh tranh, giúp hỗ trợ sử dụng khối lượng lớn.
  3. Thông lượng cao & độ trễ thấp: Thời gian đến token đầu tiên nhanh hơn ~2.5× và thông lượng đầu ra nhanh hơn ~45 % so với Gemini 2.5 Flash.
  4. Điều khiển suy luận động: “Mức độ suy nghĩ” cho phép nhà phát triển điều chỉnh hiệu năng so với độ sâu suy luận theo từng yêu cầu.
  5. Hỗ trợ đa phương thức: Xử lý tự nhiên hình ảnh, âm thanh, video và văn bản trong một không gian ngữ cảnh thống nhất.
  6. Truy cập API linh hoạt: Có sẵn qua Gemini API trong Google AI Studio và các quy trình Vertex AI dành cho doanh nghiệp.

📈 Hiệu năng benchmark

Các chỉ số sau đây thể hiện hiệu quả và năng lực của Gemini 3.1 Flash-Lite so với các biến thể Flash/Lite trước đó và các mô hình khác (báo cáo tháng 3 năm 2026):

BenchmarkGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (kiến thức khoa học)86.9 %66.7 %82.3 %
MMMU-Pro (suy luận đa phương thức)76.8 %51.0 %74.1 %
CharXiv (suy luận biểu đồ phức tạp)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (suy luận mã)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Không hỗ trợ

Các điểm số này cho thấy Flash-Lite vẫn duy trì khả năng suy luận và hiểu đa phương thức cạnh tranh ngay cả với thiết kế định hướng hiệu quả, thường vượt trội hơn các biến thể Flash cũ trên các benchmark quan trọng.

⚖️ So sánh với các mô hình liên quan

FeatureGemini 3.1 Flash-LiteGemini 3.1 Pro
Chi phí mỗi tokenThấp hơn (gói đầu vào)Cao hơn (cao cấp)
Độ trễ / thông lượngTối ưu cho tốc độCân bằng với độ sâu
Độ sâu suy luậnCó thể điều chỉnh, nhưng nông hơnSuy luận sâu mạnh hơn
Trọng tâm trường hợp sử dụngPipeline hàng loạt, kiểm duyệt, dịch thuậtTác vụ suy luận trọng yếu
Cửa sổ ngữ cảnh1 M token1 M token (giống nhau)

Flash-Lite được thiết kế cho quy mô và chi phí; Pro dành cho suy luận sâu, độ chính xác cao.

🧠 Trường hợp sử dụng trong doanh nghiệp

  • Dịch thuật & kiểm duyệt khối lượng lớn: Pipeline ngôn ngữ và nội dung theo thời gian thực với độ trễ thấp.
  • Trích xuất & phân loại dữ liệu hàng loạt: Xử lý kho dữ liệu lớn với hiệu quả chi phí token cao.
  • Tạo UI/UX: JSON có cấu trúc, mẫu dashboard và khung giao diện front-end.
  • Prompt mô phỏng: Theo dõi trạng thái logic qua các tương tác kéo dài.
  • Ứng dụng đa phương thức: Suy luận dựa trên video, âm thanh và hình ảnh trong các ngữ cảnh thống nhất.

🧪 Hạn chế

  • Độ sâu suy luận và độ chính xác phân tích có thể thua Gemini 3.1 Pro trong các tác vụ phức tạp, trọng yếu. :
  • Các kết quả benchmark như hợp nhất ngữ cảnh dài cho thấy vẫn còn chỗ để cải thiện so với các mô hình đầu bảng.
  • Điều khiển suy luận động đánh đổi tốc độ lấy độ kỹ lưỡng; không phải mọi mức đều đảm bảo cùng một chất lượng đầu ra.

GPT-5.3 Chat (Bí danh: gpt-5.3-chat-latest) — Tổng quan

GPT-5.3 Chat là mô hình chat sản xuất mới nhất từ OpenAI, được cung cấp dưới endpoint gpt-5.3-chat-latest trong API chính thức và vận hành trải nghiệm hội thoại hằng ngày của ChatGPT. Mô hình này tập trung cải thiện chất lượng tương tác thường nhật—giúp câu trả lời mượt mà hơn, chính xác hơn và phù hợp ngữ cảnh hơn—đồng thời vẫn duy trì các năng lực kỹ thuật mạnh mẽ kế thừa từ dòng GPT-5 rộng hơn. :contentReference[oaicite:1]{index=1}


📊 Thông số kỹ thuật

SpecificationDetails
Tên/bí danh mô hìnhGPT-5.3 Chat / gpt-5.3-chat-latest
Nhà cung cấpOpenAI
Cửa sổ ngữ cảnh128,000 token
Số token đầu ra tối đa mỗi yêu cầu16,384 token
Mốc kiến thứcAugust 31, 2025
Phương thức đầu vàoĐầu vào văn bản và hình ảnh (chỉ thị giác)
Phương thức đầu raVăn bản
Gọi hàmĐược hỗ trợ
Đầu ra có cấu trúcĐược hỗ trợ
Phản hồi streamingĐược hỗ trợ
Fine-tuningKhông được hỗ trợ
Distillation / embeddingsDistillation không được hỗ trợ; embeddings được hỗ trợ
Endpoint sử dụng điển hìnhChat completions, Responses, Assistants, Batch, Realtime
Gọi hàm & công cụGọi hàm được bật; hỗ trợ tìm kiếm web & tệp qua Responses API

🧠 Điều gì làm GPT-5.3 Chat trở nên khác biệt

GPT-5.3 Chat đại diện cho một bước tinh chỉnh gia tăng của các năng lực định hướng chat trong dòng GPT-5. Mục tiêu cốt lõi của biến thể này là cung cấp các phản hồi hội thoại tự nhiên hơn, mạch lạc theo ngữ cảnh hơn và thân thiện với người dùng hơn so với các mô hình trước đó như GPT-5.2 Instant. Các cải tiến tập trung vào:

  • Giọng điệu tự nhiên, linh hoạt với ít tuyên bố miễn trừ không cần thiết hơn và câu trả lời trực tiếp hơn.
  • Khả năng hiểu ngữ cảnh và mức độ liên quan tốt hơn trong các tình huống chat thông thường.
  • Tích hợp mượt mà hơn với các trường hợp sử dụng chat phong phú, bao gồm hội thoại nhiều lượt, tóm tắt và hỗ trợ hội thoại.

GPT-5.3 Chat được khuyến nghị cho các nhà phát triển và ứng dụng tương tác cần những cải tiến hội thoại mới nhất mà không cần đến độ sâu suy luận chuyên biệt của các biến thể GPT-5.3 “Thinking” hoặc “Pro” trong tương lai (đang được phát triển).


🚀 Tính năng chính

  • Cửa sổ ngữ cảnh chat lớn: 128K token cho phép lưu giữ lịch sử hội thoại phong phú và theo dõi ngữ cảnh dài. :contentReference[oaicite:17]{index=17}
  • Chất lượng phản hồi được cải thiện: Luồng hội thoại được tinh chỉnh với ít cảnh báo không cần thiết hoặc từ chối quá mức thận trọng hơn. :contentReference[oaicite:18]{index=18}
  • Hỗ trợ API chính thức: Hỗ trợ đầy đủ các endpoint cho chat, xử lý hàng loạt, đầu ra có cấu trúc và quy trình thời gian thực.
  • Hỗ trợ đầu vào linh hoạt: Chấp nhận và hiểu theo ngữ cảnh đầu vào văn bản và hình ảnh, phù hợp cho các trường hợp sử dụng chat đa phương thức.
  • Gọi hàm & đầu ra có cấu trúc: Cho phép các mẫu ứng dụng có cấu trúc và tương tác qua API. :contentReference[oaicite:21]{index=21}
  • Khả năng tương thích hệ sinh thái rộng: Hoạt động với v1/chat/completions, v1/responses, Assistants và các giao diện OpenAI API hiện đại khác.

📈 Benchmark điển hình & hành vi

📈 Hiệu năng benchmark

OpenAI và các báo cáo độc lập cho thấy hiệu năng thực tế đã được cải thiện:

MetricGPT-5.3 Instant so với GPT-5.2 Instant
Tỷ lệ ảo giác khi có tìm kiếm web−26.8%
Tỷ lệ ảo giác khi không có tìm kiếm−19.7%
Lỗi thực tế bị người dùng gắn cờ (web)~−22.5%
Lỗi thực tế bị người dùng gắn cờ (nội bộ)~−9.6%

Đáng chú ý, việc GPT-5.3 tập trung vào chất lượng hội thoại trong thế giới thực có nghĩa là các cải thiện về điểm benchmark (như các chỉ số NLP tiêu chuẩn) ít được nhấn mạnh hơn trong lần phát hành này — các cải thiện thể hiện rõ nhất ở chỉ số trải nghiệm người dùng thay vì điểm kiểm tra thô.

Trong các so sánh trong ngành, các biến thể chat thuộc dòng GPT-5 được biết đến là vượt trội hơn các mô-đun GPT-4 trước đây về mức độ liên quan trong hội thoại thường nhật và khả năng theo dõi ngữ cảnh, mặc dù các tác vụ suy luận chuyên biệt vẫn có thể phù hợp hơn với các biến thể “Pro” chuyên dụng hoặc các endpoint tối ưu cho suy luận.


🤖 Trường hợp sử dụng

GPT-5.3 Chat rất phù hợp cho:

  • Bot hỗ trợ khách hàng và trợ lý hội thoại
  • Tác nhân hướng dẫn tương tác hoặc giáo dục
  • Tóm tắt và tìm kiếm hội thoại
  • Tác nhân tri thức nội bộ và trợ lý chat cho nhóm
  • Hỏi đáp đa phương thức (văn bản + hình ảnh)

Sự cân bằng giữa chất lượng hội thoại và tính linh hoạt của API khiến mô hình này trở nên lý tưởng cho các ứng dụng tương tác kết hợp đối thoại tự nhiên với đầu ra dữ liệu có cấu trúc.

🔍 Hạn chế

  • Không phải biến thể có suy luận sâu nhất: Đối với độ sâu phân tích ở mức trọng yếu, các mô hình GPT-5.3 Thinking hoặc Pro sắp ra mắt có thể phù hợp hơn.
  • Đầu ra đa phương thức còn hạn chế: Mặc dù hỗ trợ hình ảnh đầu vào, việc tạo hình ảnh/video hoàn chỉnh hoặc các quy trình đầu ra đa phương thức phong phú không phải là trọng tâm chính của biến thể này.
  • Không hỗ trợ fine-tuning: Bạn không thể fine-tune mô hình này, dù có thể điều hướng hành vi thông qua system prompt.

Cách truy cập API Gemini 3.1 flash lite

Bước 1: Đăng ký API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi đi.

cometapi-key

Bước 2: Gửi yêu cầu đến API Gemini 3.1 flash lite

Chọn endpoint “` gemini-3.1-flash-lite” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm tra Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Gemini Generating Content

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi . Xử lý phản hồi API để nhận câu trả lời được tạo ra.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để nhận câu trả lời được tạo ra. Sau khi xử lý, API sẽ phản hồi với trạng thái tác vụ và dữ liệu đầu ra.

Câu Hỏi Thường Gặp

What tasks is Gemini 3.1 Flash-Lite best suited for?

Gemini 3.1 Flash-Lite được tối ưu cho các quy trình khối lượng lớn, nhạy cảm với độ trễ như dịch, kiểm duyệt nội dung, phân loại, tạo UI/bảng điều khiển và các pipeline lời nhắc mô phỏng, nơi tốc độ và chi phí thấp được ưu tiên.

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite hỗ trợ cửa sổ ngữ cảnh lớn lên đến 1 triệu token cho đầu vào đa phương thức bao gồm văn bản, hình ảnh, âm thanh và video, với đầu ra lên đến 64 K token.

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

So với các mẫu Gemini 2.5 Flash, Gemini 3.1 Flash-Lite mang lại thời gian đến câu trả lời đầu tiên nhanh hơn ~2.5× và thông lượng đầu ra cao hơn ~45 %, đồng thời rẻ hơn đáng kể tính trên mỗi triệu token cho cả đầu vào và đầu ra. }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

Có — nó cung cấp nhiều mức suy luận hoặc “suy nghĩ” (ví dụ: tối thiểu, thấp, trung bình, cao) để nhà phát triển có thể đánh đổi tốc độ lấy khả năng suy luận sâu hơn cho các tác vụ phức tạp. :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

Trên các benchmark như GPQA Diamond (kiến thức khoa học) và MMMU Pro (hiểu biết đa phương thức), Gemini 3.1 Flash-Lite đạt điểm số cao so với các mẫu Flash-Lite trước đó, với GPQA ~86.9 % và MMMU ~76.8 % trong các đánh giá chính thức.

How can I access Gemini 3.1 Flash-Lite via API?

Bạn có thể sử dụng endpoint gemini-3.1-flash-lite-preview thông qua CometAPI để tích hợp cho doanh nghiệp.

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

Chọn Flash-Lite khi thông lượng, độ trễ và chi phí là ưu tiên cho các tác vụ khối lượng lớn; chọn Pro cho các tác vụ đòi hỏi độ sâu suy luận cao nhất, độ chính xác phân tích hoặc mức độ hiểu dành cho nhiệm vụ trọng yếu.

Tính năng cho Gemini 3.1 Flash-Lite

Khám phá các tính năng chính của Gemini 3.1 Flash-Lite, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Gemini 3.1 Flash-Lite

Khám phá mức giá cạnh tranh cho Gemini 3.1 Flash-Lite, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Gemini 3.1 Flash-Lite có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.2/M
Đầu ra:$1.2/M
Đầu vào:$0.25/M
Đầu ra:$1.5/M
-20%

Mã mẫu và API cho Gemini 3.1 Flash-Lite

Truy cập mã mẫu toàn diện và tài nguyên API cho Gemini 3.1 Flash-Lite để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Gemini 3.1 Flash-Lite trong các dự án của mình.
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Các phiên bản của Gemini 3.1 Flash-Lite

Lý do Gemini 3.1 Flash-Lite có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
ID mô hìnhMô tảKhả dụngYêu cầu
gemini-3-1-flashTự động trỏ đến mô hình mới nhất✅Gemini Generating Content
gemini-3-1-flash-previewBản xem trước chính thức✅Gemini Generating Content
gemini-3.1-flash-lite-preview-thinkingPhiên bản tư duy✅Gemini Generating Content
gemini-3.1-flash-lite-thinkingPhiên bản tư duy✅Gemini Generating Content

Thêm mô hình

C

Claude Opus 4.7

Đầu vào:$4/M
Đầu ra:$20/M
Mô hình thông minh nhất cho tác tử và lập trình
C

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
Q

Qwen3.6-Plus

Đầu vào:$0.32/M
Đầu ra:$1.92/M
Qwen 3.6-Plus hiện đã ra mắt, với khả năng phát triển mã được nâng cấp và hiệu suất nhận dạng, suy luận đa phương thức được cải thiện, giúp trải nghiệm Vibe Coding còn tốt hơn nữa.

Blog liên quan

Cách để có Gemini 3.1 Deep Think
Mar 13, 2026

Cách để có Gemini 3.1 Deep Think

Gemini 3.1 Deep Think là chế độ suy luận nâng cao do Google và Google DeepMind phát triển, cho phép các hệ thống AI thực hiện suy luận nhiều bước, phân tích khoa học và giải quyết vấn đề phức tạp. Hiện chế độ này chủ yếu khả dụng thông qua các gói đăng ký Google AI Ultra, ứng dụng Gemini và các công cụ dành cho nhà phát triển như Gemini API và AI Studio.
Google ra mắt Gemini 3.1 Flash-Lite — một LLM nhanh, chi phí thấp
Mar 5, 2026
gemini-3-1-flash-lite

Google ra mắt Gemini 3.1 Flash-Lite — một LLM nhanh, chi phí thấp

Google đã giới thiệu Gemini 3.1 Flash-Lite, thành viên mới nhất của dòng Gemini 3, được thiết kế chuyên biệt như một nền tảng có thông lượng cao, độ trễ thấp và hiệu quả chi phí cho các khối lượng công việc của nhà phát triển và doanh nghiệp. Google định vị Flash-Lite là mô hình “nhanh nhất và hiệu quả chi phí nhất” trong dòng Gemini 3: một biến thể gọn nhẹ nhằm mang lại các tương tác phát trực tuyến, xử lý nền quy mô lớn và các tác vụ sản xuất có tần suất cao (ví dụ, dịch, trích xuất, tạo giao diện người dùng (UI) và phân loại khối lượng lớn) với mức giá thấp hơn nhiều so với các phiên bản Pro cùng dòng.