ModelHargaPerusahaan
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Perusahaan
Tentang kamiPerusahaan
Sumber Daya
Model AIBlogCatatan PerubahanDukungan
Syarat dan Ketentuan LayananKebijakan Privasi
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

Masukan:$0.2/M
Keluaran:$1.2/M
Gemini 3.1 Flash-Lite adalah model Tier-3 yang sangat efisien dari sisi biaya dan berlatensi rendah dalam seri Gemini 3 dari Google, dirancang untuk alur kerja AI produksi berskala besar di mana throughput dan kecepatan lebih penting daripada kedalaman penalaran maksimum. Model ini menggabungkan jendela konteks multimodal yang besar dengan kinerja inferensi yang efisien, dengan biaya lebih rendah dibandingkan kebanyakan model andalan.
Baru
Penggunaan komersial
Playground
Ikhtisar
Fitur
Harga
API
Versi

📊 Spesifikasi Teknis

SpecificationDetails
Keluarga modelGemini 3 (Flash-Lite)
Jendela konteksHingga 1 juta token (teks, gambar, audio, video multimodal)
Batas token outputHingga 64 K token
Jenis inputTeks, gambar, audio, video
Dasar arsitektur intiBerdasarkan Gemini 3 Pro
Saluran deploymentGemini API (Google AI Studio), Vertex AI
Harga (pratinjau)~$0.25 per 1 juta token input, ~$1.50 per 1 juta token output
Kontrol penalaran“Tingkat berpikir” yang dapat disesuaikan (mis. minimal hingga tinggi)

🔍 Apa Itu Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite adalah varian footprint yang hemat biaya dari seri Gemini 3 milik Google, yang dioptimalkan untuk beban kerja AI berskala besar—terutama ketika latensi yang lebih rendah, biaya per token yang lebih murah, dan throughput yang tinggi menjadi prioritas. Model ini mempertahankan tulang punggung penalaran multimodal inti dari Gemini 3 Pro sambil menargetkan kasus penggunaan pemrosesan massal seperti terjemahan, klasifikasi, moderasi konten, pembuatan UI, dan sintesis data terstruktur.

✨ Fitur Utama

  1. Jendela Konteks Ultra-Besar: Menangani hingga 1 juta token input multimodal, memungkinkan penalaran dokumen panjang dan pemrosesan konteks video/audio.
  2. Eksekusi Hemat Biaya: Biaya per token jauh lebih rendah dibandingkan model Flash-Lite sebelumnya dan pesaing, sehingga memungkinkan penggunaan volume tinggi.
  3. Throughput Tinggi & Latensi Rendah: Waktu ke token pertama ~2.5× lebih cepat dan throughput output ~45 % lebih cepat dibandingkan Gemini 2.5 Flash.
  4. Kontrol Penalaran Dinamis: “Tingkat berpikir” memungkinkan developer menyesuaikan performa vs penalaran yang lebih mendalam pada setiap permintaan.
  5. Dukungan Multimodal: Pemrosesan native untuk gambar, audio, video, dan teks dalam ruang konteks terpadu.
  6. Akses API Fleksibel: Tersedia melalui Gemini API di Google AI Studio dan alur kerja enterprise Vertex AI.

📈 Kinerja Benchmark

Metrik berikut menunjukkan efisiensi dan kapabilitas Gemini 3.1 Flash-Lite dibandingkan varian Flash/Lite sebelumnya dan model lain (dilaporkan Maret 2026):

BenchmarkGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (pengetahuan ilmiah)86.9 %66.7 %82.3 %
MMMU-Pro (penalaran multimodal)76.8 %51.0 %74.1 %
CharXiv (penalaran grafik kompleks)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (penalaran kode)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Tidak didukung

Skor ini menunjukkan bahwa Flash-Lite mempertahankan penalaran yang kompetitif dan pemahaman multimodal bahkan dengan desain yang berorientasi pada efisiensi, serta sering mengungguli varian Flash lama di berbagai benchmark utama.

⚖️ Perbandingan dengan Model Terkait

FeatureGemini 3.1 Flash-LiteGemini 3.1 Pro
Biaya per tokenLebih rendah (tier entry)Lebih tinggi (premium)
Latensi / throughputDioptimalkan untuk kecepatanSeimbang dengan kedalaman
Kedalaman penalaranDapat disesuaikan, tetapi lebih dangkalPenalaran mendalam lebih kuat
Fokus kasus penggunaanPipeline massal, moderasi, terjemahanTugas penalaran mission-critical
Jendela konteks1 juta token1 juta token (sama)

Flash-Lite dirancang untuk skala dan biaya; Pro ditujukan untuk penalaran mendalam dengan presisi tinggi.

🧠 Kasus Penggunaan Enterprise

  • Terjemahan & Moderasi Volume Tinggi: Pipeline bahasa dan konten real-time dengan latensi rendah.
  • Ekstraksi & Klasifikasi Data Massal: Pemrosesan korpus besar dengan ekonomi token yang efisien.
  • Pembuatan UI/UX: JSON terstruktur, template dashboard, dan scaffolding front-end.
  • Simulation Prompting: Pelacakan status logis di sepanjang interaksi yang diperpanjang.
  • Aplikasi Multimodal: Penalaran berbasis video, audio, dan gambar dalam konteks terpadu.

🧪 Keterbatasan

  • Kedalaman penalaran dan presisi analitis mungkin tertinggal dibandingkan Gemini 3.1 Pro dalam tugas kompleks yang mission-critical. :
  • Hasil benchmark seperti fusi konteks panjang menunjukkan masih ada ruang peningkatan dibandingkan model flagship.
  • Kontrol penalaran dinamis menukar kecepatan dengan ketelitian; tidak semua level menjamin kualitas output yang sama.

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — Ikhtisar

GPT-5.3 Chat adalah model chat produksi terbaru dari OpenAI, yang ditawarkan sebagai endpoint gpt-5.3-chat-latest dalam API resmi dan mendukung pengalaman percakapan harian ChatGPT. Model ini berfokus pada peningkatan kualitas interaksi sehari-hari—membuat respons lebih mulus, lebih akurat, dan lebih sesuai konteks—sambil mempertahankan kapabilitas teknis kuat yang diwarisi dari keluarga GPT-5 yang lebih luas. :contentReference[oaicite:1]{index=1}


📊 Spesifikasi Teknis

SpecificationDetails
Nama/alias modelGPT-5.3 Chat / gpt-5.3-chat-latest
PenyediaOpenAI
Jendela konteks128.000 token
Maks token output per request16.384 token
Knowledge cutoff31 Agustus 2025
Modalitas inputInput teks dan gambar (hanya vision)
Modalitas outputTeks
Function callingDidukung
Structured outputsDidukung
Streaming responsesDidukung
Fine-tuningTidak didukung
Distillation / embeddingsDistillation tidak didukung; embeddings didukung
Endpoint penggunaan umumChat completions, Responses, Assistants, Batch, Realtime
Function calling & toolsFunction calling diaktifkan; mendukung web & file search via Responses API

🧠 Apa yang Membuat GPT-5.3 Chat Unik

GPT-5.3 Chat merepresentasikan penyempurnaan inkremental dari kapabilitas yang berorientasi chat dalam lini GPT-5. Tujuan inti varian ini adalah menyediakan respons percakapan yang lebih alami, koheren secara kontekstual, dan ramah pengguna dibandingkan model sebelumnya seperti GPT-5.2 Instant. Peningkatan difokuskan pada:

  • Nada yang dinamis dan alami dengan lebih sedikit disclaimer yang tidak membantu dan jawaban yang lebih langsung.
  • Pemahaman konteks dan relevansi yang lebih baik dalam skenario chat umum.
  • Integrasi yang lebih mulus dengan kasus penggunaan chat kaya fitur termasuk dialog multi-turn, peringkasan, dan bantuan percakapan.

GPT-5.3 Chat direkomendasikan untuk developer dan aplikasi interaktif yang membutuhkan peningkatan percakapan terbaru tanpa kedalaman penalaran khusus dari varian GPT-5.3 “Thinking” atau “Pro” di masa depan (yang akan datang).


🚀 Fitur Utama

  • Jendela Konteks Chat Besar: 128K token memungkinkan riwayat percakapan yang kaya dan pelacakan konteks panjang. :contentReference[oaicite:17]{index=17}
  • Kualitas Respons yang Ditingkatkan: Alur percakapan yang disempurnakan dengan lebih sedikit caveat yang tidak perlu atau penolakan yang terlalu berhati-hati. :contentReference[oaicite:18]{index=18}
  • Dukungan API Resmi: Endpoint yang sepenuhnya didukung untuk chat, pemrosesan batch, output terstruktur, dan alur kerja real-time.
  • Dukungan Input Serbaguna: Menerima dan mengontekstualisasikan input teks dan gambar, cocok untuk kasus penggunaan chat multimodal.
  • Function Calling & Output Terstruktur: Memungkinkan pola aplikasi yang terstruktur dan interaktif melalui API. :contentReference[oaicite:21]{index=21}
  • Kompatibilitas Ekosistem yang Luas: Bekerja dengan v1/chat/completions, v1/responses, Assistants, dan antarmuka OpenAI API modern lainnya.

📈 Benchmark & Perilaku Umum

📈 Kinerja Benchmark

OpenAI dan laporan independen menunjukkan peningkatan kinerja dunia nyata:

MetricGPT-5.3 Instant vs GPT-5.2 Instant
Tingkat halusinasi dengan web search−26.8%
Tingkat halusinasi tanpa search−19.7%
Kesalahan faktual yang ditandai pengguna (web)~−22.5%
Kesalahan faktual yang ditandai pengguna (internal)~−9.6%

Yang patut dicatat, fokus GPT-5.3 pada kualitas percakapan dunia nyata berarti peningkatan skor benchmark (seperti metrik NLP terstandarisasi) bukanlah sorotan utama rilis — peningkatan paling jelas terlihat dalam metrik pengalaman pengguna, bukan skor pengujian mentah.

Dalam perbandingan industri, varian chat keluarga GPT-5 dikenal mengungguli modul GPT-4 sebelumnya dalam relevansi chat sehari-hari dan pelacakan konteks, meskipun tugas penalaran khusus mungkin masih lebih cocok untuk varian “Pro” khusus atau endpoint yang dioptimalkan untuk penalaran.


🤖 Kasus Penggunaan

GPT-5.3 Chat sangat cocok untuk:

  • Bot dukungan pelanggan dan asisten percakapan
  • Agen tutorial interaktif atau edukasi
  • Peringkasan dan pencarian percakapan
  • Agen pengetahuan internal dan asisten chat tim
  • Tanya jawab multimodal (teks + gambar)

Keseimbangan antara kualitas percakapan dan fleksibilitas API membuatnya ideal untuk aplikasi interaktif yang menggabungkan dialog alami dengan output data terstruktur.

🔍 Keterbatasan

  • Bukan varian dengan penalaran terdalam: Untuk kedalaman analitis yang mission-critical dan berisiko tinggi, model GPT-5.3 Thinking atau Pro yang akan datang mungkin lebih sesuai.
  • Output multimodal terbatas: Meskipun input gambar didukung, pembuatan gambar/video penuh atau alur kerja output multimodal yang kaya bukan fokus utama varian ini.
  • Fine-tuning tidak didukung: Anda tidak dapat melakukan fine-tuning pada model ini, meskipun Anda dapat mengarahkan perilakunya melalui system prompt.

Cara mengakses API Gemini 3.1 flash lite

Langkah 1: Daftar untuk API Key

Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke konsol CometAPI Anda. Dapatkan kredensial akses API key dari antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu submit.

cometapi-key

Langkah 2: Kirim Permintaan ke API Gemini 3.1 flash lite

Pilih endpoint “` gemini-3.1-flash-lite” untuk mengirim permintaan API dan atur request body. Metode request dan request body diperoleh dari dokumentasi API di website kami. Website kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan CometAPI key aktual dari akun Anda. base url adalah Gemini Generating Content

Masukkan pertanyaan atau permintaan Anda ke dalam field content—ini adalah hal yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Langkah 3: Ambil dan Verifikasi Hasil

Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data output.

FAQ

What tasks is Gemini 3.1 Flash-Lite best suited for?

Gemini 3.1 Flash-Lite dioptimalkan untuk alur kerja ber-volume tinggi dan sensitif terhadap latensi seperti penerjemahan, moderasi konten, klasifikasi, pembuatan UI/dashboard, dan pipeline prompt simulasi, di mana kecepatan dan biaya rendah menjadi prioritas.

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite mendukung jendela konteks besar hingga 1 million tokens untuk masukan multimodal termasuk teks, gambar, audio, dan video, dengan keluaran hingga 64 K tokens.

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

Dibandingkan dengan model Gemini 2.5 Flash, Gemini 3.1 Flash-Lite memberikan waktu ke jawaban pertama ~2.5× lebih cepat dan throughput keluaran ~45 % lebih tinggi, sekaligus secara signifikan lebih murah per satu juta token untuk masukan dan keluaran. }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

Ya — model ini menawarkan beberapa tingkat penalaran atau “thinking” (misalnya, minimal, rendah, sedang, tinggi) sehingga pengembang dapat menukar kecepatan dengan penalaran yang lebih mendalam pada tugas yang kompleks. :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

Pada tolok ukur seperti GPQA Diamond (pengetahuan ilmiah) dan MMMU Pro (pemahaman multimodal), Gemini 3.1 Flash-Lite mencapai skor tinggi relatif terhadap model Flash-Lite sebelumnya, dengan GPQA ~86.9 % dan MMMU ~76.8 % dalam evaluasi resmi.

How can I access Gemini 3.1 Flash-Lite via API?

Anda dapat menggunakan endpoint gemini-3.1-flash-lite-preview melalui CometAPI untuk integrasi enterprise.

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

Pilih Flash-Lite ketika throughput, latensi, dan biaya menjadi prioritas untuk tugas ber-volume besar; pilih Pro untuk tugas yang memerlukan kedalaman penalaran tertinggi, akurasi analitis, atau pemahaman yang kritis bagi misi.

Fitur untuk Gemini 3.1 Flash-Lite

Jelajahi fitur-fitur utama dari Gemini 3.1 Flash-Lite, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk Gemini 3.1 Flash-Lite

Jelajahi harga kompetitif untuk Gemini 3.1 Flash-Lite, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana Gemini 3.1 Flash-Lite dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.
Harga Comet (USD / M Tokens)Harga Resmi (USD / M Tokens)Diskon
Masukan:$0.2/M
Keluaran:$1.2/M
Masukan:$0.25/M
Keluaran:$1.5/M
-20%

Kode contoh dan API untuk Gemini 3.1 Flash-Lite

Akses kode sampel komprehensif dan sumber daya API untuk Gemini 3.1 Flash-Lite guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh Gemini 3.1 Flash-Lite dalam proyek Anda.
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Versi Gemini 3.1 Flash-Lite

Alasan Gemini 3.1 Flash-Lite memiliki beberapa _snapshot_ mungkin mencakup faktor-faktor potensial seperti variasi keluaran setelah pembaruan yang memerlukan _snapshot_ lama untuk konsistensi, memberikan masa transisi bagi pengembang untuk beradaptasi dan bermigrasi, serta _snapshot_ berbeda yang sesuai dengan _endpoint_ global atau regional untuk mengoptimalkan pengalaman pengguna. Untuk perbedaan detail antar versi, silakan merujuk ke dokumentasi resmi.
Model idDeskripsiKetersediaanPermintaan
gemini-3-1-flashSecara otomatis mengarah ke model terbaru✅Gemini Generating Content
gemini-3-1-flash-previewPratinjau Resmi✅Gemini Generating Content
gemini-3.1-flash-lite-preview-thinkingversi thinking✅Gemini Generating Content
gemini-3.1-flash-lite-thinkingversi thinking✅Gemini Generating Content

Model Lainnya

C

Claude Opus 4.7

Masukan:$4/M
Keluaran:$20/M
Model paling cerdas untuk agen dan pemrograman
C

Claude Opus 4.6

Masukan:$4/M
Keluaran:$20/M
Claude Opus 4.6 adalah model bahasa besar kelas “Opus” dari Anthropic, dirilis pada Februari 2026. Model ini diposisikan sebagai andalan untuk pekerjaan berbasis pengetahuan dan alur kerja riset — meningkatkan penalaran dalam konteks panjang, perencanaan multi-langkah, penggunaan alat (termasuk alur kerja perangkat lunak berbasis agen), serta tugas penggunaan komputer seperti pembuatan slide dan spreadsheet secara otomatis.
A

Claude Sonnet 4.6

Masukan:$2.4/M
Keluaran:$12/M
Claude Sonnet 4.6 adalah model Sonnet kami yang paling mumpuni sejauh ini. Ini merupakan peningkatan menyeluruh atas keahlian model di bidang pemrograman, penggunaan komputer, penalaran konteks panjang, perencanaan agen, pekerjaan berbasis pengetahuan, dan desain. Sonnet 4.6 juga menyertakan jendela konteks 1M token dalam tahap beta.
O

GPT-5.4 nano

Masukan:$0.16/M
Keluaran:$1/M
GPT-5.4 nano dirancang untuk tugas-tugas di mana kecepatan dan biaya paling penting, seperti klasifikasi, ekstraksi data, pemeringkatan, dan sub-agen.
O

GPT-5.4 mini

Masukan:$0.6/M
Keluaran:$3.6/M
GPT-5.4 mini menghadirkan keunggulan GPT-5.4 ke model yang lebih cepat dan lebih efisien, dirancang untuk beban kerja bervolume tinggi.
Q

Qwen3.6-Plus

Masukan:$0.32/M
Keluaran:$1.92/M
Qwen 3.6-Plus kini tersedia, menghadirkan kemampuan pengembangan kode yang ditingkatkan serta efisiensi yang lebih tinggi dalam pengenalan dan inferensi multimodal, menjadikan pengalaman Vibe Coding semakin baik.

Blog Terkait

Cara Mendapatkan Gemini 3.1 Deep Think
Mar 13, 2026

Cara Mendapatkan Gemini 3.1 Deep Think

Gemini 3.1 Deep Think adalah mode penalaran tingkat lanjut yang dikembangkan oleh Google dan Google DeepMind yang memungkinkan sistem AI melakukan penalaran multi-langkah, analisis ilmiah, dan pemecahan masalah yang kompleks. Saat ini, mode ini tersedia terutama melalui langganan Google AI Ultra, aplikasi Gemini, dan alat pengembang seperti Gemini API dan AI Studio.
Google memperkenalkan Gemini 3.1 Flash-Lite — sebuah LLM yang cepat dan berbiaya rendah
Mar 5, 2026
gemini-3-1-flash-lite

Google memperkenalkan Gemini 3.1 Flash-Lite — sebuah LLM yang cepat dan berbiaya rendah

Google memperkenalkan Gemini 3.1 Flash-Lite, anggota terbaru dari keluarga Gemini 3 yang dirancang khusus sebagai mesin dengan throughput tinggi, latensi rendah, dan hemat biaya untuk beban kerja pengembang dan perusahaan. Google memposisikan Flash-Lite sebagai model "paling cepat dan paling hemat biaya" dalam lini Gemini 3: varian ringan yang bertujuan menghadirkan interaksi streaming, pemrosesan latar belakang skala besar, dan tugas produksi berfrekuensi tinggi (misalnya, penerjemahan, ekstraksi, pembuatan UI, dan klasifikasi dalam volume besar) dengan harga jauh lebih rendah dibandingkan model Pro-nya.