ModellePreiseUnternehmen
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Unternehmen
Über unsUnternehmen
Ressourcen
KI-ModelleBlogÄnderungsprotokollSupport
NutzungsbedingungenDatenschutzrichtlinie
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

Eingabe:$0.2/M
Ausgabe:$1.2/M
Gemini 3.1 Flash-Lite ist ein äußerst kosteneffizientes und latenzarmes Stufe-3-Modell in Googles Gemini-3-Serie, das für hochvolumige KI-Workflows im Produktivbetrieb entwickelt wurde, bei denen Durchsatz und Geschwindigkeit wichtiger sind als maximale Reasoning-Tiefe. Es kombiniert ein großes multimodales Kontextfenster mit effizienter Inferenzleistung bei geringeren Kosten als die meisten Flaggschiffmodelle.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API
Versionen

📊 Technische Spezifikationen

SpezifikationDetails
ModellfamilieGemini 3 (Flash-Lite)
KontextfensterBis zu 1 Million Tokens (multimodaler Text, Bilder, Audio, Video)
Ausgabe-Token-LimitBis zu 64 K Tokens
EingabetypenText, Bilder, Audio, Video
Basis der KernarchitekturBasiert auf Gemini 3 Pro
BereitstellungskanäleGemini API (Google AI Studio), Vertex AI
Preisgestaltung (Vorschau)~$0.25 pro 1M Eingabe-Tokens, ~$1.50 pro 1M Ausgabe-Tokens
Steuerung der DenkprozesseAnpassbare “Denkstufen” (z. B. minimal bis hoch)

🔍 Was ist Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite ist die kosteneffiziente Footprint-Variante der Gemini-3-Serie von Google, optimiert für massive KI-Workloads im großen Maßstab – insbesondere dort, wo geringere Latenz, niedrigere Kosten pro Token und hoher Durchsatz Priorität haben. Es bewahrt das multimodale Reasoning-Rückgrat von Gemini 3 Pro und zielt auf Massenverarbeitungsanwendungen wie Übersetzung, Klassifikation, Inhaltsmoderation, UI-Generierung und strukturierte Datensynthese ab.

✨ Hauptmerkmale

  1. Ultragroßes Kontextfenster: Verarbeitet bis zu 1 M Tokens an multimodalen Eingaben und ermöglicht Langdokument-Reasoning sowie Video-/Audio-Kontextverarbeitung.
  2. Kosteneffiziente Ausführung: Deutlich niedrigere Kosten pro Token im Vergleich zu früheren Flash-Lite-Modellen und Wettbewerbern, wodurch ein hohes Volumen wirtschaftlich wird.
  3. Hoher Durchsatz & niedrige Latenz: ~2.5× schnellere Time-to-First-Token und ~45 % schnellerer Ausgabedurchsatz gegenüber Gemini 2.5 Flash.
  4. Dynamische Steuerung der Denkprozesse: “Denkstufen” ermöglichen es Entwicklerinnen und Entwicklern, die Balance zwischen Leistung und tieferem Reasoning pro Anfrage feinzujustieren.
  5. Multimodale Unterstützung: Native Verarbeitung von Bildern, Audio, Video und Text in einem einheitlichen Kontextraum.
  6. Flexibler API-Zugriff: Verfügbar über die Gemini API in Google AI Studio sowie in Enterprise-Workflows auf Vertex AI.

📈 Benchmark-Leistung

Die folgenden Kennzahlen zeigen die Effizienz und Leistungsfähigkeit von Gemini 3.1 Flash-Lite im Vergleich zu früheren Flash-/Lite-Varianten und anderen Modellen (Stand März 2026):

BenchmarkGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (wissenschaftliches Wissen)86.9 %66.7 %82.3 %
MMMU-Pro (multimodales Reasoning)76.8 %51.0 %74.1 %
CharXiv (komplexes Diagrammverständnis)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (Code-Reasoning)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Not supported

Diese Ergebnisse zeigen, dass Flash-Lite trotz seines auf Effizienz ausgerichteten Designs ein konkurrenzfähiges Reasoning und multimodales Verständnis beibehält und ältere Flash-Varianten in wichtigen Benchmarks häufig übertrifft.

⚖️ Vergleich mit verwandten Modellen

MerkmalGemini 3.1 Flash-LiteGemini 3.1 Pro
Kosten pro TokenNiedriger (Einstiegsklasse)Höher (Premium)
Latenz / DurchsatzFür Geschwindigkeit optimiertAusgewogen mit Tiefe
DenktiefeAnpassbar, aber flacherStärkeres tiefes Reasoning
Fokus der AnwendungsfälleBatch-Pipelines, Moderation, ÜbersetzungMissionskritische Reasoning-Aufgaben
Kontextfenster1 M Tokens1 M Tokens (gleich)

Flash-Lite ist auf Skalierung und Kosten zugeschnitten; Pro ist für hochpräzises, tiefes Reasoning.

🧠 Einsatzszenarien im Unternehmen

  • Hochvolumige Übersetzung & Moderation: Echtzeit-Sprach- und Inhalts-Pipelines mit niedriger Latenz.
  • Massenhafte Datenextraktion & -klassifikation: Verarbeitung großer Korpora mit effizienter Token-Ökonomie.
  • UI/UX-Generierung: Strukturierte JSONs, Dashboard-Vorlagen und Frontend-Grundgerüste.
  • Simulation Prompting: Logische Zustandsverfolgung über längere Interaktionen hinweg.
  • Multimodale Anwendungen: Video-, Audio- und Bildgestütztes Reasoning in einheitlichen Kontexten.

🧪 Einschränkungen

  • Die Denktiefe und analytische Präzision können bei komplexen, missionskritischen Aufgaben hinter Gemini 3.1 Pro zurückbleiben. :
  • Benchmark-Ergebnisse wie Long-Context-Fusion zeigen Verbesserungspotenzial im Vergleich zu Flaggschiffmodellen.
  • Dynamische Denkstufen tauschen Geschwindigkeit gegen Gründlichkeit; nicht alle Stufen garantieren die gleiche Ausgabequalität.

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — Überblick

GPT-5.3 Chat ist das neueste produktive Chat-Modell von OpenAI, verfügbar über den gpt-5.3-chat-latest-Endpunkt in der offiziellen API und treibend für die alltägliche ChatGPT-Konversationserfahrung. Der Schwerpunkt liegt auf der Verbesserung der Qualität alltäglicher Interaktionen – Antworten werden natürlicher, präziser und besser kontextualisiert – bei gleichzeitiger Beibehaltung starker technischer Fähigkeiten aus der breiteren GPT-5-Familie. :contentReference[oaicite:1]{index=1}


📊 Technische Spezifikationen

SpezifikationDetails
Modellname/AliasGPT-5.3 Chat / gpt-5.3-chat-latest
AnbieterOpenAI
Kontextfenster128,000 Tokens
Maximale Ausgabetokens pro Anfrage16,384 Tokens
Wissensstand bis31. August 2025
EingabemodalitätenText- und Bildeingaben (nur Vision)
AusgabemodalitätenText
FunktionsaufrufeUnterstützt
Strukturierte AusgabenUnterstützt
Streaming-AntwortenUnterstützt
Fine-TuningNicht unterstützt
Destillation / EmbeddingsDestillation nicht unterstützt; Embeddings unterstützt
Typische EndpunkteChat completions, Responses, Assistants, Batch, Realtime
Funktionsaufrufe & ToolsFunktionsaufrufe aktiviert; unterstützt Web- & Dateisuche über die Responses API

🧠 Was GPT-5.3 Chat einzigartig macht

GPT-5.3 Chat stellt eine inkrementelle Verfeinerung der chatorientierten Fähigkeiten innerhalb der GPT-5-Linie dar. Das Hauptziel dieser Variante ist es, im Vergleich zu früheren Modellen wie GPT-5.2 Instant noch natürlichere, kontextuell stimmigere und benutzerfreundlichere Konversationsantworten zu liefern. Die Verbesserungen sind ausgerichtet auf:

  • Dynamischer, natürlicher Ton mit weniger unhilfreichen Vorbehalten und direkteren Antworten.
  • Besseres Kontextverständnis und höhere Relevanz in gängigen Chatszenarien.
  • Reibungslosere Integration in reichhaltige Chat-Use-Cases, einschließlich Mehrfachdialog, Zusammenfassung und konversationelle Assistenz.

GPT-5.3 Chat wird für Entwickler und interaktive Anwendungen empfohlen, die die neuesten Verbesserungen im Konversationsverhalten benötigen, ohne die spezialisierte Reasoning-Tiefe zukünftiger „Thinking“- oder „Pro“-Varianten von GPT-5.3 (in Vorbereitung).


🚀 Wichtige Merkmale

  • Großes Chat-Kontextfenster: 128K Tokens ermöglichen umfangreiche Gesprächshistorien und langes Kontext-Tracking. :contentReference[oaicite:17]{index=17}
  • Verbesserte Antwortqualität: Verfeinerter Gesprächsfluss mit weniger unnötigen Einschränkungen oder übervorsichtigen Ablehnungen. :contentReference[oaicite:18]{index=18}
  • Offizielle API-Unterstützung: Voll unterstützte Endpunkte für Chat, Batch-Verarbeitung, strukturierte Ausgaben und Echtzeit-Workflows.
  • Vielseitige Eingabeunterstützung: Akzeptiert und kontextualisiert Text- und Bildeingaben, geeignet für multimodale Chat-Use-Cases.
  • Funktionsaufrufe & strukturierte Ausgaben: Ermöglicht strukturierte und interaktive Applikationsmuster über die API. :contentReference[oaicite:21]{index=21}
  • Breite Ökosystem-Kompatibilität: Funktioniert mit v1/chat/completions, v1/responses, Assistants und anderen modernen OpenAI-API-Schnittstellen.

📈 Typische Benchmarks & Verhalten

📈 Benchmark-Leistung

Berichte von OpenAI und unabhängigen Quellen zeigen verbesserte Leistung in realen Szenarien:

MetrikGPT-5.3 Instant vs GPT-5.2 Instant
Halluzinationsrate mit Websuche−26.8%
Halluzinationsrate ohne Suche−19.7%
Nutzer-markierte Faktenfehler (Web)~−22.5%
Nutzer-markierte Faktenfehler (intern)~−9.6%

Bemerkenswert ist, dass sich der Fokus von GPT-5.3 auf die reale konversationelle Qualität richtet – Verbesserungen bei Benchmark-Scores (wie standardisierte NLP-Metriken) stehen weniger im Vordergrund der Veröffentlichung; die Vorteile zeigen sich am deutlichsten in Nutzererfahrungsmetriken statt in reinen Testergebnissen.

Im Branchenvergleich sind Chat-Varianten der GPT-5-Familie dafür bekannt, frühere GPT-4-Module in puncto Alltagsrelevanz und Kontextverfolgung zu übertreffen, während spezialisierte Reasoning-Aufgaben weiterhin von dedizierten „Pro“-Varianten oder Reasoning-optimierten Endpunkten profitieren können.


🤖 Anwendungsfälle

GPT-5.3 Chat eignet sich besonders für:

  • Kundenservice-Bots und konversationelle Assistenten
  • Interaktive Tutor- oder Bildungsagenten
  • Zusammenfassung und konversationelle Suche
  • Interne Wissensagenten und Team-Chat-Helfer
  • Multimodales Q&A (Text + Bilder)

Seine Balance aus konversationaler Qualität und API-Vielseitigkeit macht es ideal für interaktive Anwendungen, die natürliche Dialoge mit strukturierten Datenausgaben kombinieren.

🔍 Einschränkungen

  • Nicht die Variante mit der tiefsten Denkleistung: Für missionskritische, hochkomplexe Analysen sind die kommenden GPT-5.3 Thinking- oder Pro-Modelle möglicherweise besser geeignet.
  • Multimodale Ausgaben begrenzt: Während Bildeingaben unterstützt werden, stehen umfassende Bild-/Video-Generierung oder reichhaltige multimodale Ausgabe-Workflows nicht im Vordergrund dieser Variante.
  • Fine-Tuning wird nicht unterstützt: Das Modell kann nicht feinabgestimmt werden, das Verhalten lässt sich jedoch über Systemprompts steuern.

How to access Gemini 3.1 flash lite API

Step 1: Sign Up for API Key

Log in to cometapi.com. If you are not our user yet, please register first. Sign into your CometAPI console. Get the access credential API key of the interface. Click “Add Token” at the API token in the personal center, get the token key: sk-xxxxx and submit.

cometapi-key

Step 2: Send Requests to Gemini 3.1 flash lite API

Select the “` gemini-3.1-flash-lite” endpoint to send the API request and set the request body. The request method and request body are obtained from our website API doc. Our website also provides Apifox test for your convenience. Replace <YOUR_API_KEY> with your actual CometAPI key from your account. base url is Gemini Generating Content

Insert your question or request into the content field—this is what the model will respond to . Process the API response to get the generated answer.

Step 3: Retrieve and Verify Results

Process the API response to get the generated answer. After processing, the API responds with the task status and output data.

FAQ

Für welche Aufgaben ist Gemini 3.1 Flash-Lite am besten geeignet?

Gemini 3.1 Flash-Lite ist für Workflows mit hohem Volumen und geringer Latenz optimiert, wie Übersetzung, Inhaltsmoderation, Klassifizierung, UI-/Dashboard-Generierung und Simulations-Prompt-Pipelines, bei denen Geschwindigkeit und niedrige Kosten Priorität haben.

Wie groß ist das Kontextfenster und welche Ausgabefähigkeit hat Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite unterstützt ein großes Kontextfenster von bis zu 1 Million Tokens für multimodale Eingaben einschließlich Text, Bildern, Audio und Video sowie bis zu 64 K Tokens Ausgabe.

Wie schneidet Gemini 3.1 Flash-Lite im Vergleich zu Gemini 2.5 Flash bei Leistung und Kosten ab?

Im Vergleich zu den Gemini-2.5-Flash-Modellen liefert Gemini 3.1 Flash-Lite eine ~2,5× schnellere Zeit bis zur ersten Antwort und einen um ~45 % höheren Ausgabedurchsatz, während es pro Million Tokens sowohl für Eingabe als auch Ausgabe deutlich günstiger ist. }

Unterstützt Gemini 3.1 Flash-Lite eine anpassbare Reasoning-Tiefe?

Ja — es bietet mehrere Reasoning- oder „Thinking“-Stufen (z. B. minimal, niedrig, mittel, hoch), sodass Entwickler Geschwindigkeit gegen tieferes Reasoning bei komplexen Aufgaben abwägen können. :contentReference[oaicite:3]{index=3}

Was sind typische Benchmark-Stärken von Gemini 3.1 Flash-Lite?

In Benchmarks wie GPQA Diamond (wissenschaftliches Wissen) und MMMU Pro (multimodales Verständnis) erzielt Gemini 3.1 Flash-Lite im Vergleich zu früheren Flash-Lite-Modellen starke Ergebnisse, mit GPQA ~86,9 % und MMMU ~76,8 % in offiziellen Bewertungen.

Wie kann ich über eine API auf Gemini 3.1 Flash-Lite zugreifen?

Sie können den Endpunkt gemini-3.1-flash-lite-preview über die CometAPI für die Unternehmensintegration verwenden.

Wann sollte ich Gemini 3.1 Flash-Lite statt Gemini 3.1 Pro wählen?

Wählen Sie Flash-Lite, wenn Durchsatz, Latenz und Kosten bei Aufgaben mit großem Volumen Priorität haben; wählen Sie Pro für Aufgaben, die die höchste Reasoning-Tiefe, analytische Genauigkeit oder missionskritisches Verständnis erfordern.

Funktionen für Gemini 3.1 Flash-Lite

Entdecken Sie die wichtigsten Funktionen von Gemini 3.1 Flash-Lite, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für Gemini 3.1 Flash-Lite

Entdecken Sie wettbewerbsfähige Preise für Gemini 3.1 Flash-Lite, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Gemini 3.1 Flash-Lite Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$0.2/M
Ausgabe:$1.2/M
Eingabe:$0.25/M
Ausgabe:$1.5/M
-20%

Beispielcode und API für Gemini 3.1 Flash-Lite

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für Gemini 3.1 Flash-Lite zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von Gemini 3.1 Flash-Lite in Ihren Projekten zu nutzen.
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Versionen von Gemini 3.1 Flash-Lite

Der Grund, warum Gemini 3.1 Flash-Lite mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.
Modell-IDBeschreibungVerfügbarkeitAnfrage
gemini-3-1-flashVerweist automatisch auf das neueste Modell✅Gemini: Inhalte generieren
gemini-3-1-flash-previewOffizielle Vorschau✅Gemini: Inhalte generieren
gemini-3.1-flash-lite-preview-thinkingThinking-Version✅Gemini: Inhalte generieren
gemini-3.1-flash-lite-thinkingThinking-Version✅Gemini: Inhalte generieren

Weitere Modelle

C

Claude Opus 4.7

Eingabe:$4/M
Ausgabe:$20/M
Das intelligenteste Modell für Agenten und Programmierung
C

Claude Opus 4.6

Eingabe:$4/M
Ausgabe:$20/M
Claude Opus 4.6 ist das Großsprachmodell der „Opus“-Klasse von Anthropic, veröffentlicht im Februar 2026. Es ist als Arbeitstier für Wissensarbeit und Forschungs-Workflows positioniert — mit Verbesserungen beim langkontextuellen Denken, bei der mehrstufigen Planung, bei der Tool-Nutzung (einschließlich agentenbasierter Software-Workflows) sowie bei computerbezogenen Aufgaben wie der automatisierten Erstellung von Folien und Tabellen.
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT-5.4 nano

Eingabe:$0.16/M
Ausgabe:$1/M
GPT-5.4 nano ist für Aufgaben konzipiert, bei denen Geschwindigkeit und Kosten am wichtigsten sind, wie Klassifizierung, Datenextraktion, Ranking und Sub-Agenten.
O

GPT-5.4 mini

Eingabe:$0.6/M
Ausgabe:$3.6/M
GPT-5.4 mini bringt die Stärken von GPT-5.4 in ein schnelleres, effizienteres Modell, das für hochvolumige Workloads konzipiert ist.
Q

Qwen3.6-Plus

Eingabe:$0.32/M
Ausgabe:$1.92/M
Qwen 3.6-Plus ist jetzt verfügbar und bietet erweiterte Fähigkeiten für die Codeentwicklung sowie eine verbesserte Effizienz bei multimodaler Erkennung und Inferenz, wodurch das Erlebnis mit Vibe Coding noch besser wird.

Verwandte Blogs

So erhalten Sie Gemini 3.1 Deep Think
Mar 13, 2026

So erhalten Sie Gemini 3.1 Deep Think

Gemini 3.1 Deep Think ist ein von Google und Google DeepMind entwickelter fortschrittlicher Reasoning-Modus, der es KI-Systemen ermöglicht, mehrstufiges Reasoning, wissenschaftliche Analysen und komplexe Problemlösung durchzuführen. Er ist derzeit hauptsächlich über Google AI Ultra-Abonnements, die Gemini-App sowie Entwicklertools wie die Gemini API und AI Studio verfügbar.
Google stellt Gemini 3.1 Flash-Lite vor — ein schnelles, kostengünstiges LLM
Mar 5, 2026
gemini-3-1-flash-lite

Google stellt Gemini 3.1 Flash-Lite vor — ein schnelles, kostengünstiges LLM

Google hat Gemini 3.1 Flash-Lite vorgestellt, das neueste Mitglied der Gemini-3-Familie, das speziell als Engine mit hohem Durchsatz, niedriger Latenz und hoher Kosteneffizienz für Entwickler- und Unternehmens-Workloads konzipiert ist. Google positioniert Flash-Lite als das „schnellste und kosteneffizienteste“ Modell der Gemini-3-Reihe: eine schlanke Variante, die darauf abzielt, Streaming-Interaktionen, großskalige Hintergrundverarbeitung und hochfrequente Produktionsaufgaben (z. B. Übersetzung, Extraktion, UI-Generierung und Klassifizierung in großem Umfang) zu einem deutlich niedrigeren Preisniveau als die entsprechenden Pro-Modelle bereitzustellen.