OpenAI GPT-OSS: So führen Sie es lokal aus oder hosten es selbst in der Cloud, Hardwareanforderungen

CometAPI
AnnaDec 2, 2025
OpenAI GPT-OSS: So führen Sie es lokal aus oder hosten es selbst in der Cloud, Hardwareanforderungen

GPT-OSS ist ungewöhnlich gut für die Zugänglichkeit entwickelt: die gpt-oss-20B Variante ist für den Betrieb auf einer einzelnen Consumer-GPU (~16 GB VRAM) oder aktuellen High-End-Laptops mit quantisierten GGUF-Builds konzipiert, während gpt-oss-120BTrotz seiner Gesamtparameter von 117 B wird es mit MoE/Aktivparameter-Tricks und einer MXFP4-Quantisierung ausgeliefert, die es auf einzelnen GPUs der H100-Klasse (≈80 GB) oder auf Multi-GPU-Setups laufen lässt. Die Bereitstellung eines Open-Source-Modells im GPT-Stil (oft als „GPT OSS“ bezeichnet) – sei es ein kompaktes 6–7-B-Modell für lokale Apps oder ein 70+-B-Modell für Produktionsdienste – wirft dieselbe Kernfrage auf: Wie kann GPT-OSS lokal ausgeführt oder selbst in der Cloud gehostet werden? Hardwareanforderungen

Was sind GPT-OSS-Modelle und welche Hardwareanforderungen haben sie?

Was ist GPT-OSS?

GPT-OSS ist OpenAIs kürzlich veröffentlichte Open-Weight-Familie großer Sprachmodelle (zum Zeitpunkt der Veröffentlichung gab es zwei Hauptvarianten: Versionen mit ~20 B und ~120 B Parametern). Sie werden mit optimierten Optionen (Expertenmix, native MXFP4-Quantisierung in OpenAIs Distribution, Sparse/Dense-Innovationen) ausgeliefert, die es ermöglichen, diese relativ großen Parameterzahlen mit deutlich weniger Speicher auszuführen, als einfache FP32/FP16-Kopien benötigen würden. Die Veröffentlichung zielte ausdrücklich darauf ab, leistungsstarke Modelle auch außerhalb der Hyperscaler breiter lauffähig und anpassbar zu machen.

Wichtige Produktfakten (Tragfähigkeit):

  • gpt-oss-20B soll auf einer einzelnen Consumer-GPU mit ~16 GB VRAM laufen (und kann auf Desktops/Laptops mit GGUF-Quantisierungen verwendet werden).
  • gpt-oss-120B (≈117B Parameter, ~5.1B aktiv Parameter im MoE-Design von OpenAI) ist so konstruiert, dass das Modell in einen einzelnen 80 GB H100/A100 passt, wenn MXFP4 und spezifische Laufzeitunterstützung verwendet werden oder bei Multi-GPU-Setups.

Hardwarefaktoren, die die Anforderungen bestimmen

  1. Modellgröße und Architektur – MoE und spärliche/dichte Schichten können die Aktivierung und das Arbeitsgedächtnis verändern. (GPT-OSS verwendet Komponenten im Stil einer Mischung von Experten.)
  2. Präzision und Quantisierung – FP32, FP16, BF16, 8-Bit, 4-Bit (GPTQ/AWQ/MXFP4). Geringere Genauigkeiten reduzieren den Speicherbedarf, können aber die Latenz und die numerische Genauigkeit beeinträchtigen. OpenAI bietet quantisierte MXFP4-Gewichte für GPT-OSS.
  3. Kontextlänge (Sequenzlänge) – Längere Kontexte erhöhen die Nutzung des Aktivierungscache proportional; GPT-OSS unterstützt extrem lange Kontexte (bis hin zu sehr großen Token-Fenstern in ihrem Design), was den Speicherbedarf vervielfacht.
  4. Batchgröße und Parallelität – Die gleichzeitige Nutzung mehrerer Benutzer erfordert einen höheren Speicherbedarf für Aktivierungen und Cache. Frameworks wie vLLM, DeepSpeed ​​und Triton versuchen, Aktivierungen effizient zu bündeln und über mehrere Anfragen hinweg zu verteilen.
  5. Overhead des Serving-Frameworks – Verschiedene Inferenzserver (vLLM, Textgenerierungsinferenz, llama.cpp, ONNX Runtime) fügen unterschiedliche Overheads und Optimierungen hinzu.

Was „passt“ wohin: grobe Gedächtnisregeln

Für die Hardwareplanung sind zwei Konzepte von Bedeutung:

  1. Gesamtzahl der Parameter – eine Obergrenze für die Modellgröße (117 B gegenüber 21 B).
  2. Aktivierter/Arbeitssatz – In MoE oder bestimmten Präzisionseinstellungen kann der für die Inferenz benötigte aktive Speicher viel kleiner sein als die Rohparameterbytes.

Praktische Faustregeln:

  • GPUs/Edge-Laptops der 16-GB-Klasse → möglich für gpt-oss-20b wenn Sie die bereitgestellte speichereffiziente Konfiguration des Modells verwenden (oder aggressiv auf 4-Bit/NF4/AWQ quantisieren).
  • 80 GB H100 / A100 80 GB → Single-GPU-Hosting für gpt-oss-120b in ihrem empfohlenen Setup. Für den Produktionsdurchsatz benötigen Sie möglicherweise dennoch mehrere GPUs für Batchverarbeitung, Redundanz oder geringere Latenz bei Parallelität.
  • Große Multi-GPU-Setups (A100/H100-Cluster) → erforderlich, wenn Sie viele gleichzeitige Benutzer mit geringer Latenz ausführen oder umfangreiche Feinabstimmungen/Trainings durchführen möchten. Mit DeepSpeed/ZeRO und automatischer Tensorparallelität können Sie große Modelle auf mehrere GPUs aufteilen.

Kurz gesagt: Für Experimente und die einfache lokale Nutzung sollten Sie eine GPU mit 16–24 GB (oder CPU + starke Quantisierung) einplanen. Für die produktive Single-GPU-Inferenz des großen gpt-oss-Modells sollten Sie eine H100 mit 80 GB anstreben. Andernfalls verwenden Sie eine Multi-GPU-Partitionierung.

Wie viel Rechenleistung ist für den Einsatz von GPT-OSS in der Praxis erforderlich?

Inferenz vs. Training: völlig unterschiedliche Budgets

  • Inferenz: Die größten Kosten entstehen durch GPU-Speicher (VRAM) und optimierte Kernel. Mit optimierten Laufzeiten (vLLM, TensorRT, DeepSpeed-Inference) und Quantisierung ist Inferenz auf gpt-oss-20b auf einer 16-GB-Consumer-GPU möglich; das 120B-MoE-Modell ist für einen 80-GB-H100 ausgelegt.
  • Feinabstimmung / umfassendes Training: um Größenordnungen größer – Sie benötigen viele GPUs oder spezielle Trainingsinstanzen (H100/A100-Cluster mit mehreren Knoten, DFLOP-Budget und Speicher-E/A). Dieser Artikel konzentriert sich hauptsächlich auf Inferenz/Self-Hosting und leichte Feinabstimmungsrezepte (QLoRA/LoRA), nicht auf mehrwöchiges Vortraining.

CPU vs. GPU vs. spezialisierte Beschleuniger

  • Nur CPU: Möglich mit GGUF/llama.cpp und kleinen quantisierten Builds, wobei Latenz gegen geringere Kosten eingetauscht wird. 20B auf der CPU ohne Quantisierung auszuführen ist unpraktisch. Verwenden Sie die CPU, wenn Datenschutz oder lokaler Offline-Betrieb wichtig sind und Ihr Durchsatzbedarf gering ist.
  • GPU: bevorzugt für Latenz und Durchsatz. Moderne ML-GPUs (A100/H100/4090/4080) unterscheiden sich stark in HBM/VRAM und Inter-GPU-Fabric. Die gpt-oss-Dokumente empfehlen die H100-Klasse für die 120B-Variante.
  • TPU / AMD MI300X: wird von einigen Laufzeiten (vLLM/ROCm-Builds) unterstützt und kann in bestimmten Clouds kostengünstig sein – prüfen Sie bei der Auswahl der Hardware die Dokumentation des Anbieters.

Wie kann man GPT-OSS mit begrenztem Budget lokal ausführen? (Code + Schritt-für-Schritt)

Nachfolgend finden Sie zwei praktische Ansätze: (A) GPU-Laptop/Desktop mit ~16–24 GB VRAM mit 4-Bit-Quantisierung und (B) CPU/Low-GPU (offline) mit llama.cpp (GGUF) oder kleinen quantisierten Builds. Beide werden häufig von Praktikern verwendet, wenn Geld und Leistung begrenzt sind.

Hinweis: Diese Anweisungen setzen eine funktionierende Python-Umgebung voraus (Linux wird für optimale CUDA-Unterstützung empfohlen). Verwenden Sie unter Windows WSL2 für optimale Kompatibilität mit GPU-Toolchains.

A. GPU-Route (empfohlen für beste Latenz bei kleinem Budget) – Quantisieren + Laden mit Bitsandbytes (4-Bit)

Dieser Weg soll openai/gpt-oss-20b auf einer einzelnen Consumer-GPU (z. B. 24 GB 4090 oder 16 GB 4080). Es verwendet Bitsandbytes 4-Bit-Quantisierung und Hugging Face transformers Gerätezuordnung/Beschleunigung.

Schritt 1 – Grundlagen der Installation

# Linux + CUDA (example); pick the correct torch CUDA wheel for your driver

python -m pip install -U pip
pip install torch --index-url https://download.pytorch.org/whl/cu121  # pick your CUDA version

pip install -U transformers accelerate bitsandbytes safetensors

(Wenn Sie Conda verwenden, erstellen Sie eine Umgebung und installieren Sie das CUDA-kompatible Torch Wheel für Ihre Plattform.)

Schritt 2 – (Optional) Hugging Face-Anmeldung zum Herunterladen großer Dateien

huggingface-cli login

Schritt 3 – Python-Beispiel (quantisiertes 4-Bit-Modell laden)

# save as run_gptoss_4bit.py

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "openai/gpt-oss-20b"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"   # or "fp4"/"nf4" depending on support

)

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",                 # let transformers pick GPU + CPU offload if needed

    quantization_config=bnb_config,
    torch_dtype=torch.float16,
    trust_remote_code=True
)

prompt = "Write a concise summary of quantization for LLMs."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(out, skip_special_tokens=True))

Hinweise & Tipps

  • Nutzen Sie device_map="auto" so transformers verwendet CPU/GPU-Offload automatisch. Wenn Sie eine einzelne GPU haben, device_map="auto" wird normalerweise alles auf die GPU übertragen und das, was auf der CPU sein muss, auslagern.
  • Wenn Ihnen der VRAM ausgeht, fügen Sie hinzu --offload_folder ./offload (oder setzen offload_folder in from_pretrained), um Tensoren auf NVMe auszulagern.
  • Der Hugging Face + Bitsandbytes-Ansatz ist umfassend dokumentiert; Einzelheiten finden Sie im Handbuch zu 4-Bit-Transformern.

B. CPU / Tiny-Budget-Route (llama.cpp / GGUF)

Wenn Sie keine GPU oder eine sehr kleine GPU haben, llama.cpp / Mit GGUF-Builds (und quantisierten AWQ/GPTQ-Dateien) können Sie Modelle auf der CPU mit akzeptabler Latenz für Einzelbenutzer ausführen.

Schritt 1 – Installieren Sie llama.cpp / Python-Bindungen

# Download and build (Linux)

git clone --recursive https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Python bindings (optional)

pip install llama-cpp-python

Schritt 2 – Safetensoren konvertieren → GGUF (sofern Konvertierungsskripte für gpt-oss verfügbar sind)
OpenAI/Hugging Face bieten Safetensoren; Community-Konverter (oder Skripte in llama.cpp) in GGUF konvertieren. Der genaue Befehl hängt von der aktuellen llama.cpp Tools; überprüfen Sie die README-Datei des Repos für convert.py/convert-safetensors-to-gguf. (Community-Threads diskutieren die Konvertierung für neue Modelle.)

Schritt 3 – Führen Sie das Modell aus mit llama.cpp

# basic inference (example)

./main -m ./gpt-oss-20b.gguf -p "Explain GGUF and quantization in one paragraph." -n 256

Hinweise und Kompromisse

  • CPU-Läufe sind deutlich langsamer. Verwenden Sie diese Route für Tests, Datenschutz oder lokale Agenten mit sehr geringer Parallelität.
  • Das Generieren langer Ausgaben oder die Bedienung vieler gleichzeitiger Benutzer auf der CPU ist nicht praktikabel. Wechseln Sie für die Produktion zu einer GPU.

Quantisierte Builds auf der Festplatte (GPTQ/AWQ)

Wenn Sie ein großes Modell in eine kleine GPU (z. B. 8–12 GB) quetschen müssen, zeigen Ergebnisse aus der Community, dass die Quantisierung im GPTQ/AWQ-Stil einige 20B-Modelle auf GPUs mit niedrigem VRAM ausführen kann – aber die Konvertierung erfordert oft Mehr CPU-RAM und eine dazwischenliegende GPU während der Konvertierung. Tools: GPTQ-for-LLaMa, AutoGPTQ (archiviert), AWQ und QLLM.

Praktische Tipps für begrenztes Budget

  • Bevorzugen Sie 4-Bit-quantisierte Prüfpunkte (GPTQ/AWQ/MXFP4) – oft der Unterschied zwischen „läuft in 12 GB“ und „benötigt 80 GB“.
  • Kontextlänge begrenzen Für Budget-Inferenz: Lange Kontexte sprengen den Aktivierungscache. Wenn Sie lange Kontexte speichern müssen, sollten Sie Offloading-Strategien in Betracht ziehen.
  • Verwenden Sie Unified Memory/NVMEM-Offload mit Bedacht – Frameworks bieten möglicherweise CPU/NVMe-Offload (DeepSpeed ​​ZeRO-Offload / ZeRO-Infinity), dies erhöht jedoch die Latenz.

Wie kann ich GPT-OSS selbst bei Cloud-Anbietern hosten (praktische Anleitung und Kostenhinweise)?

Welche Cloud-Hardware soll ich wählen?

  • Single-GPU 80 GB H100: Gut geeignet für das Hosting von gpt-oss-120b für kleinen bis mittleren Datenverkehr. In AWS-Begriffen bieten P5-Instanzen H100-Hardware; Single-GPU-Varianten (angekündigt für 2025) machen die richtige Dimensionierung für Inferenz günstiger. Je nach Anbieter verwenden Sie die P5/ND H100-Familie.
  • Mehrere GPUs (8× H100): Für hohen Durchsatz und Redundanz verwenden Sie p5.48x, p5dn oder einen vergleichbaren Cluster. NVidia NVLink/NVSwitch in derselben Instanz reduziert den Overhead der Kommunikation zwischen GPUs.
  • Alternative Clouds: CoreWeave, Lambda Labs, Paperspace, Runpod – oft günstigere Spot-/On-Demand-GPU-Mieten für Burst-Inferenz. Nutzen Sie sie für die Entwicklung, bevor Sie sich auf eine langfristige Infrastruktur festlegen.
  • Hochmoderne / schwere Produktion: AWS p5 (H100) (8 × H100 80 GB pro Instanz) – für den höchsten Durchsatz pro Knoten und Einzel-GPU-Bedarf von 80+ GB oder für 120B+ mit weniger Aufteilung. P5 bietet H100s und großen lokalen NVMe-Speicher.

rmers, Text-Generation-Inference (TGI)/NVIDIA TGI-Container oder DeepSpeed-Inferenz einrichten.

  1. Schnelle Bereitstellung lokaler NVMe wenn Sie große Aktivierungszustände auslagern möchten (ZeRO-Infinity). P4/P5-Knoten verfügen häufig über lokales NVMe und eine sehr hohe Netzwerkbandbreite. ()
  2. Sicherheit und Vernetzung – Platzieren Sie Inferenzendpunkte hinter Lastverteilern, verwenden Sie Autoscaling-Gruppen für Front-Ends und trennen Sie Belange (Modellbereitstellung vs. Anforderungsrouting).
  3. Überwachung und SLOs – GPU-Auslastung, Speicher, Token/Sek., Latenz p95 und Fehler verfolgen; Prometheus + Grafana für Metriken verwenden.

Beispiel für einen Cloud-Self-Hosting-Workflow (AWS P4/P5)

  1. Instanz auswählen (p4d/p5) basierend auf dem Speicherbedarf des Modells. Für gpt-oss-20B ist eine einzelne Instanz mit 16–32 GB ausreichend. Wählen Sie für gpt-oss-120B eine 80 GB HBM-Instanz oder mehrere GPUs.
  2. AMI/Image vorbereiten – Verwenden Sie ein Anbieter-AMI, das CUDA, cuDNN und optimiertes PyTorch (oder Anbieter-Images mit NVIDIA-Treibern) bündelt.
  3. Serving-Stack installieren: vLLM, Transformatoren, Textgenerierungs-Inferenz (TGI)/NVIDIA TGI-Container oder DeepSpeed-Inferenz einrichten.
  4. Schnelle Bereitstellung lokaler NVMe wenn Sie große Aktivierungszustände auslagern möchten (ZeRO-Infinity). P4/P5-Knoten verfügen häufig über lokales NVMe und eine sehr hohe Netzwerkbandbreite.
  5. Sicherheit und Vernetzung – Platzieren Sie Inferenzendpunkte hinter Lastverteilern, verwenden Sie Autoscaling-Gruppen für Front-Ends und trennen Sie Belange (Modellbereitstellung vs. Anforderungsrouting).
  6. Überwachung und SLOs – GPU-Auslastung, Speicher, Token/Sek., Latenz p95 und Fehler verfolgen; Prometheus + Grafana für Metriken verwenden.

Beispiel für einen Self-Hosting-Plan (gpt-oss-20b, Produktion im kleinen Maßstab)

Ziel: Bedienen Sie ca. 20 Benutzer gleichzeitig, Reaktionsziel 1–2 s, kostensensitiv.

  1. Beispiel: 1× A10G / 1× 24 GB GPU (z. B. G5 / A10G / RTX 6000) für Modell + 1× kleiner CPU-Bootstrap-Server.
  2. Laufzeit: vLLM als Modellserver (kontinuierliches Batching) + CometAPI-Gateway.
  3. automatische Skalierung: Verwenden Sie eine Autoscaling-Gruppe mit GPU-AMI und einem ALB + horizontales Autoscaling nach CPU/GPU-Metriken.
  4. Lagerung: NVMe lokal für Modell-Caching; Objektspeicher (S3) für kalte Modellspeicherung.
  5. Netzwerk Performance: Prometheus + Grafana, GPU-Auslastung, Latenz, Warteschlangenlänge verfolgen.
  6. Sicherheit: VPC, private Subnetze, IAM-Rollen für Modellspeicher, TLS-Zertifikate.

Beispiel für einen Self-Hosting-Plan (gpt-oss-120b, Produktion)

Ziel: geringe Latenz für viele gleichzeitige Benutzer/Unternehmen.

  1. Beispiel: 1× H100 80 GB (Einzel-GPU) als Basis; horizontal skalieren oder Multi-GPU-p5-Instanzen für den Durchsatz verwenden. Für hohen Durchsatz entweder den Einzel-GPU-Dienst replizieren (Daten parallel) oder das Modell mit DeepSpeed ​​(Tensor/Pipeline) auf mehrere GPUs verteilen.
  2. Laufzeit: DeepSpeed-Inference mit automatischem TP oder NVIDIA TensorRT (sofern verfügbar). Die Unterstützung von vLLM für MoE/Multi-GPU und optimierte Kernel kann ebenfalls nützlich sein.
  3. Kubernetes: Verwenden Sie K8s mit Geräte-Plugins und lokalem NVMe; verwenden Sie Chaostests für die Verfügbarkeit.
  4. Kostenoptimierung: reservierte Instanzen für vorhersehbare Last; Spot-Instanzen für Batch-Workloads.

Beispiel: Starten Sie einen vLLM-Serving-Container für gpt-oss-20b

# assume vllm is installed and CUDA is set up

vllm serve --model openai/gpt-oss-20b --port 8000 --num-gpus 1

Dann richten Sie Ihr Front-End auf http://<host>:8000/v1/chat/completions (vLLM unterstützt OpenAI-kompatible API).

Tipps zur Kostenoptimierung

  • Spot-/Preemptible-VMs sind 50–80 % günstiger, erfordern aber Checkpointing oder schnelle Respawn-Strategien.
  • Modellquantisierung reduziert den Bedarf an Instanztypen (z. B. könnten quantisierte 120 B auf weniger GPUs bereitgestellt werden, wenn Engines die Dequantisierung im laufenden Betrieb unterstützen).
  • Verwenden Sie ausschließlich für Inferenz optimierte Instanzfamilien (P5/P4/A2 Ultra) mit hohem NVLink/NVSwitch bei der Parallelität mehrerer GPU-Modelle; die Netzwerkbandbreite ist für das Inter-GPU-Sharding wichtig.

So gleichen Sie Kosten, Latenz und Modellqualität aus

Quantisierung: Geschwindigkeit vs. Qualität

Aggressive Quantisierung (2–4 Bit, AWQ/GPTQ) → enorme Speichereinsparungen und oft nur geringe Qualitätsverluste bei vielen Aufgaben. Verwenden Sie AWQ/GPTQ für die Produktion, wenn Sie die spezifische Arbeitslast benchmarken. Die Konvertierung kann während der Quantisierung viel CPU-Speicher erfordern.

Gemischte Präzision und Kerneloptimierungen

Nutzen Sie fp16, bf16 Wo unterstützt; kombinieren Sie mit spezialisierten CUDA-Kerneln (FasterTransformer, TensorRT) für maximalen Durchsatz. Nvidia/TensorRT bietet spekulative Dekodierung und optimierte Kernel für viele Transformer (NVIDIA bietet optimierte GPT-OSS-Adapter).

Sicherheit und Beobachtbarkeit

Bei Open-Weight-Modellen sind Sie für die Überwachung von Missbrauch, Datenlecks und Datendrift verantwortlich. Implementieren Sie Anforderungsprotokollierung, Inhaltsfilter, Ratenbegrenzung und Human-in-the-Loop-Moderation. Die Versionshinweise und die Modellkarte von OpenAI betonen die internen Tests und externen Evaluierungen – beim Self-Hosting liegt die Sicherheitskontrolle jedoch bei Ihnen.

Abschließende Gedanken

GPT-OSS bewegt die Nadel: Modelle, die zuvor eine massive, maßgeschneiderte Infrastruktur erforderten, sind jetzt dank sorgfältiger Architekturauswahl und quantisierter Verteilungen zugänglicher. Aber Einsatz bleibt eine Disziplin: Bei der Hardwaredimensionierung müssen Modellpräzision, Kontextlänge und das Parallelitätsprofil Ihrer App berücksichtigt werden. Verwenden Sie kleine Testumgebungen (quantisiert 20 B), um die Token/Sek.- und P95-Latenz zu messen, und multiplizieren Sie diese Werte dann, um die Cloud-Berechnung und die Kosten für die Produktion abzuschätzen.

So greifen Sie auf die GPT-OSS-API zu

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen GPT-OSS-20B kombiniert mit einem nachhaltigen Materialprofil. GPT-OSS-120B - durch Konsolidierung, CometAPIDie neuesten Modellversionen sind zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

SHARE THIS BLOG

500+ Modelle in einer API

Bis zu 20% Rabatt