ModelleSupportUnternehmenBlog
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Ressourcen
KI-ModelleBlogUnternehmenÄnderungsprotokollÜber uns
2025 CometAPI. Alle Rechte vorbehalten.DatenschutzrichtlinieNutzungsbedingungen
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Eingabe:$0.2/M
Ausgabe:$1.6/M
Kontext:256k
Maximale Ausgabe:224k
Doubao-Seed-1.8 ist für multimodale Agentenszenarien optimiert. Hinsichtlich der Agentenfähigkeiten wurden die Tool-Nutzung und die Befolgung komplexer Anweisungen deutlich verbessert. Beim multimodalen Verständnis wurden die grundlegenden visuellen Fähigkeiten deutlich gesteigert, sodass ein Verständnis extrem langer Videos auch bei niedriger Bildrate möglich ist. Das Verständnis von Bewegungen in Videos, das komplexe räumliche Verständnis und die Fähigkeiten zum Parsing von Dokumentstrukturen wurden ebenfalls optimiert, und ein intelligentes Kontextmanagement wird nun nativ unterstützt, wodurch Benutzer Kontextstrategien konfigurieren können.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API

Technische Spezifikationen der Seed 1.8 API

ElementSpezifikation / Hinweis
Modellname/FamilieDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Unterstützte ModalitätenText, Bilder, Video (multimodale VLM-Fähigkeiten), Audio-Tooling im Ökosystem (separate Modelle für Audio-/Videogenerierung).
Kontextfenster (Text)256K Token
Video-/visuelle KapazitätAusgelegt für Langvideo-Reasoning, unterstützt effiziente visuelle Kodierung und große Video-Token-Budgets (Model-Card berichtet Videotoken-Experimente und Langvideo-Benchmarks).
EingabeformateFreitext-Prompts; Bild-Uploads (Screenshots, Diagramme, Fotos); Video als tokenisierte Frames / Videotools zur Segmentinspektion; Datei-Uploads (Dokumente).
AusgabeformateNatürlichsprachlicher Text, strukturierte Ausgaben (structured-output beta), Funktionsaufrufe/Tool-Calls, Code sowie multimodale Ausgaben via Orchestrierung.
Denk-/Inferenzmodino_think, think-low, think-medium, think-high — Abwägung von Genauigkeit vs. Latenz/Kosten.

Was ist Doubao Seed 1.8?

Doubao Seed 1.8 ist die Version 1.8 des Seed-Teams: ein einheitliches LLM+VLM, das ausdrücklich auf generalisierte Handlungsfähigkeit in der realen Welt abzielt — d. h. Wahrnehmung (Bilder/Video), Reasoning, Tool-Orchestrierung (Suche, Funktionsaufrufe, Codeausführung, GUI-Grounding) und mehrstufige Entscheidungsfindung innerhalb eines einzigen Modells. Das Design betont konfigurierbare „Denkmodi“ (Abwägungen zwischen Latenz und Tiefe), effiziente visuelle Kodierung und native Unterstützung für langen Kontext und multimodale Eingaben, sodass das Modell als autonomer Assistent/Agent in Produktions-Workflows agieren kann.

Hauptfunktionen der Seed 1.8 API

  1. Vereintes multimodales agentisches Modell. Integriert Wahrnehmung (Bild/Video), Reasoning (LLM) und Aktion (Tool-/GUI-Aufrufe, Codeausführung) in einem einzigen Modell statt einer getrennten Pipeline. Dies ermöglicht kompakte Agent-Workflows und geringere Orchestrierungskomplexität.
  2. Ultralanger Kontext & Langvideo-Verarbeitung. Langer Kontext (Produktsupport bis 256k Token) und spezifische Langvideo-Benchmarks (Seed1.8 zeigt starke Effizienz bei Videotoken). Das Modell unterstützt selektive Videotools (VideoCut), um das Reasoning auf Zeitstempel zu fokussieren.
  3. Agentische GUI-Automatisierung & Tool-Nutzung. Benchmarks und interne Tests (OSWorld, AndroidWorld, LiveCodeBench, GUI-Grounding-Benchmarks) zeigen Verbesserungen bei GUI-Agent-Aufgaben und mehrstufiger Automatisierung. Das Modell kann GUI-Grounding-Kommandos ausgeben und in simulierten OS-/Web-/Mobile-Kontexten arbeiten.
  4. Konfigurierbare Denkmodi für Latenz-/Kostenkontrolle. Vier Inferenzmodi erlauben es Entwicklern, die Rechenintensität zur Laufzeit für interaktive vs. hochwertige Batch-Aufgaben abzustimmen. Dies ist nützlich für Produktionssysteme mit strikten Latenzbudgets.
  5. Verbesserte Token-Effizienz (multimodal). Seed 1.8 zeigt auf multimodalen Benchmarks stärkere Token-Effizienz gegenüber seinen Vorgängern (Seed-1.5/1.6) und erreicht in mehreren Langvideo-Aufgaben hohe Genauigkeit mit kleineren Token-Budgets.
  6. Konfigurierbare Denkmodi: Abwägung von Inferenztiefe vs. Latenz/Kosten mit unterschiedlichen Modi (no_think → think-high) zur Abstimmung auf interaktive Produktionsnutzung.
  7. Technische Fähigkeiten
  • Token-Effizienz: Seed1.8 zeigt gegenüber den Vorgängern (Seed-1.5/1.6) eine deutlich höhere Token-Effizienz und liefert bei Langvideo-Aufgaben stärkere Genauigkeit bei geringeren Token-Budgets (z. B. wettbewerbsfähige Genauigkeit selbst bei 32K Videotoken). Dies ermöglicht geringere Inferenzkosten für lange Eingaben.
  • Multimodales Reasoning & Wahrnehmung: Das Modell erreicht SOTA auf mehreren Multi-Image-VQA- sowie Bewegungs-/Wahrnehmungsaufgaben und belegt den zweiten Platz oder Nahe-SOTA auf vielen multimodalen Reasoning-Benchmarks; insbesondere übertrifft es seinen Vorgänger in nahezu jeder gemessenen visuellen/Video-Dimension.
  • Agentische Tool-Nutzung & GUI-Grounding: Dokumentierte Unterstützung für GUI-Grounding und bildschirmbasierten Betrieb in Benchmarks (ScreenSpot-Pro, GUI-Agenting) mit starken Grounding-Scores (z. B. Verbesserungen gegenüber Seed-1.5-VL auf ScreenSpot-Pro).
  • Paralleles/gestuftes Reasoning: Erhöhtes Compute zur Laufzeit (paralleles Denken) führt zu messbaren Gewinnen bei Mathematik-, Coding- und multimodalen Reasoning-Benchmarks

Ausgewählte öffentliche Benchmark-Highlights von Seed1.8

  • VCRBench (visuelles Commonsense-Reasoning): Seed1.8 erzielte 59.8 (Pass@1 laut Model-Card-Tabelle), eine Verbesserung gegenüber Seed-1.5-VL und konkurrenzfähig zu Top-Modellen
  • VideoHolmes (Videoreasoning): Seed1.8 65.5, besser als Seed-1.5-VL und nahe an Pro-Konkurrenzmodellen.
  • MMLB-NIAH (multimodaler Langkontext, 128k): Seed1.8 erreichte 72.2 Pass@1 bei 128k Kontext in MMLB-NIAH und übertraf einige zeitgenössische Pro-Modelle.
  • Motion & Perception Suite: SOTA in 5 von 6 evaluierten Aufgaben; Beispiele sind TVBench, TempCompass und TOMATO, wo Seed1.8 erhebliche Zugewinne in der zeitlichen Wahrnehmung zeigt.
  • Agentische Workflows: Auf BrowseComp und anderen agentischen Such-/Code-Benchmarks rangiert Seed1.8 häufig nahe bei oder über konkurrierenden Pro-Modellen

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Klare Verbesserungen bei multimodaler Wahrnehmung, Token-Effizienz für lange Videos und agentischer Ausführung.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: Auf vielen multimodalen Benchmarks erreicht oder übertrifft Seed1.8 Gemini 3 Pro (SOTA auf mehreren VQA-/Bewegungsaufgaben; besser beim MMLB-NIAH-128k-Lauf). Allerdings zeigt die Karte auch Bereiche, in denen Gemini-Familienmodelle bei bestimmten fachlichen Wissensaufgaben Vorteile behalten — die relative Reihenfolge ist also benchmarkabhängig.
  • Seed-Code-Variante (Doubao-Seed-Code): spezialisiert auf Programmier-/agentische Code-Aufgaben (großer Kontext für Codebasen; spezialisierte SWE-Benchmarks). Seed1.8 ist das generalistische agentische multimodale Modell, während Seed-Code die programmierfokussierte Variante ist.

Praktische Anwendungsfälle mit der Seedream 4.5 API auf CometAPI

  • Multimodale Forschungsassistenten & Dokumentanalyse: Extrahieren, Zusammenfassen und Schlussfolgern über lange Dokumente, Foliensätze und mehrseitige Berichte.
  • Langvideo-Verständnis & -Monitoring: Sicherheits-/Sportübertragungsanalytik, lange Meeting-Zusammenfassungen und Streaming-Analysen, bei denen die Langvideo-Token-Effizienz des Modells zählt.
  • Agentische Workflows/Automatisierung: Mehrstufige Websuche + Codeausführung + Datenextraktion (z. B. automatisierte Wettbewerbsanalysen, Reiseplanung, Forschungspipelines, die in internen Benchmarks demonstriert wurden).
  • Developer-Tooling (bei Nutzung von Seed-Code): Analyse großer Codebasen, IDE-Assistenten und agentische Codeausführung für Tests & Reparaturen (Seed-Code ist die empfohlene spezialisierte Variante).
  • GUI-Automatisierung & RPA: Screen-Grounding- und GUI-Agent-Benchmarks deuten darauf hin, dass das Modell strukturierte GUI-Aufgaben besser ausführen kann als frühere Seed-Releases.

Verwendung der doubao Seed 1.8 API über CometAPI

Doubao seed1.8 wird derzeit kommerziell über CometAPI als gehostete Inferenz-API bereitgestellt. Die API unterstützt multimodale Nutzlasten (Text + Bilder + Videofragmente/Zeitstempel) und konfigurierbare Inferenzmodi, um Latenz und Compute gegen Antwortqualität abzuwägen.

Aufrufmuster: Die API unterstützt standardmäßige Chat-/Completion-Requests, Streaming-Antworten und agentische Flows, bei denen das Modell Tool-Calls ausgibt (Suche, Codeausführung, GUI-Aktionen) und Tool-Ausgaben als nachfolgenden Kontext aufnimmt.

Streaming & Langkontext-Handhabung: Die API unterstützt Streaming und verfügt über integrierte Kontextmanagement-Primitiven für lange Sitzungen (um 100K+ Kontexte / mehrstufige Agent-Traces zu ermöglichen).

Schritt 1: Für API-Schlüssel registrieren

Loggen Sie sich auf cometapi.com ein. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst. Melden Sie sich bei Ihrer CometAPI console an. Erhalten Sie den Zugangs-Credential-API-Schlüssel der Schnittstelle. Klicken Sie im persönlichen Zentrum beim API-Token auf „Add Token“, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.

Schritt 2: Anfragen an die doubao Seed 1.8 API senden

Wählen Sie den „doubao-seed-1-8-251228 “-Endpunkt, um die API-Anfrage zu senden, und legen Sie den Request-Body fest. Die Request-Methode und der Request-Body werden unserer Website-API-Dokumentation entnommen. Unsere Website bietet zu Ihrer Bequemlichkeit auch Apifox test an. Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto. Kompatibel mit den Chat-APIs.

Fügen Sie Ihre Frage oder Anfrage in das content-Feld ein — darauf wird das Modell antworten. Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Schritt 3: Ergebnisse abrufen und verifizieren

Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten. Nach der Verarbeitung antwortet die API mit dem Aufgabenstatus und den Ausgabedaten.

FAQ

What variants exist of Seed 1.8 and when to use each?

Seed1.8 ist der generalistische multimodale Agent. Verwandte Varianten sind: Seed-Code / Doubao-Seed-Code: spezialisiert auf sehr große Code-Kontexte (einige SKUs geben Kontexte von 256K an) und Coding-Workflows. Seedance / Seedream: auf Medien/Generierung spezialisierte Varianten (Video-/Bildgenerierung). Wählen Sie Seed-Code für IDE-/Codebase-Aufgaben; wählen Sie Seed1.8 für breit angelegte multimodale Agent-Aufgaben. Bestätigen Sie SKU-Kontextfenster und Fähigkeiten in der Produktdokumentation.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 legt den Schwerpunkt auf agentische Integration (Tool-Nutzung, GUI-Agenting, mehrstufige Workflows), verbessertes Long-Context-Handling und bessere Wahrnehmung von langen Videos/Bewegungen im Vergleich zu früheren Seed-1.x-Modellen. Es ist als das multimodale/agentische Upgrade in der Seed-Reihe positioniert.

What input/output modalities does Seed1.8 support?

Native multimodale Unterstützung: Text + Bilder + Video. Zu den Ausgaben gehören natürlichsprachliche Antworten, strukturierte Ausgaben (JSON/Aktionspläne), Code und Verweise auf visuelle Segmente/Zeitstempel für agentische Workflows. Das Modell ist explizit für multimodale Wahrnehmung → Schlussfolgern → Handlung konzipiert.

What are the “thinking” or inference modes of Seed1.8?

Es gibt abstimmbare „Thinking“-Modi — sie sind darauf ausgelegt, Latenz/Rechenaufwand gegen die Tiefe des Schlussfolgerns abzuwägen (nützlich, wenn Sie Interaktivität und Lösungsqualität ausbalancieren müssen). Verwenden Sie die Modi zur Abstimmung für interaktive UIs oder tiefergehendes Batch-Schlussfolgern.

Funktionen für Doubao-Seed-1.8

Entdecken Sie die wichtigsten Funktionen von Doubao-Seed-1.8, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für Doubao-Seed-1.8

Entdecken Sie wettbewerbsfähige Preise für Doubao-Seed-1.8, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Doubao-Seed-1.8 Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$0.2/M
Ausgabe:$1.6/M
Eingabe:$0.25/M
Ausgabe:$2/M
-20%

Beispielcode und API für Doubao-Seed-1.8

Doubao seed1.8 ist jetzt kommerziell über CometAPI als gehostete Inferenz-API verfügbar. Die API unterstützt multimodale Payloads (Text + Bilder + Videofragmente/Zeitstempel) sowie konfigurierbare Inferenzmodi, um Latenz und Rechenaufwand gegen die Antwortqualität abzuwägen.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Weitere Modelle

A

Claude Opus 4.6

Eingabe:$4/M
Ausgabe:$20/M
Claude Opus 4.6 ist das Großsprachmodell der „Opus“-Klasse von Anthropic, veröffentlicht im Februar 2026. Es ist als Arbeitstier für Wissensarbeit und Forschungs-Workflows positioniert — mit Verbesserungen beim langkontextuellen Denken, bei der mehrstufigen Planung, bei der Tool-Nutzung (einschließlich agentenbasierter Software-Workflows) sowie bei computerbezogenen Aufgaben wie der automatisierten Erstellung von Folien und Tabellen.
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT-5.4 nano

Eingabe:$0.16/M
Ausgabe:$1/M
GPT-5.4 nano ist für Aufgaben konzipiert, bei denen Geschwindigkeit und Kosten am wichtigsten sind, wie Klassifizierung, Datenextraktion, Ranking und Sub-Agenten.
O

GPT-5.4 mini

Eingabe:$0.6/M
Ausgabe:$3.6/M
GPT-5.4 mini bringt die Stärken von GPT-5.4 in ein schnelleres, effizienteres Modell, das für hochvolumige Workloads konzipiert ist.
A

Claude Mythos Preview

A

Claude Mythos Preview

Demnächst verfügbar
Eingabe:$60/M
Ausgabe:$240/M
Claude Mythos Preview ist unser bisher leistungsfähigstes Frontier-Modell und zeigt einen bemerkenswerten Sprung bei den Ergebnissen in vielen Evaluations-Benchmarks im Vergleich zu unserem vorherigen Frontier-Modell, Claude Opus 4.6.
X

mimo-v2-pro

Eingabe:$0.8/M
Ausgabe:$2.4/M
MiMo-V2-Pro ist Xiaomis Flaggschiff unter den Foundation-Modellen und verfügt über insgesamt mehr als 1T Parameter sowie eine Kontextlänge von 1M. Es ist umfassend für agentische Szenarien optimiert. Es ist in hohem Maße an allgemeine Agent-Frameworks wie OpenClaw anpassbar. In den Standard-Benchmarks PinchBench und ClawBench zählt es weltweit zur Spitzengruppe, wobei die wahrgenommene Leistung an die von Opus 4.6 heranreicht. MiMo-V2-Pro wurde als Gehirn von Agentensystemen konzipiert, um komplexe Workflows zu orchestrieren, produktionsnahe Engineering-Aufgaben voranzutreiben und zuverlässig Ergebnisse zu liefern.

Verwandte Blogs

Wie verwendet man die Doubao Seed 1.8 API?  Ein umfassender Leitfaden
Jan 12, 2026

Wie verwendet man die Doubao Seed 1.8 API? Ein umfassender Leitfaden

Doubao Seed 1.8 — Teil der Doubao-Familie von ByteDance und der Seed-Forschungsreihe — zieht Aufmerksamkeit auf sich, da es als „agentisches“ multimodales Modell mit sehr großem Kontextfenster und verbesserter Unterstützung für Tools und Agenten konzipiert ist.