ModelliSupportoAziendaBlog
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Risorse
Modelli di Intelligenza ArtificialeBlogAziendaRegistro delle modificheChi siamo
2025 CometAPI. Tutti i diritti riservati.Informativa sulla PrivacyTermini di Servizio
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Ingresso:$0.2/M
Uscita:$1.6/M
Contesto:256k
Uscita Massima:224k
Doubao-Seed-1.8 è ottimizzato per scenari di agenti multimodali. In termini di capacità degli agenti, l’uso degli strumenti e l’esecuzione di comandi complessi sono stati significativamente migliorati. Per quanto riguarda la comprensione multimodale, le capacità visive di base sono state notevolmente migliorate, consentendo la comprensione a basso frame rate di video estremamente lunghi. Anche la comprensione del movimento nei video, la comprensione spaziale complessa e le capacità di analisi della struttura dei documenti sono state ottimizzate, e la gestione intelligente del contesto è ora supportata nativamente, consentendo agli utenti di configurare strategie di contesto.
Nuovo
Uso commerciale
Playground
Panoramica
Caratteristiche
Prezzi
API

Specifiche tecniche dell'API Seed 1.8

VoceSpecifica / nota
Nome modello / famigliaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalità supportateTesto, immagini, video (capacità VLM multimodali), strumenti audio nell’ecosistema (modelli separati per la generazione audio/video).
Finestra di contesto (testo)256K token
Capacità video/visiveProgettato per il ragionamento su video lunghi, supporta codifica visiva efficiente e ampi budget di token video (la scheda modello riporta esperimenti sui token video e benchmark su video lunghi).
Formati di inputPrompt in linguaggio naturale; caricamento di immagini (screenshot, grafici, foto); video come fotogrammi tokenizzati / strumenti video per l’ispezione di segmenti; caricamento di file (documenti).
Formati di outputTesto in linguaggio naturale, output strutturati (structured-output beta), chiamate di funzione / chiamate a strumenti, codice e output multimodali tramite orchestrazione.
Modalità di pensiero/inferenzano_think, think-low, think-medium, think-high — compromesso tra accuratezza e latenza/costo.

Che cos’è Doubao Seed 1.8?

Doubao Seed 1.8 è la release 1.8 del team Seed: un LLM+VLM unificato che mira esplicitamente all’agency generalizzata nel mondo reale — ossia percezione (immagini/video), ragionamento, orchestrazione di strumenti (ricerca, chiamate di funzione, esecuzione di codice, grounding GUI) e presa di decisioni multi-step all’interno di un unico modello. Il design enfatizza modalità di “pensiero” configurabili (compromessi tra latenza e profondità), codifica visiva efficiente e supporto nativo per contesti lunghi e input multimodali, così che il modello possa operare come assistente/agente autonomo in workflow di produzione.

Funzionalità principali dell'API Seed 1.8

  1. Modello agentico multimodale unificato. Integra percezione (immagine/video), ragionamento (LLM) e azione (chiamate a strumenti/GUI, esecuzione di codice) in un singolo modello invece che in una pipeline separata. Questo abilita workflow agentici compatti e riduce la complessità di orchestrazione.
  2. Contesto ultra lungo e gestione di video lunghi. Contesto lungo (supporto di prodotto fino a 256k token) e benchmark specifici su video lunghi (Seed1.8 mostra una forte efficienza di token su video lunghi). Il modello supporta strumenti video selettivi (VideoCut) per focalizzare il ragionamento sui timestamp.
  3. Automazione agentica della GUI e uso di strumenti. Benchmark e test interni (OSWorld, AndroidWorld, LiveCodeBench, benchmark di grounding GUI) mostrano miglioramenti nei task agentici su GUI e nell’automazione multi-step. Il modello può produrre comandi di grounding GUI e operare in contesti OS/web/mobile simulati.
  4. Modalità di pensiero configurabili per controllare latenza/costo. Quattro modalità di inferenza consentono agli sviluppatori di regolare il calcolo a test-time per task interattivi vs. batch di alta qualità. Utile per sistemi in produzione con severi budget di latenza.
  5. Efficienza di token migliorata (multimodale). Seed 1.8 dimostra maggiore efficienza di token sui benchmark multimodali rispetto ai suoi predecessori (serie Seed-1.5/1.6), ottenendo alta accuratezza con budget di token più ridotti in diversi task su video lunghi.
  6. Modalità di pensiero configurabili: bilanciare profondità d’inferenza vs latenza/costo con modalità distinte (no_think → think-high) per ottimizzare l’uso in produzione interattiva.
  7. Capacità tecniche
  • Efficienza di token: Seed1.8 mostra un’efficienza di token marcata rispetto ai predecessori (Seed-1.5/1.6), ottenendo maggiore accuratezza con budget di token inferiori in task su video lunghi (ad es., accuratezza competitiva anche con 32K token video). Questo consente costi di inferenza più bassi su input lunghi.
  • Ragionamento e percezione multimodali: il modello raggiunge SOTA su diversi compiti di VQA multi-immagine e di movimento/percezione e ottiene secondi posti o risultati near-SOTA in molti benchmark di ragionamento multimodale; in particolare supera il suo predecessore in quasi ogni dimensione visiva/video misurata.
  • Uso agentico di strumenti e grounding GUI: supporto documentato per grounding GUI e benchmark di operazioni basate su schermo (ScreenSpot-Pro, agenting GUI) con punteggi di grounding elevati (ad es., miglioramenti rispetto a Seed-1.5-VL su ScreenSpot-Pro).
  • Ragionamento parallelo/a passi: aumentare il calcolo a test-time (parallel thinking) produce guadagni misurabili in benchmark di matematica, coding e ragionamento multimodale.

Evidenze selezionate da benchmark pubblici di Seed1.8

  • VCRBench (visual commonsense reasoning): Seed1.8 ha ottenuto 59.8 (Pass@1 riportato nella tabella della model card), un miglioramento rispetto a Seed-1.5-VL e competitivo con i modelli top.
  • VideoHolmes (ragionamento su video): Seed1.8 65.5, superando Seed-1.5-VL e avvicinandosi a modelli concorrenti pro-level.
  • MMLB-NIAH (multimodale a lungo contesto, 128k): Seed1.8 ha raggiunto 72.2 Pass@1 a 128k di contesto su MMLB-NIAH, superando alcuni modelli pro contemporanei.
  • Suite Motion & Perception: SOTA in 5 su 6 compiti valutati; esempi includono TVBench, TempCompass e TOMATO dove Seed1.8 mostra guadagni sostanziali nella percezione temporale.
  • Workflow agentici: su BrowseComp e altri benchmark di ricerca/codice agentici, Seed1.8 spesso si posiziona vicino o sopra modelli pro concorrenti.

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: chiari miglioramenti nella percezione multimodale, efficienza di token per video lunghi ed esecuzione agentica.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: su molti benchmark multimodali Seed1.8 eguaglia o supera Gemini 3 Pro (SOTA su diversi task VQA/movimento; migliore su MMLB-NIAH nella run a 128k). Tuttavia, la scheda evidenzia anche aree in cui i modelli della famiglia Gemini mantengono vantaggi su alcuni compiti di conoscenza disciplinare — quindi l’ordinamento relativo dipende dai benchmark.
  • Variante Seed-Code (Doubao-Seed-Code): specializzata per compiti di programmazione/codice agentico (contesto ampio per codebase; benchmark SWE specializzati). Seed1.8 è il modello multimodale agentico generalista, mentre Seed-Code è la variante focalizzata sulla programmazione.

Casi d’uso pratici dell’API Seedream 4.5 su CometAPI

  • Assistenti di ricerca multimodale e analisi documentale: estrarre, riassumere e ragionare su documenti lunghi, presentazioni e report multi-pagina.
  • Comprensione e monitoraggio di video lunghi: analisi per sicurezza/sport, sintesi di riunioni lunghe e analisi in streaming dove l’efficienza sui token video lunghi è rilevante.
  • Workflow agentici / automazione: scenari multi-step di ricerca web + esecuzione di codice + estrazione dati (ad es., analisi competitiva automatizzata, pianificazione viaggi, pipeline di ricerca dimostrate nei benchmark interni).
  • Strumenti per sviluppatori (se si usa Seed-Code): analisi di codebase estese, assistenti IDE e esecuzione agentica di codice per test e riparazioni (Seed-Code è la variante specializzata consigliata).
  • Automazione GUI e RPA: i benchmark di grounding su schermo e agenti GUI indicano che il modello può eseguire task GUI strutturati meglio rispetto alle versioni Seed precedenti.

Come usare la doubao Seed 1.8 API tramite CometAPI

Doubao seed1.8 è disponibile commercialmente tramite CometAPI come API di inferenza hosted. L’API supporta payload multimodali (testo + immagini + frammenti/timestamp video) e modalità di inferenza configurabili per bilanciare latenza e calcolo rispetto alla qualità della risposta.

Pattern di chiamata: l’API supporta richieste in stile chat/completion standard, risposte in streaming e flussi agentici in cui il modello emette chiamate a strumenti (ricerca, esecuzione di codice, azioni GUI) e acquisisce gli output degli strumenti come contesto successivo.

Streaming e gestione del contesto lungo: l’API supporta lo streaming e include primitive di gestione del contesto integrate per sessioni lunghe (per abilitare contesti 100K+ / tracce agent multi-step).

Passaggio 1: registrati per ottenere la chiave API

Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Entra nella tua console di CometAPI. Ottieni la chiave API di accesso all’interfaccia. Clicca “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e invia.

Passaggio 2: invia richieste all’API doubao Seed 1.8

Seleziona l’endpoint “doubao-seed-1-8-251228” per inviare la richiesta API e imposta il corpo della richiesta. Metodo e corpo della richiesta sono disponibili nella documentazione API sul nostro sito. Il nostro sito fornisce anche test Apifox per tua comodità. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva del tuo account. Compatibile con le API di Chat.

Inserisci la tua domanda o richiesta nel campo content — è a questo che il modello risponderà. Elabora la risposta dell’API per ottenere l’output generato.

Passaggio 3: recupera e verifica i risultati

Elabora la risposta dell’API per ottenere l’output generato. Dopo l’elaborazione, l’API risponde con lo stato del task e i dati di output.

FAQ

What variants exist of Seed 1.8 and when to use each?

Seed1.8 è l’agente multimodale generalista. Le varianti correlate includono: Seed-Code / Doubao-Seed-Code: specializzato per contesti di codice molto ampi (alcune SKU dichiarano contesti fino a 256K) e flussi di lavoro di programmazione. Seedance / Seedream: varianti specializzate per media/generazione (generazione video/immagini). Scegli Seed-Code per attività in IDE/codebase; scegli Seed1.8 per attività generiche di agente multimodale. Conferma le finestre di contesto e le capacità della SKU nella documentazione del prodotto.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 enfatizza l’integrazione agentica (uso di strumenti, agenting GUI, flussi di lavoro multi-step), una migliore gestione del contesto lungo e una migliore percezione di video lunghi/movimento rispetto ai precedenti modelli Seed 1.x. È posizionato come l’upgrade multimodale/agentico nella linea Seed.

What input/output modalities does Seed1.8 support?

Supporto multimodale nativo: testo + immagini + video. Gli output includono risposte in linguaggio naturale, output strutturati (JSON/piani d’azione), codice e riferimenti a segmenti visivi/timestamp per flussi di lavoro agentici. Il modello è esplicitamente progettato per percezione multimodale → ragionamento → azione.

What are the “thinking” or inference modes of Seed1.8?

Esistono modalità di “thinking” regolabili, progettate per bilanciare latenza/calcolo e profondità del ragionamento (utili quando è necessario bilanciare interattività e qualità della soluzione). Usa le modalità per ottimizzare interfacce utente interattive o un ragionamento batch più profondo.

Funzionalità per Doubao-Seed-1.8

Esplora le caratteristiche principali di Doubao-Seed-1.8, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per Doubao-Seed-1.8

Esplora i prezzi competitivi per Doubao-Seed-1.8, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come Doubao-Seed-1.8 può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$0.2/M
Uscita:$1.6/M
Ingresso:$0.25/M
Uscita:$2/M
-20%

Codice di esempio e API per Doubao-Seed-1.8

Doubao seed1.8 è ora disponibile commercialmente tramite CometAPI come API di inferenza ospitata. L'API supporta payload multimodali (testo + immagini + frammenti video / timestamp) e modalità di inferenza configurabili per bilanciare latenza e calcolo rispetto alla qualità delle risposte.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Altri modelli

A

Claude Opus 4.6

Ingresso:$4/M
Uscita:$20/M
Claude Opus 4.6 è il modello linguistico di grandi dimensioni di classe “Opus” di Anthropic, rilasciato nel febbraio 2026. È posizionato come un cavallo di battaglia per il lavoro della conoscenza e i flussi di lavoro di ricerca — migliorando il ragionamento con contesti estesi, la pianificazione in più fasi, l’uso di strumenti (inclusi i flussi di lavoro software basati su agenti) e le attività d’uso del computer, come la generazione automatizzata di diapositive e fogli di calcolo.
A

Claude Sonnet 4.6

Ingresso:$2.4/M
Uscita:$12/M
Claude Sonnet 4.6 è il nostro modello Sonnet più capace finora. È un aggiornamento completo delle capacità del modello in ambiti quali programmazione, uso del computer, ragionamento su contesti estesi, pianificazione degli agenti, lavoro basato sulla conoscenza e design. Sonnet 4.6 offre anche una finestra di contesto da 1M token in beta.
O

GPT-5.4 nano

Ingresso:$0.16/M
Uscita:$1/M
GPT-5.4 nano è progettato per attività in cui la velocità e il costo contano maggiormente, come classificazione, estrazione dei dati, ordinamento e sub-agenti.
O

GPT-5.4 mini

Ingresso:$0.6/M
Uscita:$3.6/M
GPT-5.4 mini porta i punti di forza di GPT-5.4 in un modello più veloce ed efficiente, progettato per carichi di lavoro ad alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Prossimamente
Ingresso:$60/M
Uscita:$240/M
Claude Mythos Preview è il nostro modello di frontiera più capace finora e mostra un balzo notevole nei punteggi su molti benchmark di valutazione rispetto al nostro precedente modello di frontiera, Claude Opus 4.6.
X

mimo-v2-pro

Ingresso:$0.8/M
Uscita:$2.4/M
MiMo-V2-Pro è il modello di base di punta di Xiaomi, con oltre 1T di parametri totali e una lunghezza del contesto di 1M, profondamente ottimizzato per scenari agentici. È altamente adattabile a framework per agenti generici come OpenClaw. Si colloca tra i migliori al mondo nei benchmark standard PinchBench e ClawBench, con prestazioni percepite che si avvicinano a quelle di Opus 4.6. MiMo-V2-Pro è progettato per fungere da cervello dei sistemi di agenti, orchestrando flussi di lavoro complessi, guidando attività di ingegneria in produzione e fornendo risultati in modo affidabile.

Blog correlati

Come utilizzare l'API Doubao Seed 1.8? Una guida completa
Jan 12, 2026

Come utilizzare l'API Doubao Seed 1.8? Una guida completa

Doubao Seed 1.8 — parte della famiglia Doubao di ByteDance e della linea di ricerca Seed — sta attirando l'attenzione per essere stato progettato come un modello multimodale "agentic" con gestione di contesti molto ampi e supporto migliorato per strumenti e agenti.