Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Entrada:$0.2/M
Saída:$1.6/M
Contexto:256k
Saída Máxima:224k
Doubao-Seed-1.8 está otimizado para cenários de agentes multimodais. Quanto às capacidades de agente, o uso de ferramentas e a capacidade de seguir comandos complexos foram significativamente aprimorados. No que diz respeito à compreensão multimodal, as capacidades visuais básicas foram significativamente aprimoradas, permitindo a compreensão de vídeos extremamente longos mesmo em baixa taxa de quadros. As capacidades de compreensão de movimento em vídeo, de compreensão espacial complexa e de análise da estrutura de documentos também foram otimizadas, e o gerenciamento inteligente de contexto agora é suportado nativamente, permitindo que os usuários configurem estratégias de contexto.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas da API Seed 1.8

ItemEspecificação / observação
Model name / familyDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalities supportedTexto, imagens, vídeo (capacidades multimodais VLM), ferramentas de áudio no ecossistema (modelos separados para geração de áudio/vídeo).
Context window (text)256K tokens
Video / visual capacityProjetado para raciocínio com vídeos longos, com codificação visual eficiente e orçamentos amplos de tokens de vídeo (o model card relata experimentos e benchmarks longos).
Input formatsPrompts em texto livre; uploads de imagem (capturas de tela, gráficos, fotos); vídeo como frames tokenizados / ferramentas de vídeo para inspeção de segmentos; uploads de arquivos (documentos).
Output formatsTexto em linguagem natural, saídas estruturadas (structured-output beta), function calls / tool calls, código e saídas multimodais via orquestração.
Thinking / inference modesno_think, think-low, think-medium, think-high — equilibrar precisão vs latência/custo.

O que é o Doubao Seed 1.8?

Doubao Seed 1.8 é a versão 1.8 da equipe Seed: um LLM+VLM unificado que visa explicitamente a agência generalizada no mundo real — ou seja, percepção (imagens/vídeo), raciocínio, orquestração de ferramentas (busca, chamadas de função, execução de código, GUI grounding) e tomada de decisão em múltiplas etapas dentro de um único modelo. O design enfatiza “modos de pensamento” configuráveis (compromissos entre latência e profundidade), codificação visual eficiente e suporte nativo para contexto longo e entradas multimodais para que o modelo possa operar como um assistente/agente autônomo em fluxos de trabalho de produção.

Principais recursos da API Seed 1.8

  1. Modelo agêntico multimodal unificado. Integra percepção (imagem/vídeo), raciocínio (LLM) e ação (tool/G U I calls, execução de código) em um único modelo em vez de um pipeline dividido. Isso possibilita fluxos de trabalho de agente compactos e menor complexidade de orquestração.
  2. Contexto ultralongo e tratamento de vídeos longos. Contexto longo (suporte de produto até 256k tokens) e benchmarks específicos de vídeos longos (Seed1.8 demonstra forte eficiência de tokens de vídeo). O modelo suporta ferramentas seletivas de vídeo (VideoCut) para concentrar o raciocínio em timestamps.
  3. Automação de GUI agêntica e uso de ferramentas. Benchmarks e testes internos (OSWorld, AndroidWorld, LiveCodeBench, benchmarks de GUI grounding) mostram melhorias em tarefas de agente de GUI e automação em múltiplas etapas. O modelo pode emitir comandos de GUI grounding e operar em contextos simulados de SO/web/mobile.
  4. Modos de pensamento configuráveis para controle de latência/custo. Quatro modos de inferência permitem aos desenvolvedores ajustar o compute em tempo de teste para tarefas interativas vs. lotes de alta qualidade. Útil para sistemas de produção com orçamentos estritos de latência.
  5. Eficiência de tokens aprimorada (multimodal). Seed 1.8 demonstra maior eficiência de tokens em benchmarks multimodais em comparação com predecessores (séries Seed-1.5/1.6), alcançando alta precisão com orçamentos menores de tokens em várias tarefas de vídeo longo.
  6. Modos de pensamento configuráveis: troque profundidade de inferência vs latência/custo com modos distintos (no_think → think-high) para ajuste fino em uso de produção interativo.
  7. Capacidades técnicas
  • Eficiência de tokens: Seed1.8 mostra eficiência de tokens acentuada vs predecessores (Seed-1.5/1.6), entregando maior precisão com menores orçamentos de tokens em tarefas de vídeo longo (por exemplo, precisão competitiva mesmo em 32K tokens de vídeo). Isso permite menor custo de inferência para entradas longas.
  • Raciocínio & percepção multimodal: O modelo atinge SOTA em vários VQA multi-imagem e tarefas de movimento/percepção e obtém segundo lugar ou próximo ao SOTA em muitos benchmarks de raciocínio multimodal; especificamente supera seu predecessor em praticamente todas as dimensões visuais/de vídeo medidas.
  • Uso de ferramentas agênticas & GUI grounding: Suporte documentado para GUI grounding e benchmarks de operação baseada em tela (ScreenSpot-Pro, GUI agenting) com pontuações robustas (por exemplo, melhorias sobre Seed-1.5-VL no ScreenSpot-Pro).
  • Raciocínio paralelo/em etapas: Aumentar o compute em tempo de teste (pensamento paralelo) gera ganhos mensuráveis em benchmarks de matemática, codificação e raciocínio multimodal

Destaques selecionados de benchmarks públicos do Seed1.8

  • VCRBench (raciocínio de senso comum visual): Seed1.8 obteve 59.8 (Pass@1 reportado na tabela do model card), uma melhoria sobre Seed-1.5-VL e competitivo com modelos de topo
  • VideoHolmes (raciocínio em vídeo): Seed1.8 65.5, superando o Seed-1.5-VL e se aproximando de modelos concorrentes de nível profissional.
  • MMLB-NIAH (multimodal, contexto longo, 128k): Seed1.8 alcançou 72.2 Pass@1 em 128k de contexto no MMLB-NIAH, superando alguns modelos profissionais contemporâneos.
  • Conjunto de Movimento & Percepção: SOTA em 5 de 6 tarefas avaliadas; exemplos incluem TVBench, TempCompass e TOMATO, onde o Seed1.8 apresenta ganhos substanciais em percepção temporal.
  • Fluxos de trabalho agênticos: Em BrowseComp e outros benchmarks de busca/código agênticos, Seed1.8 frequentemente fica próximo ou acima de modelos profissionais concorrentes

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Melhorias claras em percepção multimodal, eficiência de tokens para vídeos longos e execução agêntica.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: Em muitos benchmarks multimodais, Seed1.8 se iguala ou supera o Gemini 3 Pro (SOTA em várias tarefas de VQA/movimento; melhor no MMLB-NIAH com contexto 128k). Entretanto, o card também mostra áreas em que a família Gemini mantém vantagens em certas tarefas de conhecimento disciplinar — logo a ordem relativa depende do benchmark.
  • Variante Seed-Code (Doubao-Seed-Code): especializada para tarefas de programação/código agêntico (contexto grande para bases de código; benchmarks de SWE especializados). Seed1.8 é o modelo multimodal agêntico generalista, enquanto o Seed-Code é a variante focada em programação.

Casos de uso práticos pela Seedream 4.5 API no CometAPI

  • Assistentes de pesquisa multimodal & análise de documentos: extrair, resumir e raciocinar sobre documentos longos, apresentações e relatórios de múltiplas páginas.
  • Compreensão & monitoramento de vídeos longos: análises de segurança/esportes, sumarização de reuniões longas e análise de streaming onde a eficiência de tokens de vídeo do modelo é relevante.
  • Fluxos de trabalho agênticos / automação: cenários de múltiplas etapas de busca na web + execução de código + extração de dados (por exemplo, análise competitiva automatizada, planejamento de viagens, pipelines de pesquisa demonstrados em benchmarks internos).
  • Ferramentas para desenvolvedores (se usar Seed-Code): análise de grandes bases de código, assistentes de IDE e execução agêntica de código para testes & reparo (Seed-Code é a variante especializada recomendada).
  • Automação de GUI & RPA: benchmarks de grounding de tela e agentes de GUI indicam que o modelo pode executar tarefas estruturadas de GUI melhor do que versões anteriores do Seed.

Como usar a doubao Seed 1.8 API via CometAPI

Doubao seed1.8 é exposta comercialmente por meio da CometAPI como uma API de inferência hospedada. A API dá suporte a payloads multimodais (texto + imagens + fragmentos de vídeo / timestamps) e modos de inferência configuráveis para equilibrar latência e compute versus qualidade da resposta.

Padrões de chamada: A API suporta solicitações no estilo chat/completion padrão, respostas em streaming e fluxos agênticos em que o modelo emite tool calls (busca, execução de código, ações de GUI) e ingere saídas das ferramentas como contexto subsequente.

Streaming & tratamento de contexto longo: A API suporta streaming e possui primitivas de gerenciamento de contexto integradas para sessões longas (para habilitar contextos 100K+ / rastros de agente multi-etapas).

Passo 1: Cadastre-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Entre no seu CometAPI console. Obtenha a credencial de acesso (API key) da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Flux.2 Flex API

Passo 2: Envie solicitações para a doubao Seed 1.8 API

Selecione o endpoint “doubao-seed-1-8-251228 ” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação da API do nosso site. Nosso site também oferece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. Compatibilidade com as APIs de Chat.

Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Passo 3: Recupere e verifique os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Recursos para Doubao-Seed-1.8

Explore os principais recursos do Doubao-Seed-1.8, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Doubao-Seed-1.8

Explore preços competitivos para Doubao-Seed-1.8, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Doubao-Seed-1.8 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.2/M
Saída:$1.6/M
Entrada:$0.25/M
Saída:$2/M
-20%

Código de exemplo e API para Doubao-Seed-1.8

Doubao seed1.8 está atualmente disponível comercialmente por meio do CometAPI como uma API de inferência hospedada. A API suporta cargas úteis multimodais (texto + imagens + fragmentos de vídeo / marcas de tempo) e oferece modos de inferência configuráveis para equilibrar latência e recursos de computação com a qualidade da resposta.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Mais modelos