ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Entrada:$0.2/M
Saída:$1.6/M
Contexto:256k
Saída Máxima:224k
Doubao-Seed-1.8 está otimizado para cenários de agentes multimodais. Quanto às capacidades de agente, o uso de ferramentas e a capacidade de seguir comandos complexos foram significativamente aprimorados. No que diz respeito à compreensão multimodal, as capacidades visuais básicas foram significativamente aprimoradas, permitindo a compreensão de vídeos extremamente longos mesmo em baixa taxa de quadros. As capacidades de compreensão de movimento em vídeo, de compreensão espacial complexa e de análise da estrutura de documentos também foram otimizadas, e o gerenciamento inteligente de contexto agora é suportado nativamente, permitindo que os usuários configurem estratégias de contexto.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas da API Seed 1.8

ItemEspecificação / observação
Nome do modelo / famíliaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalidades suportadasTexto, imagens, vídeo (capacidades VLM multimodais), ferramentas de áudio no ecossistema (modelos separados para geração de áudio/vídeo).
Janela de contexto (texto)256K tokens
Capacidade de vídeo/visualProjetado para raciocínio com vídeos longos, oferece codificação visual eficiente e grandes orçamentos de tokens de vídeo (o model card reporta experimentos e benchmarks).
Formatos de entradaPrompts em texto livre; upload de imagens (capturas de tela, gráficos, fotos); vídeo como frames tokenizados / ferramentas de vídeo para inspeção de segmentos; upload de arquivos (documentos).
Formatos de saídaTexto em linguagem natural, saídas estruturadas (structured-output beta), chamadas de função / chamadas de ferramenta, código e saídas multimodais via orquestração.
Modos de pensamento/inferênciano_think, think-low, think-medium, think-high — equilibram precisão vs latência/custo.

O que é Doubao Seed 1.8?

Doubao Seed 1.8 é a versão 1.8 da equipe Seed: um LLM+VLM unificado que tem como alvo explícito a agência generalizada no mundo real — ou seja, percepção (imagens/vídeo), raciocínio, orquestração de ferramentas (busca, chamadas de função, execução de código, grounding de GUI) e tomada de decisão em múltiplas etapas dentro de um único modelo. O design enfatiza “modos de pensamento” configuráveis (equilíbrios entre latência e profundidade), codificação visual eficiente e suporte nativo a contexto longo e entradas multimodais para que o modelo possa operar como um assistente/agente autônomo em fluxos de trabalho de produção.

Principais recursos da API Seed 1.8

  1. Modelo multimodal agentic unificado. Integra percepção (imagem/vídeo), raciocínio (LLM) e ação (chamadas de ferramenta/G U I, execução de código) em um único modelo em vez de um pipeline dividido. Isso possibilita fluxos de trabalho de agentes mais compactos e menor complexidade de orquestração.
  2. Contexto ultralongo e tratamento de vídeos longos. Contexto longo (suporte do produto até 256k tokens) e benchmarks específicos de vídeos longos (Seed1.8 mostra forte eficiência de tokens de vídeo). O modelo oferece ferramentas seletivas de vídeo (VideoCut) para focar o raciocínio em timestamps.
  3. Automação de GUI orientada a agentes e uso de ferramentas. Benchmarks e testes internos (OSWorld, AndroidWorld, LiveCodeBench, benchmarks de grounding de GUI) mostram melhorias em tarefas de agente de GUI e automação de múltiplas etapas. O modelo pode emitir comandos de grounding de GUI e operar em contextos simulados de SO/web/móvel.
  4. Modos de pensamento configuráveis para controle de latência/custo. Quatro modos de inferência permitem que desenvolvedores ajustem o compute em tempo de teste para tarefas interativas vs. lotes de alta qualidade. Isso é útil para sistemas de produção com orçamentos de latência estritos.
  5. Melhor eficiência de tokens (multimodal). Seed 1.8 demonstra maior eficiência de tokens em benchmarks multimodais em relação aos predecessores (Seed-1.5/1.6), alcançando alta precisão com orçamentos menores de tokens em diversas tarefas de vídeos longos.
  6. Modos de pensamento configuráveis: equilibre profundidade de inferência vs. latência/custo com modos distintos (no_think → think-high) para ajustar ao uso em produção interativa.
  7. Capacidades técnicas
  • Eficiência de tokens: Seed1.8 mostra eficiência de tokens marcante vs. predecessores (Seed-1.5/1.6), entregando maior precisão com menores orçamentos de tokens em tarefas de vídeos longos (por exemplo, alcançando precisão competitiva mesmo com 32K tokens de vídeo). Isso permite menor custo de inferência para entradas longas.
  • Raciocínio multimodal e percepção: O modelo atinge SOTA em diversas tarefas de VQA multi-imagem e de movimento/percepção e obtém segundo lugar ou próximo do SOTA em muitos benchmarks de raciocínio multimodal; especificamente, supera seu predecessor em quase todas as dimensões visuais/de vídeo medidas.
  • Uso de ferramentas por agentes e grounding de GUI: Suporte documentado para grounding de GUI e benchmarks de operação baseada em tela (ScreenSpot-Pro, agentes de GUI) com fortes pontuações de grounding (por exemplo, melhorias sobre Seed-1.5-VL no ScreenSpot-Pro).
  • Raciocínio paralelo / em etapas: Aumentar o compute em tempo de teste (pensamento paralelo) gera ganhos mensuráveis em benchmarks de matemática, programação e raciocínio multimodal

Destaques selecionados de benchmarks públicos do Seed1.8

  • VCRBench (raciocínio de bom senso visual): Seed1.8 obteve 59.8 (Pass@1 reportado na tabela do model card), uma melhoria sobre o Seed-1.5-VL e competitivo com modelos de topo
  • VideoHolmes (raciocínio em vídeo): Seed1.8 65.5, superando o Seed-1.5-VL e aproximando-se de modelos concorrentes de nível profissional.
  • MMLB-NIAH (multimodal de contexto longo, 128k): Seed1.8 alcançou 72.2 Pass@1 em 128k de contexto no MMLB-NIAH, superando alguns modelos profissionais contemporâneos.
  • Conjunto de Movimento e Percepção: SOTA em 5 de 6 tarefas avaliadas; exemplos incluem TVBench, TempCompass e TOMATO, onde o Seed1.8 mostra ganhos substanciais em percepção temporal.
  • Fluxos de trabalho orientados a agentes: Em BrowseComp e outros benchmarks de busca/código por agentes, Seed1.8 frequentemente fica próximo ou acima de modelos profissionais concorrentes

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Melhorias claras em percepção multimodal, eficiência de tokens para vídeos longos e execução orientada a agentes.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: Em muitos benchmarks multimodais, Seed1.8 iguala ou supera o Gemini 3 Pro (SOTA em várias tarefas de VQA / movimento; melhor no MMLB-NIAH 128k). No entanto, o card também mostra áreas em que a família Gemini mantém vantagens em certas tarefas de conhecimento disciplinar — assim, a ordenação relativa depende do benchmark.
  • Variante Seed-Code (Doubao-Seed-Code): especializada em tarefas de programação/orientadas a agentes (contexto amplo para bases de código; benchmarks SWE especializados). Seed1.8 é o modelo multimodal generalista orientado a agentes, enquanto Seed-Code é a variante focada em programação.

Casos de uso práticos pela Seedream 4.5 API no CometAPI

  • Assistentes de pesquisa multimodal e análise de documentos: extrair, resumir e raciocinar sobre documentos longos, apresentações e relatórios com várias páginas.
  • Compreensão e monitoramento de vídeos longos: análises de segurança/esportes transmitidos, sumarização de reuniões longas e análise de streaming onde a eficiência de tokens de vídeo do modelo é relevante.
  • Fluxos de trabalho orientados a agentes / automação: cenários de busca na web em múltiplas etapas + execução de código + extração de dados (por exemplo, análises competitivas automatizadas, planejamento de viagens, pipelines de pesquisa demonstrados em benchmarks internos).
  • Ferramentas para desenvolvedores (se usar Seed-Code): análise de grandes bases de código, assistentes de IDE e execução de código por agentes para testes e reparos (Seed-Code é a variante especializada recomendada).
  • Automação de GUI e RPA: benchmarks de grounding de tela e agentes de GUI indicam que o modelo pode executar tarefas estruturadas de GUI melhor do que as versões Seed anteriores.

Como usar a doubao Seed 1.8 API via CometAPI

Doubao seed1.8 é oferecida comercialmente por meio do CometAPI como uma API de inferência hospedada. A API suporta payloads multimodais (texto + imagens + fragmentos de vídeo / timestamps) e modos de inferência configuráveis para equilibrar latência e compute com a qualidade da resposta.

Padrões de chamada: A API suporta solicitações no estilo chat/completion, respostas em streaming e fluxos orientados a agentes em que o modelo emite chamadas de ferramentas (busca, execução de código, ações de GUI) e ingere as saídas das ferramentas como contexto subsequente.

Streaming e tratamento de contexto longo: A API suporta streaming e possui primitivas de gerenciamento de contexto integradas para sessões longas (para possibilitar contextos de 100K+ / rastros de agentes multi-etapas).

Etapa 1: Cadastre-se para obter a chave da API

Faça login em cometapi.com. Se ainda não for nosso usuário, registre-se primeiro. Acesse seu console do CometAPI. Obtenha a chave de acesso (API key) da interface. Clique em “Add Token” no token da API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a doubao Seed 1.8 API

Selecione o endpoint “doubao-seed-1-8-251228” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API no site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real do CometAPI da sua conta. Compatível com as APIs de Chat.

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

What variants exist of Seed 1.8 and when to use each?

O Seed1.8 é o agente multimodal generalista. Variantes relacionadas incluem: Seed-Code / Doubao-Seed-Code: especializado para contextos de código muito grandes (alguns SKUs declaram contexto de 256K) e fluxos de trabalho de programação. Seedance / Seedream: variantes especializadas em mídia/geração (geração de vídeo/imagem). Escolha Seed-Code para tarefas em IDE/base de código; escolha Seed1.8 para tarefas amplas de agente multimodal. Confirme as janelas de contexto e as capacidades do SKU na documentação do produto.

How does Seed1.8 differ from prior Seed versions?

O Seed1.8 enfatiza a integração orientada a agentes (uso de ferramentas, agenciamento em GUI, fluxos de trabalho em múltiplas etapas), o aprimoramento do tratamento de contextos longos e melhor percepção de vídeo longo/movimento em comparação com os modelos Seed 1.x anteriores. Ele é posicionado como a atualização multimodal/de agente na linha Seed.

What input/output modalities does Seed1.8 support?

Suporte multimodal nativo: texto + imagens + vídeo. As saídas incluem respostas em linguagem natural, saídas estruturadas (JSON/planos de ação), código e referências a segmentos visuais/carimbos de tempo para fluxos de trabalho orientados a agentes. O modelo é explicitamente projetado para percepção multimodal → raciocínio → ação.

What are the “thinking” or inference modes of Seed1.8?

Há modos de “pensamento” ajustáveis — projetados para equilibrar latência/recursos de computação vs. profundidade de raciocínio (úteis quando é preciso equilibrar interatividade vs. qualidade da solução). Use os modos para ajustar para UIs interativas ou para raciocínio em lote mais profundo.

Recursos para Doubao-Seed-1.8

Explore os principais recursos do Doubao-Seed-1.8, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Doubao-Seed-1.8

Explore preços competitivos para Doubao-Seed-1.8, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Doubao-Seed-1.8 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.2/M
Saída:$1.6/M
Entrada:$0.25/M
Saída:$2/M
-20%

Código de exemplo e API para Doubao-Seed-1.8

O Doubao seed1.8 agora está disponível comercialmente por meio da CometAPI como uma API de inferência hospedada. A API oferece suporte a cargas multimodais (texto + imagens + fragmentos de vídeo / marcas de tempo) e a modos de inferência configuráveis para equilibrar latência e custo computacional em relação à qualidade da resposta.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Mais modelos

A

Claude Opus 4.6

Entrada:$4/M
Saída:$20/M
Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Em breve
Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.
X

mimo-v2-pro

Entrada:$0.8/M
Saída:$2.4/M
MiMo-V2-Pro é o modelo fundacional carro-chefe da Xiaomi, com mais de 1T de parâmetros no total e um comprimento de contexto de 1M, profundamente otimizado para cenários agentivos. Ele é altamente adaptável a frameworks de agentes gerais como o OpenClaw. Ele figura entre a elite global nos benchmarks padrão PinchBench e ClawBench, com desempenho percebido que se aproxima ao de Opus 4.6. MiMo-V2-Pro foi projetado para servir como o cérebro de sistemas de agentes, orquestrando fluxos de trabalho complexos, impulsionando tarefas de engenharia em produção e entregando resultados de forma confiável.

Blogs relacionados

Como usar a Doubao Seed 1.8 API?  Um guia abrangente
Jan 12, 2026

Como usar a Doubao Seed 1.8 API? Um guia abrangente

Doubao Seed 1.8 — parte da família Doubao da ByteDance e da linha de pesquisa Seed — está atraindo atenção por ter sido projetado como um modelo multimodal “agentic”, com capacidade de lidar com contextos muito extensos e suporte aprimorado a ferramentas/agentes.