ModelosSoporteEmpresaBlog
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Recursos
Modelos de IABlogEmpresaRegistro de cambiosAcerca de
2025 CometAPI. Todos los derechos reservados.Política de PrivacidadTérminos de Servicio
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Entrada:$0.2/M
Salida:$1.6/M
Contexto:256k
Salida Máxima:224k
Doubao-Seed-1.8 は、マルチモーダルなエージェントシナリオ向けに最適化されています。エージェントの能力に関しては、ツールの活用と複雑なコマンドへの追従性が大幅に強化されています。マルチモーダル理解については、基本的な視覚能力が大幅に向上しており、極めて長い動画を低フレームレートで理解できるようになっています。さらに、動画の動きの理解、複雑な空間理解、文書構造の解析能力も最適化されており、インテリジェントなコンテキスト管理をネイティブにサポートしているため、ユーザーはコンテキスト戦略を設定できます。
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API

Especificaciones técnicas de la API Seed 1.8

ElementoEspecificación / nota
Nombre del modelo / familiaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalidades admitidasTexto, imágenes, video (capacidades VLM multimodales), herramientas de audio en el ecosistema (modelos separados para generación de audio/video).
Ventana de contexto (texto)256K tokens
Capacidad de video / visualDiseñado para el razonamiento sobre videos largos, admite codificación visual eficiente y grandes presupuestos de tokens de video (la tarjeta del modelo informa experimentos de tokens de video y benchmarks de videos largos).
Formatos de entradaPrompts de texto libre; cargas de imágenes (capturas de pantalla, gráficos, fotos); video como fotogramas tokenizados / herramientas de video para inspección de segmentos; cargas de archivos (documentos).
Formatos de salidaTexto en lenguaje natural, salidas estructuradas (structured-output beta), llamadas a funciones / llamadas a herramientas, código y salidas multimodales mediante orquestación.
Modos de pensamiento / inferenciano_think, think-low, think-medium, think-high — equilibrar precisión frente a latencia/costo.

¿Qué es Doubao Seed 1.8?

Doubao Seed 1.8 es la versión 1.8 del equipo Seed: un LLM+VLM unificado que apunta explícitamente a la agencia generalizada en el mundo real — es decir, percepción (imágenes/video), razonamiento, orquestación de herramientas (búsqueda, llamadas a funciones, ejecución de código, grounding de GUI) y toma de decisiones en múltiples pasos dentro de un único modelo. El diseño enfatiza los “modos de pensamiento” configurables (compromisos entre latencia y profundidad), la codificación visual eficiente y el soporte nativo para contexto largo y entradas multimodales, de modo que el modelo pueda operar como asistente/agente autónomo en flujos de trabajo de producción.

Principales características de la API Seed 1.8

  1. Modelo agentivo multimodal unificado. Integra percepción (imagen/video), razonamiento (LLM) y acción (llamadas a herramientas/G U I, ejecución de código) en un único modelo en lugar de un pipeline dividido. Esto permite flujos de trabajo de agentes más compactos y menor complejidad de orquestación.
  2. Contexto ultra largo y manejo de videos largos. Contexto largo (soporte del producto hasta 256k tokens) y benchmarks específicos de videos largos (Seed1.8 muestra gran eficiencia de tokens en videos largos). El modelo admite herramientas de video selectivas (VideoCut) para enfocar el razonamiento en marcas de tiempo.
  3. Automatización de GUI agentiva y uso de herramientas. Benchmarks y pruebas internas (OSWorld, AndroidWorld, LiveCodeBench, benchmarks de grounding de GUI) muestran mejoras en tareas de agentes de GUI y automatización de múltiples pasos. El modelo puede emitir comandos de grounding de GUI y operar en contextos simulados de SO/web/móvil.
  4. Modos de pensamiento configurables para controlar latencia/costo. Cuatro modos de inferencia permiten a los desarrolladores ajustar el cómputo en tiempo de prueba para tareas interactivas vs. lotes de alta calidad. Esto es útil para sistemas de producción con presupuestos de latencia estrictos.
  5. Eficiencia de tokens mejorada (multimodal). Seed 1.8 demuestra mayor eficiencia de tokens en benchmarks multimodales frente a sus predecesores (serie Seed-1.5/1.6), logrando alta precisión con presupuestos de tokens más pequeños en varias tareas de videos largos.
  6. Modos de pensamiento configurables: equilibrar profundidad de inferencia frente a latencia/costo con modos distintos (no_think → think-high) para ajustar el uso en producción interactiva.
  7. Capacidades técnicas
  • Eficiencia de tokens: Seed1.8 muestra una eficiencia de tokens notable frente a sus predecesores (Seed-1.5/1.6), ofreciendo mayor precisión con presupuestos de tokens más bajos en tareas de video largo (p. ej., logrando precisión competitiva incluso con 32K tokens de video). Esto permite un menor costo de inferencia para entradas largas.
  • Razonamiento y percepción multimodal: El modelo alcanza SOTA en varias tareas de VQA multi-imagen y de movimiento/percepción y obtiene segundo lugar o cerca de SOTA en muchos benchmarks de razonamiento multimodal; específicamente, supera a su predecesor en casi todas las dimensiones visuales/de video medidas.
  • Uso de herramientas agentivo y grounding de GUI: Soporte documentado para grounding de GUI y benchmarks de operación en pantalla (ScreenSpot-Pro, agenting de GUI) con puntajes de grounding sólidos (p. ej., mejoras sobre Seed-1.5-VL en ScreenSpot-Pro).
  • Razonamiento paralelo / escalonado: Incrementar el cómputo en tiempo de prueba (pensamiento paralelo) produce ganancias medibles en benchmarks de matemáticas, programación y razonamiento multimodal

Aspectos destacados de benchmarks públicos seleccionados de Seed1.8

  • VCRBench (razonamiento visual de sentido común): Seed1.8 obtuvo 59.8 (Pass@1 reportado en la tabla de la tarjeta del modelo), una mejora sobre Seed-1.5-VL y competitivo con modelos líderes.
  • VideoHolmes (razonamiento sobre video): Seed1.8 65.5, superando a Seed-1.5-VL y acercándose a modelos competidores de nivel pro.
  • MMLB-NIAH (multimodal de contexto largo, 128k): Seed1.8 alcanzó 72.2 Pass@1 en contexto 128k en MMLB-NIAH, superando a algunos modelos pro contemporáneos.
  • Suite de Movimiento y Percepción: SOTA en 5 de 6 tareas evaluadas; ejemplos incluyen TVBench, TempCompass y TOMATO, donde Seed1.8 muestra ganancias sustanciales en percepción temporal.
  • Flujos de trabajo agentivos: En BrowseComp y otros benchmarks agentivos de búsqueda/código, Seed1.8 a menudo se ubica cerca o por encima de modelos pro competidores

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Mejoras claras en percepción multimodal, eficiencia de tokens para videos largos y ejecución agentiva.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: En muchos benchmarks multimodales Seed1.8 iguala o supera a Gemini 3 Pro (SOTA en varias tareas de VQA/movimiento; mejor en la ejecución 128k de MMLB-NIAH). Sin embargo, la tarjeta también muestra áreas donde la familia Gemini mantiene ventajas en ciertas tareas de conocimiento disciplinario — por lo que el orden relativo depende del benchmark.
  • Variante Seed-Code (Doubao-Seed-Code): especializada para tareas de programación/agenting de código (contexto grande para bases de código; benchmarks SWE especializados). Seed1.8 es el modelo multimodal agentivo generalista, mientras que Seed-Code es la variante enfocada en programación.

Casos de uso prácticos con la API Seedream 4.5 en CometAPI

  • Asistentes de investigación multimodal y análisis de documentos: extraer, resumir y razonar sobre documentos largos, presentaciones y reportes de múltiples páginas.
  • Comprensión y monitoreo de videos largos: analítica de seguridad/deportes en difusión, resumen de reuniones largas y análisis en streaming donde la eficiencia de tokens para videos largos del modelo es relevante.
  • Flujos de trabajo agentivos / automatización: escenarios de búsqueda web en múltiples pasos + ejecución de código + extracción de datos (p. ej., análisis competitivo automatizado, planificación de viajes, pipelines de investigación demostrados en benchmarks internos).
  • Herramientas para desarrolladores (si usa Seed-Code): análisis de grandes bases de código, asistentes de IDE y ejecución agentiva de código para pruebas y reparación (Seed-Code es la variante especializada recomendada).
  • Automatización de GUI y RPA: los benchmarks de grounding de pantalla y de agentes de GUI indican que el modelo puede realizar tareas estructuradas de GUI mejor que lanzamientos anteriores de Seed.

Cómo usar doubao Seed 1.8 API a través de CometAPI

Doubao seed1.8 se expone comercialmente a través de CometAPI como una API de inferencia alojada. La API admite cargas multimodales (texto + imágenes + fragmentos de video / marcas de tiempo) y modos de inferencia configurables para equilibrar latencia y cómputo frente a la calidad de la respuesta.

Patrones de llamada: La API admite solicitudes de estilo chat/completion estándar, respuestas en streaming y flujos agentivos donde el modelo emite llamadas a herramientas (búsqueda, ejecución de código, acciones de GUI) e ingiere las salidas de las herramientas como contexto subsecuente.

Streaming y manejo de contexto largo: La API admite streaming y tiene primitivas de gestión de contexto integradas para sesiones largas (para habilitar contextos de 100K+ / trazas de agentes de múltiples pasos).

Paso 1: Regístrese para obtener la clave de API

Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su Consola de CometAPI. Obtenga la clave de acceso API key de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave del token: sk-xxxxx y envíe.

Paso 2: Envíe solicitudes a doubao Seed 1.8 API

Seleccione el endpoint “doubao-seed-1-8-251228 ” para enviar la solicitud a la API y establezca el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio web también proporciona prueba en Apifox para su conveniencia. Reemplace <YOUR_API_KEY> con su clave de CometAPI real de su cuenta. Compatibilidad con las Chat APIs.

Inserte su pregunta o solicitud en el campo content — esto es a lo que el modelo responderá . Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recuperar y verificar resultados

Procese la respuesta de la API para obtener la respuesta generada. Después de procesar, la API responde con el estado de la tarea y los datos de salida.

Preguntas Frecuentes

What variants exist of Seed 1.8 and when to use each?

Seed1.8 es el agente multimodal generalista. Las variantes relacionadas incluyen: Seed-Code / Doubao-Seed-Code: especializadas para contextos de código muy grandes (algunos SKU afirman contextos de 256K) y flujos de trabajo de programación. Seedance / Seedream: variantes especializadas en medios/generación (generación de video/imagen). Elige Seed-Code para tareas de IDE/base de código; elige Seed1.8 para tareas amplias de agente multimodal. Confirma las ventanas de contexto y las capacidades de las SKU en la documentación del producto.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 enfatiza la integración orientada a agentes (uso de herramientas, agentización de GUI, flujos de trabajo de múltiples pasos), un mejor manejo de contextos largos y una mejor percepción de videos largos/movimiento frente a los modelos Seed 1.x anteriores. Se posiciona como la actualización multimodal/de agente en la línea Seed.

What input/output modalities does Seed1.8 support?

Soporte multimodal nativo: texto + imágenes + video. Las salidas incluyen respuestas en lenguaje natural, salidas estructuradas (JSON/planes de acción), código y referencias a segmentos visuales/marcas de tiempo para flujos de trabajo basados en agentes. El modelo está explícitamente diseñado para percepción multimodal → razonamiento → acción.

What are the “thinking” or inference modes of Seed1.8?

Hay modos de “pensamiento” ajustables — diseñados para equilibrar latencia/cómputo vs. profundidad de razonamiento (útiles cuando debes equilibrar la interactividad frente a la calidad de la solución). Usa los modos para ajustar a UIs interactivas o para un razonamiento por lotes más profundo.

Características para Doubao-Seed-1.8

Explora las características clave de Doubao-Seed-1.8, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para Doubao-Seed-1.8

Explora precios competitivos para Doubao-Seed-1.8, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo Doubao-Seed-1.8 puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$0.2/M
Salida:$1.6/M
Entrada:$0.25/M
Salida:$2/M
-20%

Código de ejemplo y API para Doubao-Seed-1.8

Doubao seed1.8 ya está disponible comercialmente a través de CometAPI como una API de inferencia alojada. La API admite cargas multimodales (texto + imágenes + fragmentos de video / marcas de tiempo) y modos de inferencia configurables para equilibrar la latencia y el cómputo frente a la calidad de la respuesta.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Más modelos

A

Claude Opus 4.6

Entrada:$4/M
Salida:$20/M
Claude Opus 4.6 es el modelo de lenguaje grande de clase “Opus” de Anthropic, lanzado en febrero de 2026. Se posiciona como un caballo de batalla para el trabajo del conocimiento y los flujos de trabajo de investigación — mejorando el razonamiento en contextos extensos, la planificación en múltiples pasos, el uso de herramientas (incluidos flujos de trabajo de software basados en agentes) y tareas de uso de la computadora, como la generación automatizada de diapositivas y hojas de cálculo.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Salida:$12/M
Claude Sonnet 4.6 es nuestro modelo Sonnet más capaz hasta la fecha. Es una actualización completa de las capacidades del modelo en programación, uso de computadoras, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Sonnet 4.6 también ofrece una ventana de contexto de 1M de tokens en beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Salida:$1/M
GPT-5.4 nano está diseñado para tareas en las que la velocidad y el coste son primordiales, como la clasificación, la extracción de datos, la ordenación y los subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Salida:$3.6/M
GPT-5.4 mini aporta las fortalezas de GPT-5.4 a un modelo más rápido y eficiente, diseñado para cargas de trabajo de alto volumen.
A

Claude Mythos Preview

A

Claude Mythos Preview

Próximamente
Entrada:$60/M
Salida:$240/M
Claude Mythos Preview es nuestro modelo de frontera más capaz hasta la fecha y muestra un salto notable en las puntuaciones en muchos benchmarks de evaluación en comparación con nuestro anterior modelo de frontera, Claude Opus 4.6.
X

mimo-v2-pro

Entrada:$0.8/M
Salida:$2.4/M
MiMo-V2-Pro es el modelo fundacional insignia de Xiaomi, con más de 1T de parámetros totales y una longitud de contexto de 1M, profundamente optimizado para escenarios orientados a agentes. Es altamente adaptable a frameworks generales de agentes como OpenClaw. Se sitúa entre la élite mundial en los benchmarks estándar PinchBench y ClawBench, con un rendimiento percibido que se acerca al de Opus 4.6. MiMo-V2-Pro está diseñado para servir como el cerebro de los sistemas de agentes, orquestar flujos de trabajo complejos, impulsar tareas de ingeniería de producción y ofrecer resultados de manera fiable.

Blog relacionado

Cómo usar la API de Doubao Seed 1.8? Una guía completa
Jan 12, 2026

Cómo usar la API de Doubao Seed 1.8? Una guía completa

Doubao Seed 1.8 — que forma parte de la familia Doubao de ByteDance y de la línea de investigación Seed — está despertando interés por haber sido diseñado como un modelo multimodal “agentic” con manejo de contextos muy extensos y soporte mejorado para herramientas/agentes.