Especificaciones técnicas de la API Seed 1.8
| Elemento | Especificación / nota |
|---|---|
| Nombre del modelo / familia | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modalidades admitidas | Texto, imágenes, video (capacidades VLM multimodales), herramientas de audio en el ecosistema (modelos separados para generación de audio/video). |
| Ventana de contexto (texto) | 256K tokens |
| Capacidad de video / visual | Diseñado para el razonamiento sobre videos largos, admite codificación visual eficiente y grandes presupuestos de tokens de video (la tarjeta del modelo informa experimentos de tokens de video y benchmarks de videos largos). |
| Formatos de entrada | Prompts de texto libre; cargas de imágenes (capturas de pantalla, gráficos, fotos); video como fotogramas tokenizados / herramientas de video para inspección de segmentos; cargas de archivos (documentos). |
| Formatos de salida | Texto en lenguaje natural, salidas estructuradas (structured-output beta), llamadas a funciones / llamadas a herramientas, código y salidas multimodales mediante orquestación. |
| Modos de pensamiento / inferencia | no_think, think-low, think-medium, think-high — equilibrar precisión frente a latencia/costo. |
¿Qué es Doubao Seed 1.8?
Doubao Seed 1.8 es la versión 1.8 del equipo Seed: un LLM+VLM unificado que apunta explícitamente a la agencia generalizada en el mundo real — es decir, percepción (imágenes/video), razonamiento, orquestación de herramientas (búsqueda, llamadas a funciones, ejecución de código, grounding de GUI) y toma de decisiones en múltiples pasos dentro de un único modelo. El diseño enfatiza los “modos de pensamiento” configurables (compromisos entre latencia y profundidad), la codificación visual eficiente y el soporte nativo para contexto largo y entradas multimodales, de modo que el modelo pueda operar como asistente/agente autónomo en flujos de trabajo de producción.
Principales características de la API Seed 1.8
- Modelo agentivo multimodal unificado. Integra percepción (imagen/video), razonamiento (LLM) y acción (llamadas a herramientas/G U I, ejecución de código) en un único modelo en lugar de un pipeline dividido. Esto permite flujos de trabajo de agentes más compactos y menor complejidad de orquestación.
- Contexto ultra largo y manejo de videos largos. Contexto largo (soporte del producto hasta 256k tokens) y benchmarks específicos de videos largos (Seed1.8 muestra gran eficiencia de tokens en videos largos). El modelo admite herramientas de video selectivas (VideoCut) para enfocar el razonamiento en marcas de tiempo.
- Automatización de GUI agentiva y uso de herramientas. Benchmarks y pruebas internas (OSWorld, AndroidWorld, LiveCodeBench, benchmarks de grounding de GUI) muestran mejoras en tareas de agentes de GUI y automatización de múltiples pasos. El modelo puede emitir comandos de grounding de GUI y operar en contextos simulados de SO/web/móvil.
- Modos de pensamiento configurables para controlar latencia/costo. Cuatro modos de inferencia permiten a los desarrolladores ajustar el cómputo en tiempo de prueba para tareas interactivas vs. lotes de alta calidad. Esto es útil para sistemas de producción con presupuestos de latencia estrictos.
- Eficiencia de tokens mejorada (multimodal). Seed 1.8 demuestra mayor eficiencia de tokens en benchmarks multimodales frente a sus predecesores (serie Seed-1.5/1.6), logrando alta precisión con presupuestos de tokens más pequeños en varias tareas de videos largos.
- Modos de pensamiento configurables: equilibrar profundidad de inferencia frente a latencia/costo con modos distintos (
no_think→think-high) para ajustar el uso en producción interactiva. - Capacidades técnicas
- Eficiencia de tokens: Seed1.8 muestra una eficiencia de tokens notable frente a sus predecesores (Seed-1.5/1.6), ofreciendo mayor precisión con presupuestos de tokens más bajos en tareas de video largo (p. ej., logrando precisión competitiva incluso con 32K tokens de video). Esto permite un menor costo de inferencia para entradas largas.
- Razonamiento y percepción multimodal: El modelo alcanza SOTA en varias tareas de VQA multi-imagen y de movimiento/percepción y obtiene segundo lugar o cerca de SOTA en muchos benchmarks de razonamiento multimodal; específicamente, supera a su predecesor en casi todas las dimensiones visuales/de video medidas.
- Uso de herramientas agentivo y grounding de GUI: Soporte documentado para grounding de GUI y benchmarks de operación en pantalla (ScreenSpot-Pro, agenting de GUI) con puntajes de grounding sólidos (p. ej., mejoras sobre Seed-1.5-VL en ScreenSpot-Pro).
- Razonamiento paralelo / escalonado: Incrementar el cómputo en tiempo de prueba (pensamiento paralelo) produce ganancias medibles en benchmarks de matemáticas, programación y razonamiento multimodal
Aspectos destacados de benchmarks públicos seleccionados de Seed1.8
- VCRBench (razonamiento visual de sentido común): Seed1.8 obtuvo 59.8 (Pass@1 reportado en la tabla de la tarjeta del modelo), una mejora sobre Seed-1.5-VL y competitivo con modelos líderes.
- VideoHolmes (razonamiento sobre video): Seed1.8 65.5, superando a Seed-1.5-VL y acercándose a modelos competidores de nivel pro.
- MMLB-NIAH (multimodal de contexto largo, 128k): Seed1.8 alcanzó 72.2 Pass@1 en contexto 128k en MMLB-NIAH, superando a algunos modelos pro contemporáneos.
- Suite de Movimiento y Percepción: SOTA en 5 de 6 tareas evaluadas; ejemplos incluyen TVBench, TempCompass y TOMATO, donde Seed1.8 muestra ganancias sustanciales en percepción temporal.
- Flujos de trabajo agentivos: En BrowseComp y otros benchmarks agentivos de búsqueda/código, Seed1.8 a menudo se ubica cerca o por encima de modelos pro competidores
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Mejoras claras en percepción multimodal, eficiencia de tokens para videos largos y ejecución agentiva.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: En muchos benchmarks multimodales Seed1.8 iguala o supera a Gemini 3 Pro (SOTA en varias tareas de VQA/movimiento; mejor en la ejecución 128k de MMLB-NIAH). Sin embargo, la tarjeta también muestra áreas donde la familia Gemini mantiene ventajas en ciertas tareas de conocimiento disciplinario — por lo que el orden relativo depende del benchmark.
- Variante Seed-Code (Doubao-Seed-Code): especializada para tareas de programación/agenting de código (contexto grande para bases de código; benchmarks SWE especializados). Seed1.8 es el modelo multimodal agentivo generalista, mientras que Seed-Code es la variante enfocada en programación.
Casos de uso prácticos con la API Seedream 4.5 en CometAPI
- Asistentes de investigación multimodal y análisis de documentos: extraer, resumir y razonar sobre documentos largos, presentaciones y reportes de múltiples páginas.
- Comprensión y monitoreo de videos largos: analítica de seguridad/deportes en difusión, resumen de reuniones largas y análisis en streaming donde la eficiencia de tokens para videos largos del modelo es relevante.
- Flujos de trabajo agentivos / automatización: escenarios de búsqueda web en múltiples pasos + ejecución de código + extracción de datos (p. ej., análisis competitivo automatizado, planificación de viajes, pipelines de investigación demostrados en benchmarks internos).
- Herramientas para desarrolladores (si usa Seed-Code): análisis de grandes bases de código, asistentes de IDE y ejecución agentiva de código para pruebas y reparación (Seed-Code es la variante especializada recomendada).
- Automatización de GUI y RPA: los benchmarks de grounding de pantalla y de agentes de GUI indican que el modelo puede realizar tareas estructuradas de GUI mejor que lanzamientos anteriores de Seed.
Cómo usar doubao Seed 1.8 API a través de CometAPI
Doubao seed1.8 se expone comercialmente a través de CometAPI como una API de inferencia alojada. La API admite cargas multimodales (texto + imágenes + fragmentos de video / marcas de tiempo) y modos de inferencia configurables para equilibrar latencia y cómputo frente a la calidad de la respuesta.
Patrones de llamada: La API admite solicitudes de estilo chat/completion estándar, respuestas en streaming y flujos agentivos donde el modelo emite llamadas a herramientas (búsqueda, ejecución de código, acciones de GUI) e ingiere las salidas de las herramientas como contexto subsecuente.
Streaming y manejo de contexto largo: La API admite streaming y tiene primitivas de gestión de contexto integradas para sesiones largas (para habilitar contextos de 100K+ / trazas de agentes de múltiples pasos).
Paso 1: Regístrese para obtener la clave de API
Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su Consola de CometAPI. Obtenga la clave de acceso API key de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave del token: sk-xxxxx y envíe.
Paso 2: Envíe solicitudes a doubao Seed 1.8 API
Seleccione el endpoint “doubao-seed-1-8-251228 ” para enviar la solicitud a la API y establezca el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio web también proporciona prueba en Apifox para su conveniencia. Reemplace <YOUR_API_KEY> con su clave de CometAPI real de su cuenta. Compatibilidad con las Chat APIs.
Inserte su pregunta o solicitud en el campo content — esto es a lo que el modelo responderá . Procese la respuesta de la API para obtener la respuesta generada.
Paso 3: Recuperar y verificar resultados
Procese la respuesta de la API para obtener la respuesta generada. Después de procesar, la API responde con el estado de la tarea y los datos de salida.
