Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Ввод:$0.2/M
Вывод:$1.6/M
Контекст:256k
Максимальный вывод:224k
Doubao-Seed-1.8 оптимизирован для мультимодальных сценариев работы агентов. В плане агентных возможностей существенно улучшены навыки использования инструментов и выполнения сложных команд. Что касается мультимодального понимания, значительно улучшены базовые визуальные возможности, что обеспечивает понимание чрезвычайно длинных видео при низкой частоте кадров. Также оптимизированы понимание движения на видео, понимание сложных пространственных отношений и возможности разбора структуры документов, а интеллектуальное управление контекстом теперь поддерживается нативно, что позволяет пользователям настраивать стратегии управления контекстом.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API

Технические характеристики API Seed 1.8

ПараметрСпецификация / примечание
Название модели / семействоDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Поддерживаемые модальностиТекст, изображения, видео (мультимодальные возможности VLM), инструменты для аудио в экосистеме (отдельные модели для генерации аудио/видео).
Окно контекста (текст)256K токенов
Видео / визуальные возможностиРазработана для рассуждений над длинными видео, поддерживает эффективное визуальное кодирование и большие бюджеты видеотокенов (в карточке модели представлены эксперименты с видеотокенами и бенчмарки по длинным видео).
Форматы вводаСвободные текстовые подсказки; загрузка изображений (скриншоты, диаграммы, фото); видео как токенизированные кадры / видеоинструменты для проверки сегментов; загрузка файлов (документы).
Форматы выводаТекст на естественном языке, структурированные ответы (structured-output beta), вызовы функций / инструментов, код и мультимодальные ответы через оркестрацию.
Режимы мышления/инференцииno_think, think-low, think-medium, think-high — компромисс между точностью и задержкой/стоимостью.

Что такое Doubao Seed 1.8?

Doubao Seed 1.8 — релиз команды Seed версии 1.8: единая LLM+VLM, которая явно ориентирована на обобщённую реальную агентность — то есть восприятие (изображения/видео), рассуждение, оркестрацию инструментов (поиск, вызовы функций, выполнение кода, привязка к GUI) и многошаговое принятие решений внутри одной модели. Конструкция подчёркивает настраиваемые «режимы мышления» (компромисс между задержкой и глубиной), эффективное визуальное кодирование и нативную поддержку длинного контекста и мультимодальных входов, чтобы модель могла работать как автономный помощник/агент в продуктивных рабочих процессах.

Основные возможности API Seed 1.8

  1. Единая мультимодальная агентная модель. Интегрирует восприятие (изображение/видео), рассуждение (LLM) и действие (вызовы инструментов/G U I, выполнение кода) в одной модели, а не в разделённом конвейере. Это позволяет создавать компактные агентные сценарии и снижать сложность оркестрации.
  2. Сверхдлинный контекст и обработка длинных видео. Длинный контекст (поддержка продукта до 256k токенов) и специализированные бенчмарки по длинным видео (Seed1.8 демонстрирует высокую эффективность по видеотокенам). Модель поддерживает выборочные видеоинструменты (VideoCut), чтобы фокусировать рассуждение на метках времени.
  3. Агентная автоматизация GUI и использование инструментов. Бенчмарки и внутренние тесты (OSWorld, AndroidWorld, LiveCodeBench, бенчмарки по GUI grounding) показывают улучшения в задачах GUI-агентов и многошаговой автоматизации. Модель может выдавать команды привязки к GUI и работать в смоделированных контекстах ОС/веб/мобильных сред.
  4. Настраиваемые режимы мышления для контроля задержки/стоимости. Четыре режима инференции позволяют разработчикам настраивать вычисления на этапе выполнения для интерактивных задач vs. высококачественных пакетных задач. Это полезно для продуктивных систем со строгими бюджетами по задержке.
  5. Улучшенная эффективность токенов (мультимодальная). Seed 1.8 демонстрирует лучшую эффективность использования токенов на мультимодальных бенчмарках по сравнению с предшественниками (серии Seed-1.5/1.6), достигая высокой точности при меньших бюджетах токенов в ряде задач по длинным видео.
  6. Настраиваемые режимы мышления: баланс глубины инференции vs задержка/стоимость с различными режимами (no_think → think-high) для настройки под интерактивные производственные сценарии.
  7. Технические возможности
  • Эффективность использования токенов: Seed1.8 демонстрирует заметную эффективность использования токенов по сравнению с предшественниками (Seed-1.5/1.6), обеспечивая более высокую точность при меньших бюджетах токенов в задачах по длинным видео (например, достигает конкурентной точности даже при 32K видеотокенов). Это позволяет снизить стоимость инференции для длинных входов.
  • Мультимодальное рассуждение и восприятие: модель достигает SOTA на ряде задач VQA с несколькими изображениями и задачах движения/восприятия и занимает второе место или близко к SOTA на многих мультимодальных бенчмарках; в частности, она превосходит предшественника почти по всем измеряемым визуальным/видеонаправлениям.
  • Агентное использование инструментов и привязка к GUI: документированная поддержка привязки к GUI и операций на экране (ScreenSpot-Pro, GUI agenting) с высокими показателями привязки (например, улучшения относительно Seed-1.5-VL на ScreenSpot-Pro).
  • Параллельное / пошаговое рассуждение: увеличение вычислений на этапе выполнения (parallel thinking) даёт измеримые улучшения на бенчмарках по математике, программированию и мультимодальному рассуждению.

Выдержки из публичных бенчмарков Seed1.8

  • VCRBench (visual commonsense reasoning): Seed1.8 получил 59.8 (Pass@1 указано в таблице карточки модели), улучшение относительно Seed-1.5-VL и конкурентный уровень с топ-моделями.
  • VideoHolmes (video reasoning): Seed1.8 65.5, превосходит Seed-1.5-VL и приближается к моделям профессионального уровня.
  • MMLB-NIAH (мультимодальный длинный контекст, 128k): Seed1.8 достиг 72.2 Pass@1 при контексте 128k в MMLB-NIAH, опережая некоторые современные профессиональные модели.
  • Motion & Perception suite: SOTA в 5 из 6 оценённых задач; примеры включают TVBench, TempCompass и TOMATO, где Seed1.8 демонстрирует существенный рост в временном восприятии.
  • Агентные рабочие процессы: на BrowseComp и других бенчмарках агентного поиска/кода Seed1.8 часто занимает позиции близко к или выше конкурирующих профессиональных моделей.

Seed 1.8 по сравнению с Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: явные улучшения в мультимодальном восприятии, эффективности токенов для длинных видео и агентном исполнении.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: на многих мультимодальных бенчмарках Seed1.8 соответствует или превосходит Gemini 3 Pro (SOTA на ряде задач VQA/движения; лучше на прогоне MMLB-NIAH 128k). Однако карточка также показывает области, где семейство Gemini сохраняет преимущества на отдельных дисциплинарных задачах — относительный порядок зависит от бенчмарка.
  • Вариант Seed-Code (Doubao-Seed-Code): специализирован для задач программирования/агентного кода (длинный контекст для кодовых баз; специализированные SWE-бенчмарки). Seed1.8 — универсальная агентная мультимодальная модель, тогда как Seed-Code — специализированный вариант для программирования.

Практические варианты использования API Seedream 4.5 на CometAPI

  • Мультимодальные исследовательские ассистенты и анализ документов: извлечение, суммирование и рассуждение по длинным документам, презентациям и многостраничным отчётам.
  • Понимание и мониторинг длинных видео: аналитика для безопасности/спортивных трансляций, суммирование длинных встреч и потоковый анализ, где важна эффективность работы с видеотокенами.
  • Агентные рабочие процессы / автоматизация: сценарии многошагового веб-поиска + выполнение кода + извлечение данных (например, автоматизированный конкурентный анализ, планирование поездок, исследовательские конвейеры, продемонстрированные на внутренних бенчмарках).
  • Инструменты для разработчиков (если используется Seed-Code): анализ больших кодовых баз, ассистенты для IDE и агентное выполнение кода для тестирования и исправления (Seed-Code — рекомендуемый специализированный вариант).
  • Автоматизация GUI и RPA: бенчмарки по привязке к экрану и задачам GUI-агента указывают, что модель выполняет структурированные GUI-задачи лучше, чем предыдущие релизы Seed.

Как использовать API doubao Seed 1.8 через CometAPI

Doubao seed1.8 сейчас коммерчески доступна через CometAPI как хостинговый API инференции. API поддерживает мультимодальные полезные нагрузки (текст + изображения + фрагменты видео / метки времени) и настраиваемые режимы инференции для балансировки задержки и вычислений относительно качества ответа.

Паттерны вызова: API поддерживает стандартные запросы в стиле чат/дополнение, потоковые ответы и агентные сценарии, где модель выдаёт вызовы инструментов (поиск, выполнение кода, действия в GUI) и потребляет результаты инструментов как последующий контекст.

Потоковая передача и работа с длинным контекстом: API поддерживает потоковую передачу и имеет встроенные примитивы управления контекстом для длинных сессий (возможность контекстов 100K+ / многошаговых агентных трасс).

Шаг 1: Зарегистрируйтесь, чтобы получить ключ API

Войдите на cometapi.com. Если вы ещё не наш пользователь, пожалуйста, зарегистрируйтесь. Войдите в вашу консоль CometAPI. Получите ключ доступа API интерфейса. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Flux.2 Flex API

Шаг 2: Отправляйте запросы к API doubao Seed 1.8

Выберите эндпоинт “doubao-seed-1-8-251228” для отправки запроса к API и задайте тело запроса. Метод запроса и тело запроса получены из нашей документации API на сайте. На нашем сайте также доступен тест в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта. Совместимо с APIs Chat.

Введите ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получение и проверка результатов

Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.

ЧАВО

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Функции для Doubao-Seed-1.8

Изучите ключевые функции Doubao-Seed-1.8, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для Doubao-Seed-1.8

Изучите конкурентоспособные цены на Doubao-Seed-1.8, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как Doubao-Seed-1.8 может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$0.2/M
Вывод:$1.6/M
Ввод:$0.25/M
Вывод:$2/M
-20%

Пример кода и API для Doubao-Seed-1.8

Doubao seed1.8 теперь коммерчески доступен через CometAPI как размещённый API инференса. API поддерживает мультимодальные входные данные (текст + изображения + видеофрагменты / временные метки) и конфигурируемые режимы инференса для выбора компромисса между задержкой/вычислительными затратами и качеством ответа.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Больше моделей