Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Wejście:$0.2/M
Wyjście:$1.6/M
Kontekst:256k
Maks. wyjście:224k
Doubao-Seed-1.8 zostało zoptymalizowane pod kątem scenariuszy agentów multimodalnych. W zakresie możliwości agenta znacząco usprawniono korzystanie z narzędzi oraz wykonywanie złożonych poleceń. W obszarze rozumienia multimodalnego wyraźnie poprawiono podstawowe możliwości wizualne, co umożliwia rozumienie bardzo długich materiałów wideo przy niskiej liczbie klatek na sekundę. Ulepszono także rozumienie ruchu w wideo, złożone rozumienie przestrzenne oraz możliwości analizy struktury dokumentów, a inteligentne zarządzanie kontekstem jest teraz natywnie obsługiwane, co pozwala użytkownikom konfigurować strategie kontekstowe.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API

Specyfikacja techniczna API Seed 1.8

PozycjaSpecyfikacja / uwagi
Nazwa modelu / rodzinaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Obsługiwane modalnościTekst, obrazy, wideo (multimodalne możliwości VLM), narzędzia audio w ekosystemie (oddzielne modele do generowania audio/wideo).
Okno kontekstu (tekst)256K tokens
Zdolności wideo / wizualneZaprojektowany do wnioskowania nad długimi materiałami wideo, obsługuje wydajne kodowanie wizualne i duże budżety tokenów wideo (karta modelu raportuje eksperymenty z tokenami wideo i benchmarki dla długich nagrań).
Formaty wejściowePrompty w formie dowolnego tekstu; przesyłanie obrazów (zrzuty ekranu, wykresy, zdjęcia); wideo jako ztokenizowane klatki / narzędzia wideo do inspekcji segmentów; przesyłanie plików (dokumenty).
Formaty wyjścioweTekst w języku naturalnym, wyniki strukturyzowane (structured-output beta), wywołania funkcji / narzędzi, kod oraz wyjścia multimodalne poprzez orkiestrację.
Tryby myślenia / wnioskowaniano_think, think-low, think-medium, think-high — kompromis między dokładnością a latencją/kosztem.

Czym jest Doubao Seed 1.8?

Doubao Seed 1.8 to wydanie zespołu Seed w wersji 1.8: ujednolicony LLM+VLM, który wprost ukierunkowano na uogólnioną sprawczość w świecie rzeczywistym — tj. percepcję (obrazy/wideo), wnioskowanie, orkiestrację narzędzi (wyszukiwanie, wywołania funkcji, wykonywanie kodu, GUI grounding) oraz wieloetapowe podejmowanie decyzji w jednym modelu. Projekt kładzie nacisk na konfigurowalne „tryby myślenia” (kompromisy między latencją a głębokością), wydajne kodowanie wizualne oraz natywne wsparcie dla długiego kontekstu i wejść multimodalnych, aby model mógł działać jako autonomiczny asystent/agent w środowiskach produkcyjnych.

Główne funkcje API Seed 1.8

  1. Ujednolicony multimodalny model agentowy. Integruje percepcję (obraz/wideo), wnioskowanie (LLM) i działanie (wywołania narzędzi/G U I, wykonywanie kodu) w jednym modelu zamiast rozdzielonego potoku. To umożliwia bardziej zwarte przepływy agentowe i mniejszą złożoność orkiestracji.
  2. Ultradługi kontekst i obsługa długich nagrań wideo. Długi kontekst (wsparcie produktowe do 256k tokenów) oraz specyficzne benchmarki długich wideo (Seed1.8 wykazuje wysoką efektywność tokenów wideo). Model obsługuje selektywne narzędzia wideo (VideoCut), aby skupić wnioskowanie na znacznikach czasu.
  3. Agentowa automatyzacja GUI i użycie narzędzi. Benchmarki i testy wewnętrzne (OSWorld, AndroidWorld, LiveCodeBench, benchmarki GUI grounding) pokazują poprawę w zadaniach agenta GUI i wieloetapowej automatyzacji. Model potrafi generować komendy GUI grounding i działać w symulowanych kontekstach OS/web/mobile.
  4. Konfigurowalne tryby myślenia do kontroli opóźnień/kosztów. Cztery tryby wnioskowania pozwalają programistom dostrajać obliczenia w czasie testów dla zadań interaktywnych vs. wysokiej jakości zadań wsadowych. Przydatne w systemach produkcyjnych ze ścisłymi budżetami opóźnień.
  5. Ulepszona efektywność wykorzystania tokenów (multimodalnie). Seed 1.8 wykazuje większą efektywność tokenową na benchmarkach multimodalnych względem poprzedników (serie Seed-1.5/1.6), osiągając wysoką dokładność przy mniejszych budżetach tokenów w kilku zadaniach na długich wideo.
  6. Konfigurowalne tryby myślenia: równoważ głębokość wnioskowania vs opóźnienie/koszt dzięki odrębnym trybom (no_think → think-high), aby dostroić pod potrzeby interaktywnego użycia produkcyjnego.
  7. Zdolności techniczne
  • Efektywność tokenowa: Seed1.8 wykazuje wyraźną poprawę efektywności wykorzystania tokenów względem poprzedników (Seed-1.5/1.6), dostarczając wyższą dokładność przy niższych budżetach tokenów w zadaniach na długich wideo (np. osiągając konkurencyjną dokładność nawet przy 32K tokenów wideo). To umożliwia niższy koszt inferencji dla długich wejść.
  • Multimodalne wnioskowanie i percepcja: model osiąga SOTA na kilku wieloobrazowych VQA i zadaniach ruchu/percepcji oraz zajmuje drugie miejsce lub wyniki bliskie SOTA na wielu benchmarkach multimodalnych; konkretnie przewyższa poprzednika niemal w każdym mierzonym wymiarze wizualnym/wideo.
  • Agentowe użycie narzędzi i GUI grounding: udokumentowane wsparcie dla GUI grounding i benchmarków działań ekranowych (ScreenSpot-Pro, GUI agenting) z wysokimi wynikami grounding (np. poprawa względem Seed-1.5-VL na ScreenSpot-Pro).
  • Równoległe / etapowe wnioskowanie: zwiększenie obliczeń w czasie testu (parallel thinking) daje mierzalne zyski na benchmarkach z matematyki, kodowania i multimodalnego wnioskowania

Wybrane publiczne wyróżniki benchmarków Seed1.8

  • VCRBench (wizualne rozumowanie zdroworozsądkowe): Seed1.8 uzyskał wynik 59.8 (Pass@1 raportowane w tabeli karty modelu), poprawa względem Seed-1.5-VL i konkurencyjność wobec czołowych modeli
  • VideoHolmes (wnioskowanie wideo): Seed1.8 65.5, przewyższa Seed-1.5-VL i zbliża się do konkurencyjnych modeli klasy pro.
  • MMLB-NIAH (multimodalny długi kontekst, 128k): Seed1.8 osiągnął 72.2 Pass@1 przy kontekście 128k, przewyższając niektóre współczesne modele pro.
  • Zestaw Motion & Perception: SOTA w 5 z 6 ocenianych zadań; przykłady obejmują TVBench, TempCompass i TOMATO, gdzie Seed1.8 wykazuje istotne zyski w percepcji temporalnej.
  • Przepływy agentowe: na BrowseComp i innych agentowych benchmarkach wyszukiwania/kodu Seed1.8 często plasuje się blisko lub powyżej konkurencyjnych modeli pro

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: wyraźne ulepszenia w multimodalnej percepcji, efektywności tokenowej dla długich wideo i wykonaniu agentowym.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: na wielu benchmarkach multimodalnych Seed1.8 dorównuje lub przewyższa Gemini 3 Pro (SOTA na kilku zadaniach VQA / ruchu; lepszy na przebiegu MMLB-NIAH 128k). Karta pokazuje jednak obszary, gdzie rodzina Gemini utrzymuje przewagę w wybranych zadaniach wiedzy dyscyplinarnej — zatem względna kolejność zależy od benchmarku.
  • Wariant Seed-Code (Doubao-Seed-Code): wyspecjalizowany do zadań programistycznych/agentowego kodu (duży kontekst dla baz kodu; specjalistyczne benchmarki SWE). Seed1.8 to ogólny multimodalny model agentowy, natomiast Seed-Code to wariant ukierunkowany na programowanie.

Praktyczne przypadki użycia przez Seedream 4.5 API na CometAPI

  • Multimodalni asystenci badawczy i analiza dokumentów: ekstrakcja, podsumowywanie i wnioskowanie w długich dokumentach, prezentacjach i wielostronicowych raportach.
  • Zrozumienie i monitoring długich nagrań wideo: analityka nadzoru/sportowa, podsumowywanie długich spotkań oraz analiza strumieniowa, gdzie liczy się efektywność tokenów wideo.
  • Przepływy agentowe / automatyzacja: wieloetapowe wyszukiwanie w sieci + wykonywanie kodu + ekstrakcja danych (np. zautomatyzowana analiza konkurencji, planowanie podróży, potoki badawcze pokazane w benchmarkach wewnętrznych).
  • Narzędzia dla deweloperów (w przypadku użycia Seed-Code): analiza dużych baz kodu, asystenci IDE i agentowe wykonywanie kodu do testów i napraw; Seed-Code to zalecany wyspecjalizowany wariant.
  • Automatyzacja GUI i RPA: benchmarki uziemienia ekranu i agentów GUI wskazują, że model lepiej wykonuje ustrukturyzowane zadania GUI niż wcześniejsze wydania Seed.

Jak używać doubao Seed 1.8 API przez CometAPI

Doubao seed1.8 jest obecnie udostępniany komercyjnie przez CometAPI jako hostowane API inferencyjne. API obsługuje ładunki multimodalne (tekst + obrazy + fragmenty wideo / znaczniki czasu) oraz konfigurowalne tryby wnioskowania, aby balansować opóźnienie i koszty obliczeń względem jakości odpowiedzi.

Wzorce wywołań: API obsługuje standardowe żądania w stylu chat/completion, odpowiedzi strumieniowe oraz agentowe przepływy, w których model wydaje wywołania narzędzi (wyszukiwanie, wykonywanie kodu, akcje GUI) i włącza wyniki narzędzi jako kolejny kontekst.

Strumieniowanie i obsługa długiego kontekstu: API obsługuje strumieniowanie i ma wbudowane prymitywy zarządzania kontekstem dla długich sesji (aby umożliwić konteksty 100K+ / wieloetapowe ślady agentów).

Krok 1: Zarejestruj się po klucz API

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojego CometAPI console. Uzyskaj klucz API do interfejsu. Kliknij „Add Token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.

Flux.2 Flex API

Krok 2: Wyślij żądania do doubao Seed 1.8 API

Wybierz endpoint „doubao-seed-1-8-251228”, aby wysłać żądanie do API i ustaw body żądania. Metodę żądania i body żądania znajdziesz w dokumentacji API na naszej stronie. Nasza strona udostępnia także test w Apifox dla Twojej wygody. Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta. Zgodne z interfejsami Chat.

Wpisz swoje pytanie lub prośbę w polu content — na to odpowie model. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Krok 3: Odbierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API zwraca status zadania i dane wyjściowe.

Najczęściej zadawane pytania

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Funkcje dla Doubao-Seed-1.8

Poznaj kluczowe funkcje Doubao-Seed-1.8, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla Doubao-Seed-1.8

Poznaj konkurencyjne ceny dla Doubao-Seed-1.8, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak Doubao-Seed-1.8 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$0.2/M
Wyjście:$1.6/M
Wejście:$0.25/M
Wyjście:$2/M
-20%

Przykładowy kod i API dla Doubao-Seed-1.8

Doubao seed1.8 jest obecnie komercyjnie udostępniany poprzez CometAPI jako hostowane API do inferencji. API obsługuje multimodalne dane wejściowe (tekst + obrazy + fragmenty wideo / znaczniki czasowe) oraz konfigurowalne tryby inferencji, umożliwiające równoważenie opóźnienia i nakładu obliczeniowego względem jakości odpowiedzi.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Więcej modeli