ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Wejście:$0.2/M
Wyjście:$1.6/M
Kontekst:256k
Maks. wyjście:224k
Doubao-Seed-1.8 zostało zoptymalizowane pod kątem scenariuszy agentów multimodalnych. W zakresie możliwości agenta znacząco usprawniono korzystanie z narzędzi oraz wykonywanie złożonych poleceń. W obszarze rozumienia multimodalnego wyraźnie poprawiono podstawowe możliwości wizualne, co umożliwia rozumienie bardzo długich materiałów wideo przy niskiej liczbie klatek na sekundę. Ulepszono także rozumienie ruchu w wideo, złożone rozumienie przestrzenne oraz możliwości analizy struktury dokumentów, a inteligentne zarządzanie kontekstem jest teraz natywnie obsługiwane, co pozwala użytkownikom konfigurować strategie kontekstowe.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API

Specyfikacje techniczne Seed 1.8 API

ElementSpecyfikacja / uwaga
Nazwa modelu / rodzinaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Obsługiwane modalnościTekst, obrazy, wideo (multimodalne możliwości VLM), narzędzia audio w ekosystemie (oddzielne modele do generowania audio/wideo).
Okno kontekstu (tekst)256K tokenów
Możliwości wideo/wizualneZaprojektowany do rozumowania nad długimi materiałami wideo, obsługuje wydajne kodowanie wizualne i duże budżety tokenów wideo (karta modelu raportuje testy tokenów wideo i benchmarki długowideo).
Formaty wejściowePrompty w formie wolnego tekstu; przesyłanie obrazów (zrzuty ekranu, wykresy, zdjęcia); wideo jako tokenizowane klatki / narzędzia wideo do inspekcji segmentów; przesyłanie plików (dokumenty).
Formaty wyjścioweTekst w języku naturalnym, wyjścia ustrukturyzowane (structured-output beta), wywołania funkcji/narzędzi, kod, oraz multimodalne wyjścia poprzez orkiestrację.
Tryby myślenia/wnioskowaniano_think, think-low, think-medium, think-high — kompromis między dokładnością a opóźnieniem/kosztem.

Czym jest Doubao Seed 1.8?

Doubao Seed 1.8 to wydanie zespołu Seed w wersji 1.8: zunifikowany LLM+VLM, który wprost celuje w uogólnioną sprawczość w świecie rzeczywistym — tj. percepcję (obrazy/wideo), rozumowanie, orkiestrację narzędzi (wyszukiwanie, wywołania funkcji, wykonywanie kodu, uziemianie GUI) i wieloetapowe podejmowanie decyzji w jednym modelu. Projekt kładzie nacisk na konfigurowalne „tryby myślenia” (kompromisy między latencją a głębokością), wydajne kodowanie wizualne i natywne wsparcie dla długiego kontekstu oraz multimodalnych wejść, aby model mógł działać jako autonomiczny asystent/agent w produkcyjnych przepływach pracy.

Główne funkcje Seed 1.8 API

  1. Zunifikowany multimodalny model agentowy. Integruje percepcję (obraz/wideo), rozumowanie (LLM) i działanie (wywołania narzędzi/G U I, wykonywanie kodu) w jednym modelu zamiast rozdzielonego potoku. Umożliwia to kompaktowe przepływy pracy agenta i niższą złożoność orkiestracji.
  2. Bardzo długi kontekst i obsługa długich wideo. Długi kontekst (wsparcie produktowe do 256k tokenów) i specyficzne benchmarki długowideo (Seed1.8 wykazuje wysoką efektywność tokenową dla długich wideo). Model obsługuje selektywne narzędzia wideo (VideoCut), aby skupić rozumowanie na znacznikach czasu.
  3. Agentowa automatyzacja GUI i użycie narzędzi. Benchmarki i testy wewnętrzne (OSWorld, AndroidWorld, LiveCodeBench, benchmarki uziemiania GUI) pokazują poprawę w zadaniach agenta GUI i automatyzacji wieloetapowej. Model potrafi generować polecenia uziemiania GUI i działać w symulowanych kontekstach systemu operacyjnego/webu/urządzeń mobilnych.
  4. Konfigurowalne tryby myślenia dla kontroli latencji/kosztów. Cztery tryby inferencji pozwalają programistom stroić obliczenia w czasie wykonania pod kątem zadań interaktywnych vs. wysokiej jakości zadań wsadowych. Jest to przydatne w systemach produkcyjnych z rygorystycznymi budżetami opóźnień.
  5. Ulepszona efektywność tokenowa (multimodalna). Seed 1.8 wykazuje większą efektywność tokenową w benchmarkach multimodalnych względem poprzedników (seria Seed-1.5/1.6), osiągając wysoką dokładność przy mniejszych budżetach tokenów w kilku zadaniach długowideo.
  6. Konfigurowalne tryby myślenia: równoważ głębokość wnioskowania vs. latencja/koszt dzięki odrębnym trybom (od no_think → think-high) dostosowanym do interaktywnego użycia produkcyjnego.
  7. Zdolności techniczne
  • Efektywność tokenowa: Seed1.8 wykazuje wyraźny wzrost efektywności tokenowej względem poprzedników (Seed-1.5/1.6), dostarczając wyższą dokładność przy niższych budżetach tokenów w zadaniach długowideo (np. osiągając konkurencyjną dokładność nawet przy 32K tokenów wideo). To umożliwia niższy koszt inferencji dla długich wejść.
  • Rozumowanie multimodalne i percepcja: Model osiąga SOTA w kilku zadaniach VQA na wielu obrazach i zadaniach ruchu/percepcji oraz zajmuje drugie miejsce lub blisko SOTA w wielu benchmarkach multimodalnego rozumowania; w szczególności przewyższa poprzednika niemal we wszystkich mierzonych wymiarach wizualnych/wideo.
  • Agentowe użycie narzędzi i uziemianie GUI: Udokumentowane wsparcie dla uziemiania GUI i benchmarków operacji ekranowych (ScreenSpot-Pro, agenting GUI) z wysokimi wynikami uziemiania (np. poprawy względem Seed-1.5-VL na ScreenSpot-Pro).
  • Równoległe/krokowe rozumowanie: Zwiększanie obliczeń w czasie testu (parallel thinking) przynosi wymierne korzyści w benchmarkach z matematyki, kodowania i multimodalnego rozumowania

Wybrane publiczne wyróżniki benchmarków Seed1.8

  • VCRBench (wizualne rozumowanie zdroworozsądkowe): Seed1.8 uzyskał 59.8 (Pass@1 raportowany w tabeli karty modelu), poprawę względem Seed-1.5-VL i wynik konkurencyjny wobec czołowych modeli
  • VideoHolmes (rozumowanie wideo): Seed1.8 65.5, przewyższając Seed-1.5-VL i zbliżając się do modeli klasy pro.
  • MMLB-NIAH (multimodalny długi kontekst, 128k): Seed1.8 osiągnął 72.2 Pass@1 przy kontekście 128k w MMLB-NIAH, przewyższając niektóre współczesne modele pro.
  • Motion & Perception suite: SOTA w 5 z 6 ocenianych zadań; przykłady to TVBench, TempCompass i TOMATO, gdzie Seed1.8 wykazuje znaczące zyski w percepcji temporalnej.
  • Agentowe przepływy pracy: Na BrowseComp i innych benchmarkach wyszukiwania/kodowania agentowego Seed1.8 często plasuje się na poziomie lub powyżej konkurencyjnych modeli pro

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Wyraźne ulepszenia w multimodalnej percepcji, efektywności tokenowej dla długich wideo oraz wykonaniu zadań agentowych.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: W wielu benchmarkach multimodalnych Seed1.8 dorównuje lub przewyższa Gemini 3 Pro (SOTA w kilku zadaniach VQA/ruchu; lepszy w MMLB-NIAH przy przebiegu 128k). Karta pokazuje jednak obszary, w których modele rodziny Gemini zachowują przewagę w niektórych dyscyplinarnych zadaniach wiedzy — zatem względna kolejność zależy od benchmarku.
  • Wariant Seed-Code (Doubao-Seed-Code): wyspecjalizowany do zadań programistycznych/agentowych w kodzie (duży kontekst dla baz kodu; wyspecjalizowane benchmarki SWE). Seed1.8 to ogólny multimodalny model agentowy, natomiast Seed-Code jest wariantem ukierunkowanym na programowanie.

Praktyczne przypadki użycia przez Seedream 4.5 API na CometAPI

  • Multimodalni asystenci badawczy i analiza dokumentów: ekstrakcja, podsumowywanie i rozumowanie na długich dokumentach, zestawach slajdów i wielostronicowych raportach.
  • Zrozumienie i monitorowanie długich wideo: analityka transmisji bezpieczeństwa/sportowych, podsumowania długich spotkań i analiza strumieniowa, gdzie liczy się efektywność tokenowa modelu dla długich wideo.
  • Agentowe przepływy pracy/automatyzacja: scenariusze wieloetapowego wyszukiwania w sieci + wykonywania kodu + ekstrakcji danych (np. zautomatyzowana analiza konkurencyjna, planowanie podróży, potoki badawcze zademonstrowane w benchmarkach wewnętrznych).
  • Narzędzia deweloperskie (w przypadku użycia Seed-Code): analiza dużych baz kodu, asystenci IDE oraz agentowe wykonywanie kodu do testowania i napraw (Seed-Code jest rekomendowanym wariantem specjalistycznym).
  • Automatyzacja GUI i RPA: benchmarki uziemiania ekranu i agenta GUI wskazują, że model wykonuje strukturalne zadania GUI lepiej niż wcześniejsze wydania Seed.

Jak korzystać z Doubao Seed 1.8 API przez CometAPI

Doubao seed1.8 jest komercyjnie udostępniony poprzez CometAPI jako hostowane API inferencyjne. API obsługuje multimodalne ładunki (tekst + obrazy + fragmenty wideo/znaczniki czasu) oraz konfigurowalne tryby inferencji, aby równoważyć latencję i obliczenia względem jakości odpowiedzi.

Wzorce wywołań: API obsługuje standardowe żądania w stylu czatu/uzupełniania, odpowiedzi strumieniowe oraz przepływy agentowe, w których model wydaje wywołania narzędzi (wyszukiwanie, wykonywanie kodu, akcje GUI) i włącza wyjścia narzędzi jako dalszy kontekst.

Strumieniowanie i obsługa długiego kontekstu: API obsługuje strumieniowanie i ma wbudowane prymitywy zarządzania kontekstem dla długich sesji (aby umożliwić konteksty 100K+ / wieloetapowe ślady agenta).

Krok 1: Zarejestruj klucz API

Zaloguj się do cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojej konsoli CometAPI. Uzyskaj klucz dostępu do interfejsu API. Kliknij “Add Token” przy tokenie API w centrum osobistym, uzyskaj klucz tokena: sk-xxxxx i zatwierdź.

Krok 2: Wyślij żądania do Doubao Seed 1.8 API

Wybierz punkt końcowy “doubao-seed-1-8-251228” do wysłania żądania API i ustaw body żądania. Metoda żądania i body żądania są dostępne w dokumentacji API na naszej stronie. Nasza strona udostępnia również test w Apifox dla Twojej wygody. Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta. Kompatybilność z interfejsami Chat.

Wstaw swoje pytanie lub prośbę w polu content — to jest to, na co model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Krok 3: Pobierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API odpowiada statusem zadania i danymi wyjściowymi.

Najczęściej zadawane pytania

What variants exist of Seed 1.8 and when to use each?

Seed1.8 to ogólny agent multimodalny. Powiązane warianty obejmują: Seed-Code / Doubao-Seed-Code: wyspecjalizowane do bardzo dużych kontekstów kodu (niektóre SKU deklarują konteksty 256K) i przepływów pracy związanych z programowaniem. Seedance / Seedream: warianty wyspecjalizowane w mediach/generowaniu (generowanie wideo/obrazów). Wybierz Seed-Code do zadań w IDE/z bazą kodu; wybierz Seed1.8 do szerokich zadań agenta multimodalnego. Potwierdź okna kontekstowe SKU i możliwości w dokumentacji produktu.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 kładzie nacisk na integrację agentową (użycie narzędzi, działanie jako agent GUI, wieloetapowe przepływy pracy), ulepszoną obsługę długiego kontekstu oraz lepszą percepcję długiego wideo/ruchu w porównaniu z wcześniejszymi modelami Seed 1.x. Jest pozycjonowany jako multimodalne/agentowe ulepszenie w linii Seed.

What input/output modalities does Seed1.8 support?

Natywna obsługa multimodalna: tekst + obrazy + wideo. Dane wyjściowe obejmują odpowiedzi w języku naturalnym, dane wyjściowe ustrukturyzowane (JSON/plany działań), kod oraz odwołania do segmentów wizualnych/znaczników czasu dla agentowych przepływów pracy. Model został wyraźnie zaprojektowany do multimodalnego ciągu percepcja → rozumowanie → działanie.

What are the “thinking” or inference modes of Seed1.8?

Istnieją dostrajane tryby „myślenia” — zaprojektowane tak, aby równoważyć opóźnienie/zużycie zasobów obliczeniowych z głębokością rozumowania (przydatne, gdy trzeba zrównoważyć interaktywność z jakością rozwiązania). Używaj tych trybów, aby dostroić model do interaktywnych interfejsów użytkownika lub głębszego rozumowania wsadowego.

Funkcje dla Doubao-Seed-1.8

Poznaj kluczowe funkcje Doubao-Seed-1.8, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla Doubao-Seed-1.8

Poznaj konkurencyjne ceny dla Doubao-Seed-1.8, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak Doubao-Seed-1.8 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$0.2/M
Wyjście:$1.6/M
Wejście:$0.25/M
Wyjście:$2/M
-20%

Przykładowy kod i API dla Doubao-Seed-1.8

Doubao seed1.8 jest teraz komercyjnie udostępniany za pośrednictwem CometAPI jako hostowane API inferencyjne. API obsługuje ładunki multimodalne (tekst + obrazy + fragmenty wideo / znaczniki czasu) oraz konfigurowalne tryby inferencji, aby umożliwić kompromis między opóźnieniem i zużyciem zasobów obliczeniowych a jakością odpowiedzi.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

Więcej modeli

A

Claude Opus 4.6

Wejście:$4/M
Wyjście:$20/M
Claude Opus 4.6 to duży model językowy firmy Anthropic klasy „Opus”, wydany w lutym 2026 r. Jest pozycjonowany jako podstawowe narzędzie wspierające pracę opartą na wiedzy oraz procesy badawcze — usprawnia rozumowanie w długim kontekście, planowanie wieloetapowe, korzystanie z narzędzi (w tym agentowe przepływy pracy oprogramowania) oraz zadania związane z obsługą komputera, takie jak automatyczne generowanie slajdów i arkuszy kalkulacyjnych.
A

Claude Sonnet 4.6

Wejście:$2.4/M
Wyjście:$12/M
Claude Sonnet 4.6 to nasz najbardziej zaawansowany model Sonnet do tej pory. To pełna aktualizacja umiejętności modelu, obejmująca programowanie, korzystanie z komputera, rozumowanie w długim kontekście, planowanie agentowe, pracę opartą na wiedzy oraz projektowanie. Sonnet 4.6 oferuje również okno kontekstu 1M tokenów w wersji beta.
O

GPT-5.4 nano

Wejście:$0.16/M
Wyjście:$1/M
GPT-5.4 nano został zaprojektowany z myślą o zadaniach, w których kluczowe są szybkość i koszt, takich jak klasyfikacja, ekstrakcja danych, ranking oraz sub-agenty.
O

GPT-5.4 mini

Wejście:$0.6/M
Wyjście:$3.6/M
GPT-5.4 mini przenosi zalety GPT-5.4 do szybszego i bardziej wydajnego modelu, zaprojektowanego z myślą o zadaniach o dużej skali.
A

Claude Mythos Preview

A

Claude Mythos Preview

Wkrótce
Wejście:$60/M
Wyjście:$240/M
Claude Mythos Preview to nasz najbardziej zaawansowany model najnowszej generacji jak dotąd i wykazuje imponujący skok wyników w wielu benchmarkach ewaluacyjnych w porównaniu z naszym poprzednim modelem najnowszej generacji, Claude Opus 4.6.
X

mimo-v2-pro

Wejście:$0.8/M
Wyjście:$2.4/M
MiMo-V2-Pro to flagowy model bazowy Xiaomi, mający ponad 1T parametrów łącznie i długość kontekstu 1M, głęboko zoptymalizowany pod scenariusze z agentami. Jest wysoce adaptowalny do ogólnych frameworków agentowych, takich jak OpenClaw. Należy do światowej czołówki w standardowych benchmarkach PinchBench i ClawBench, z postrzeganą wydajnością zbliżającą się do Opus 4.6. MiMo-V2-Pro został zaprojektowany, aby pełnić rolę mózgu systemów agentowych, orkiestrując złożone przepływy pracy, realizując zadania inżynierii produkcyjnej i niezawodnie dostarczając wyniki.

Powiązane blogi

Jak korzystać z Doubao Seed 1.8 API?  Kompleksowy przewodnik
Jan 12, 2026

Jak korzystać z Doubao Seed 1.8 API? Kompleksowy przewodnik

Doubao Seed 1.8 — należący do rodziny Doubao firmy ByteDance i linii badawczej Seed — zwraca uwagę, ponieważ został zaprojektowany jako „agentyczny” model multimodalny z obsługą bardzo długiego kontekstu i ulepszonym wsparciem dla narzędzi/agentów.