Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Giriş:$0.2/M
Çıktı:$1.6/M
Bağlam:256k
Maksimum Çıktı:224k
Doubao-Seed-1.8, çok modlu ajan senaryoları için optimize edilmiştir. Ajan yetenekleri açısından, araç kullanımı ve karmaşık komutlara uyum önemli ölçüde geliştirildi. Çok modlu anlama bakımından, temel görsel yetenekler önemli ölçüde geliştirildi; bu da son derece uzun videoların düşük kare hızında anlaşılmasını mümkün kılıyor. Video hareketini anlama, karmaşık mekânsal anlama ve belge yapısı ayrıştırma yetenekleri de optimize edildi ve akıllı bağlam yönetimi artık yerleşik olarak destekleniyor; bu da kullanıcıların bağlam stratejilerini yapılandırmasına olanak tanıyor.
Yeni
Ticari kullanım
Playground
Genel Bakış
Özellikler
Fiyatlandırma
API

Seed 1.8 API'nin teknik özellikleri

ItemÖzellik / not
Model name / familyDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalities supportedMetin, görseller, video (çok modlu VLM yetenekleri), ekosistemde ses araçları (ses/video üretimi için ayrı modeller).
Context window (text)256K token
Video / visual capacityUzun video akıl yürütmesi için tasarlanmıştır, verimli görsel kodlamayı ve büyük video token bütçelerini destekler (model kartı video token deneylerini ve uzun video kıyaslarını rapor eder).
Input formatsSerbest metin istemleri; görsel yüklemeleri (ekran görüntüleri, çizelgeler, fotoğraflar); bölüm incelemesi için tokenleştirilmiş kareler olarak video / video araçları; dosya yüklemeleri (belgeler).
Output formatsDoğal dil metni, yapılandırılmış çıktılar (structured-output beta), fonksiyon çağrıları / araç çağrıları, kod ve orkestrasyon yoluyla çok modlu çıktılar.
Thinking / inference modesno_think, think-low, think-medium, think-high — doğruluk ile gecikme/maliyet arasında denge kurar.

Doubao Seed 1.8 nedir?

Doubao Seed 1.8, Seed ekibinin 1.8 sürümüdür: tek bir model içinde algı (görseller/video), akıl yürütme, araç orkestrasyonu (arama, fonksiyon çağrıları, kod yürütme, GUI grounding) ve çok adımlı karar verme gibi yeteneklerle açıkça genelleştirilmiş gerçek dünya ajansını hedefleyen birleşik bir LLM+VLM. Tasarım, yapılandırılabilir “düşünme kipleri”ni (gecikme ile derinlik arasındaki ödünler), verimli görsel kodlamayı ve uzun bağlam ile çok modlu girdiler için yerel desteği vurgular; böylece model, üretim iş akışlarında otonom bir asistan/ajan olarak çalışabilir.

Seed 1.8 API'nin başlıca özellikleri

  1. Birleşik çok modlu ajan model. Ayrık bir hat yerine algı (görsel/video), akıl yürütme (LLM) ve eylemi (araç/G U I çağrıları, kod yürütme) tek bir modelde bütünleştirir. Bu, daha sade ajan iş akışlarını ve daha düşük orkestrasyon karmaşıklığını mümkün kılar.
  2. Ultra uzun bağlam ve uzun video işleme. Uzun bağlam (üründe 256k token desteği) ve belirli uzun video kıyasları (Seed1.8, uzun video token verimliliğinde güçlüdür). Model, akıl yürütmeyi zaman damgalarına odaklamak için seçici video araçlarını (VideoCut) destekler.
  3. Ajanik GUI otomasyonu ve araç kullanımı. Kıyaslar ve dahili testler (OSWorld, AndroidWorld, LiveCodeBench, GUI grounding kıyasları) GUI ajan görevlerinde ve çok adımlı otomasyonda iyileşmeler göstermektedir. Model, GUI grounding komutları çıktılayabilir ve simüle edilmiş işletim sistemi/web/mobil bağlamlarında çalışabilir.
  4. Gecikme/maliyet kontrolü için yapılandırılabilir düşünme kipleri. Dört çıkarım kipi, geliştiricilerin etkileşimli ile yüksek kaliteli toplu görevler arasında, test zamanında hesaplamayı ayarlamasını sağlar. Bu, sıkı gecikme bütçeleri olan üretim sistemleri için kullanışlıdır.
  5. Geliştirilmiş token verimliliği (çok modlu). Seed 1.8, seleflerine (Seed-1.5/1.6 serisi) kıyasla çok modlu kıyaslarda daha güçlü token verimliliği göstererek, birçok uzun video görevinde daha küçük token bütçeleriyle yüksek doğruluk elde eder.
  6. Yapılandırılabilir düşünme kipleri: çıkarım derinliği ile gecikme/maliyet arasında ödün vermek için farklı kipler (no_think → think-high), etkileşimli üretim kullanımı için ayarlama olanağı sunar.
  7. Teknik yetenekler
  • Token verimliliği: Seed1.8, seleflerine (Seed-1.5/1.6) göre belirgin token verimliliği göstererek uzun video görevlerinde daha düşük token bütçeleriyle daha güçlü doğruluk sunar (ör. 32K video token seviyesinde dahi rekabetçi doğruluk). Bu, uzun girdiler için daha düşük çıkarım maliyeti sağlar.
  • Çok modlu akıl yürütme ve algı: Model, çoklu görsel VQA ve hareket/algı görevlerinin bazılarında SOTA seviyesine ulaşır; çok modlu akıl yürütme kıyaslarının çoğunda ikinci sıraya veya SOTA’ya yakın olur; özellikle görsel/video boyutlarının neredeyse tamamında selefini geride bırakır.
  • Ajan araç kullanımı ve GUI grounding: Ekran tabanlı çalışma kıyasları (ScreenSpot-Pro, GUI agenting) için GUI grounding ve işletim desteği belgelenmiştir; güçlü grounding skorları elde edilir (ör. ScreenSpot-Pro’da Seed-1.5-VL’ye göre iyileşmeler).
  • Paralel / kademeli akıl yürütme: Test zamanında hesaplamanın artırılması (paralel düşünme), matematik, kodlama ve çok modlu akıl yürütme kıyaslarında ölçülebilir kazanımlar sağlar.

Seçili herkese açık kıyas öne çıkanları (Seed1.8)

  • VCRBench (görsel sağduyu akıl yürütmesi): Seed1.8, model kartı tablosunda bildirilen Pass@1’de 59.8 puan aldı; Seed-1.5-VL’ye göre iyileşme ve üst seviye modellere karşı rekabetçi.
  • VideoHolmes (video akıl yürütmesi): Seed1.8 65.5; Seed-1.5-VL’yi geride bırakır ve profesyonel rakip modellere yaklaşır.
  • MMLB-NIAH (çok modlu uzun bağlam, 128k): Seed1.8, 128k bağlamda 72.2 Pass@1 elde etti ve bazı çağdaş profesyonel modelleri geride bıraktı.
  • Hareket ve Algı paketi: Değerlendirilen 6 görevin 5’inde SOTA; örnekler arasında TVBench, TempCompass ve TOMATO bulunur; Seed1.8, zamansal algıda ciddi kazanımlar gösterir.
  • Ajan iş akışları: BrowseComp ve diğer ajanik arama/kod kıyaslarında Seed1.8 sıkça rakip profesyonel modellerin yakınında veya üzerinde sıralanır.

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Çok modlu algı, uzun videolar için token verimliliği ve ajanik yürütmede net iyileşmeler.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: Birçok çok modlu kıyasta Seed1.8, Gemini 3 Pro ile eşleşir veya onu aşar (bazı VQA / hareket görevlerinde SOTA; MMLB-NIAH 128k koşusunda daha iyi). Ancak kart, Gemini ailesi modellerinin belirli disiplin bilgisi görevlerinde avantajlarını koruduğu alanları da gösteriyor — yani göreli sıralama kıyasa bağlıdır.
  • Seed-Code varyantı (Doubao-Seed-Code): programlama/ajanik kod görevleri için özelleştirilmiştir (kod tabanları için büyük bağlam; uzmanlaşmış SWE kıyasları). Seed1.8 genelci ajanik çok modlu modeldir, Seed-Code ise programlamaya odaklı varyanttır.

CometAPI üzerindeki Seedream 4.5 API ile pratik kullanım örnekleri

  • Çok modlu araştırma asistanları ve doküman analizi: uzun belgeler, sunumlar ve çok sayfalı raporlar arasında çıkarım, özetleme ve akıl yürütme.
  • Uzun video anlama ve izleme: güvenlik/spor yayın analitiği, uzun toplantı özetleme ve akış analizi — modelin uzun video token verimliliğinin önemli olduğu yerler.
  • Ajan iş akışları / otomasyon: çok adımlı web araması + kod yürütme + veri çıkarımı senaryoları (ör. dahili kıyaslarda gösterilen otomatik rekabet analizi, seyahat planlama, araştırma hatları).
  • Geliştirici araçları (Seed-Code kullanılıyorsa): büyük kod tabanı analizi, IDE asistanları ve test/düzeltme için ajanik kod yürütme (özel varyant olarak Seed-Code önerilir).
  • GUI otomasyonu ve RPA: ekran grounding ve GUI ajan kıyasları, modelin önceki Seed sürümlerinden daha iyi yapılandırılmış GUI görevleri yapabildiğini gösterir.

CometAPI aracılığıyla doubao Seed 1.8 API nasıl kullanılır

Doubao seed1.8, CometAPI üzerinden barındırılan bir çıkarım API’si olarak ticari şekilde sunulmaktadır. API, çok modlu yükleri (metin + görseller + video parçaları / zaman damgaları) ve yanıt kalitesine karşı gecikme/hesaplamayı ayarlamak için yapılandırılabilir çıkarım kiplerini destekler.

Çağrı kalıpları: API, standart sohbet/tamamlama tarzı istekleri, akışlı yanıtları ve modelin araç çağrıları (arama, kod yürütme, GUI eylemleri) yaptığı ve araç çıktılarının sonraki bağlam olarak beslendiği ajanik akışları destekler.

Akış ve uzun bağlam yönetimi: API, akışlı yanıtları ve uzun oturumlar için yerleşik bağlam yönetimi ilkellerini destekler (100K+ bağlamlar / çok adımlı ajan izleri).

Adım 1: API Anahtarı için Kaydolun

cometapi.com adresine giriş yapın. Henüz kullanıcımız değilseniz lütfen önce kayıt olun. CometAPI console hesabınıza giriş yapın. Arayüzün erişim kimliği olan API anahtarını alın. Kişisel merkezdeki API token bölümünde “Add Token”a tıklayın, token anahtarını alın: sk-xxxxx ve gönderin.

Flux.2 Flex API

Adım 2: doubao Seed 1.8 API’ye istek gönderin

API isteğini göndermek için “doubao-seed-1-8-251228” uç noktasını seçin ve istek gövdesini ayarlayın. İstek yöntemi ve istek gövdesi web sitemizdeki API dokümanında bulunmaktadır. Ayrıca kolaylık için Apifox testi de sağlanır. Hesabınızdaki gerçek CometAPI anahtarınızla <YOUR_API_KEY> değerini değiştirin. Chat API’leriyle uyumludur.

Sorunuzu veya isteğinizi content alanına ekleyin — modelin yanıt vereceği şey budur. Üretilen yanıtı almak için API yanıtını işleyin.

Adım 3: Sonuçları Alın ve Doğrulayın

Üretilen yanıtı almak için API yanıtını işleyin. İşlemenin ardından API, görev durumunu ve çıktı verilerini döndürür.

SSS

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Doubao-Seed-1.8 için Özellikler

Doubao-Seed-1.8'in performansı ve kullanılabilirliği artırmak için tasarlanmış temel özelliklerini keşfedin. Bu yeteneklerin projelerinize nasıl fayda sağlayabileceğini ve kullanıcı deneyimini nasıl geliştirebileceğini öğrenin.

Doubao-Seed-1.8 için Fiyatlandırma

Doubao-Seed-1.8 için çeşitli bütçelere ve kullanım ihtiyaçlarına uygun rekabetçi fiyatlandırmayı keşfedin. Esnek planlarımız sadece kullandığınız kadar ödeme yapmanızı sağlar ve ihtiyaçlarınız büyüdükçe kolayca ölçeklendirme imkanı sunar. Doubao-Seed-1.8'in maliyetleri yönetilebilir tutarken projelerinizi nasıl geliştirebileceğini keşfedin.
Comet Fiyatı (USD / M Tokens)Resmi Fiyat (USD / M Tokens)İndirim
Giriş:$0.2/M
Çıktı:$1.6/M
Giriş:$0.25/M
Çıktı:$2/M
-20%

Doubao-Seed-1.8 için örnek kod ve API

Doubao seed1.8 artık CometAPI üzerinden barındırılan bir çıkarım API’si olarak ticari kullanıma açıldı. API, çok modlu yükleri (metin + görüntüler + video kesitleri/zaman damgaları) ve yanıt kalitesiyle gecikme ile hesaplama arasında ödünleşim yapmaya olanak tanıyan yapılandırılabilir çıkarım modlarını destekler.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Daha Fazla Model