What variants exist of Seed 1.8 and when to use each?

Seed1.8 adalah agen multimodal generalis. Varian terkait meliputi: Seed-Code / Doubao-Seed-Code: dikhususkan untuk konteks kode yang sangat besar (beberapa SKU mengklaim konteks 256K) dan alur kerja pemrograman. Seedance / Seedream: varian yang dikhususkan untuk media/generasi (pembuatan video/gambar). Pilih Seed-Code untuk tugas IDE/codebase; pilih Seed1.8 untuk tugas agen multimodal yang luas. Konfirmasikan jendela konteks SKU dan kapabilitasnya dalam dokumentasi produk.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 menekankan integrasi agentik (penggunaan alat, pengagenan GUI, alur kerja multi-langkah), penanganan konteks panjang yang lebih baik, serta persepsi video panjang/gerakan yang lebih baik dibanding model Seed 1.x sebelumnya. Model ini diposisikan sebagai peningkatan multimodal/agen dalam lini Seed.

What input/output modalities does Seed1.8 support?

Dukungan multimodal native: teks + gambar + video. Output mencakup jawaban bahasa alami, output terstruktur (JSON/rencana aksi), kode, dan referensi ke segmen visual/cap waktu untuk alur kerja agentik. Model ini secara eksplisit dirancang untuk persepsi multimodal → penalaran → tindakan.

What are the “thinking” or inference modes of Seed1.8?

Ada mode “thinking” yang dapat disesuaikan — dirancang untuk menyeimbangkan latensi/komputasi vs. kedalaman penalaran (berguna saat Anda harus menyeimbangkan interaktivitas vs. kualitas solusi). Gunakan mode tersebut untuk menyesuaikan UI interaktif atau penalaran batch yang lebih mendalam.

API Doubao-Seed-1.8 Terjangkau | text-to-text

Spesifikasi teknis API Seed 1.8

Item	Spesifikasi / catatan
Nama / keluarga model	Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modalitas yang didukung	Teks, gambar, video (kemampuan VLM multimodal), tooling audio dalam ekosistem (model terpisah untuk generasi audio/video).
Jendela konteks (teks)	256K token
Kapasitas video / visual	Dirancang untuk penalaran video panjang, mendukung encoding visual yang efisien dan anggaran token video yang besar (model card melaporkan eksperimen token video dan benchmark video panjang).
Format input	Prompt teks bebas; unggahan gambar (screenshot, grafik, foto); video sebagai frame yang ditokenisasi / tool video untuk inspeksi segmen; unggahan file (dokumen).
Format output	Teks bahasa alami, output terstruktur (structured-output beta), function calls / tool calls, kode, dan output multimodal melalui orkestrasi.
Mode thinking / inferensi	no_think, think-low, think-medium, think-high — menukar akurasi dengan latensi/biaya.

Apa itu Doubao Seed 1.8?

Doubao Seed 1.8 adalah rilis 1.8 dari tim Seed: LLM+VLM terpadu yang secara eksplisit menargetkan generalized real-world agency — yaitu persepsi (gambar/video), penalaran, orkestrasi tool (pencarian, function calls, eksekusi kode, GUI grounding), dan pengambilan keputusan multi-langkah di dalam satu model. Desainnya menekankan “thinking modes” yang dapat dikonfigurasi (tradeoff antara latensi dan kedalaman), encoding visual yang efisien, serta dukungan native untuk konteks panjang dan input multimodal agar model dapat beroperasi sebagai asisten/agent otonom dalam workflow produksi.

Fitur utama API Seed 1.8

Model agentik multimodal terpadu. Mengintegrasikan persepsi (gambar/video), penalaran (LLM), dan aksi (tool/G U I calls, eksekusi kode) dalam satu model alih-alih pipeline terpisah. Ini memungkinkan workflow agent yang lebih ringkas dan kompleksitas orkestrasi yang lebih rendah.
Konteks ultra-panjang & penanganan video panjang. Konteks panjang (dukungan produk hingga 256k token) dan benchmark khusus video panjang (Seed1.8 menunjukkan efisiensi token video panjang yang kuat). Model mendukung tool video selektif (VideoCut) untuk memfokuskan penalaran pada timestamp.
Otomasi GUI agentik & penggunaan tool. Benchmark dan pengujian internal (OSWorld, AndroidWorld, LiveCodeBench, benchmark GUI grounding) menunjukkan peningkatan pada tugas GUI agent dan otomasi multi-langkah. Model dapat menghasilkan perintah GUI grounding dan beroperasi dalam konteks OS/web/mobile yang disimulasikan.
Thinking modes yang dapat dikonfigurasi untuk kontrol latensi/biaya. Empat mode inferensi memungkinkan developer menyesuaikan compute saat test-time untuk tugas interaktif vs. batch berkualitas tinggi. Ini berguna untuk sistem produksi dengan anggaran latensi yang ketat.
Peningkatan efisiensi token (multimodal). Seed 1.8 menunjukkan efisiensi token yang lebih kuat pada benchmark multimodal dibanding pendahulunya (seri Seed-1.5/1.6), mencapai akurasi tinggi dengan anggaran token yang lebih kecil dalam beberapa tugas video panjang.
Thinking modes yang dapat dikonfigurasi: menukar kedalaman inferensi dengan latensi/biaya melalui mode yang berbeda (no_think → think-high) untuk penyesuaian penggunaan produksi interaktif.
Kemampuan teknis

Efisiensi token: Seed1.8 menunjukkan efisiensi token yang jelas dibanding pendahulunya (Seed-1.5/1.6), memberikan akurasi yang lebih kuat pada anggaran token yang lebih rendah untuk tugas video panjang (misalnya, mencapai akurasi kompetitif bahkan pada 32K token video). Ini memungkinkan biaya inferensi yang lebih rendah untuk input panjang.
Penalaran & persepsi multimodal: Model ini mencapai SOTA pada beberapa tugas VQA multi-gambar dan motion/perception, serta meraih posisi kedua atau mendekati SOTA pada banyak benchmark penalaran multimodal; secara khusus model ini mengungguli pendahulunya pada hampir setiap dimensi visual/video yang diukur.
Penggunaan tool agentik & GUI grounding: Dukungan terdokumentasi untuk GUI grounding dan benchmark operasi berbasis layar (ScreenSpot-Pro, GUI agenting) dengan skor grounding yang kuat (misalnya, peningkatan dibanding Seed-1.5-VL pada ScreenSpot-Pro).
Penalaran paralel / bertahap: Peningkatan compute saat test-time (parallel thinking) menghasilkan peningkatan terukur pada benchmark matematika, coding, dan penalaran multimodal

Sorotan benchmark publik terpilih dari Seed1.8

VCRBench (visual commonsense reasoning): Seed1.8 mencetak skor 59.8 (Pass@1 dilaporkan dalam tabel model card), meningkat dibanding Seed-1.5-VL dan kompetitif dengan model papan atas
VideoHolmes (video reasoning): Seed1.8 65.5, mengungguli Seed-1.5-VL dan mendekati model kompetitor kelas pro.
MMLB-NIAH (multimodal long-context, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k di MMLB-NIAH, melampaui beberapa model pro kontemporer.
Motion & Perception suite: SOTA pada 5 dari 6 tugas yang dievaluasi; contohnya termasuk TVBench, TempCompass, dan TOMATO di mana Seed1.8 menunjukkan peningkatan substansial dalam persepsi temporal.
Workflow agentik: Pada BrowseComp dan benchmark pencarian/kode agentik lainnya, Seed1.8 sering berada di peringkat mendekati atau di atas model pro pesaing

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan yang jelas dalam persepsi multimodal, efisiensi token untuk video panjang, dan eksekusi agentik.
Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak benchmark multimodal, Seed1.8 menyamai atau melampaui Gemini 3 Pro (SOTA pada beberapa tugas VQA / motion; lebih baik pada run MMLB-NIAH 128k). Namun, kartu tersebut juga menunjukkan area di mana keluarga model Gemini masih unggul pada tugas pengetahuan disipliner tertentu — sehingga urutan relatifnya bergantung pada benchmark.
Varian Seed-Code (Doubao-Seed-Code): dikhususkan untuk tugas pemrograman/kode agentik (konteks besar untuk codebase; benchmark SWE khusus). Seed1.8 adalah model multimodal agentik generalis, sedangkan Seed-Code adalah varian yang berfokus pada pemrograman.

Use case praktis oleh API Seedream 4.5 di CometAPI

Asisten riset multimodal & analisis dokumen: mengekstrak, merangkum, dan bernalar di berbagai dokumen panjang, slide deck, dan laporan multi-halaman.
Pemahaman & pemantauan video panjang: analitik keamanan/siaran olahraga, peringkasan rapat panjang, dan analisis streaming di mana efisiensi token video panjang model menjadi penting.
Workflow agentik / otomasi: skenario pencarian web multi-langkah + eksekusi kode + ekstraksi data (misalnya, analisis kompetitif otomatis, perencanaan perjalanan, pipeline riset yang didemonstrasikan dalam benchmark internal).
Tooling developer (jika menggunakan Seed-Code): analisis codebase besar, asisten IDE, dan eksekusi kode agentik untuk pengujian & perbaikan (Seed-Code adalah varian khusus yang direkomendasikan).
Otomasi GUI & RPA: benchmark screen grounding dan GUI agent menunjukkan model dapat melakukan tugas GUI terstruktur dengan lebih baik daripada rilis Seed sebelumnya.

Cara Menggunakan API doubao Seed 1.8 melalui CometAPI

Doubao seed1.8 kini tersedia secara komersial melalui CometAPI sebagai hosted inference API. API ini mendukung payload multimodal (teks + gambar + fragmen video / timestamp) serta mode inferensi yang dapat dikonfigurasi untuk menukar latensi dan compute dengan kualitas jawaban.

Pola pemanggilan: API mendukung request bergaya chat/completion standar, streaming response, dan alur agentik di mana model mengeluarkan tool calls (pencarian, eksekusi kode, aksi GUI) dan menyerap output tool sebagai konteks berikutnya.

Streaming & penanganan konteks panjang: API mendukung streaming dan memiliki primitive manajemen konteks bawaan untuk sesi panjang (agar memungkinkan konteks 100K+ / jejak agent multi-langkah).

Langkah 1: Daftar untuk Mendapatkan API Key

Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console Anda. Dapatkan kredensial akses API key dari antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu submit.

Langkah 2: Kirim Request ke API doubao Seed 1.8

Pilih endpoint “doubao-seed-1-8-251228 ” untuk mengirim request API dan atur request body. Metode request dan request body diperoleh dari dokumentasi API di website kami. Website kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan CometAPI key aktual dari akun Anda. Kompatibel dengan API Chat.

Masukkan pertanyaan atau permintaan Anda ke dalam field content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Langkah 3: Ambil dan Verifikasi Hasil

Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data output.

Doubao-Seed-1.8