Spesifikasi teknis API Seed 1.8
| Item | Spesifikasi / catatan |
|---|---|
| Nama model / keluarga | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modalitas yang didukung | Teks, gambar, video (kapabilitas VLM multimodal), peralatan audio dalam ekosistem (model terpisah untuk generasi audio/video). |
| Jendela konteks (teks) | 256K tokens |
| Kapasitas video / visual | Dirancang untuk penalaran video panjang, mendukung pengodean visual yang efisien dan anggaran token video yang besar (kartu model melaporkan eksperimen token video dan tolok ukur video panjang). |
| Format input | Prompt teks bebas; unggahan gambar (tangkapan layar, bagan, foto); video sebagai frame yang ditokenisasi / tool video untuk inspeksi segmen; unggahan berkas (dokumen). |
| Format output | Teks bahasa alami, output terstruktur (structured-output beta), pemanggilan fungsi / alat, kode, dan output multimodal melalui orkestrasi. |
| Mode berpikir / inferensi | no_think, think-low, think-medium, think-high — menukar akurasi vs latensi/biaya. |
Apa itu Doubao Seed 1.8?
Doubao Seed 1.8 adalah rilis 1.8 dari tim Seed: sebuah LLM+VLM terpadu yang secara eksplisit menargetkan “agensi dunia nyata yang digeneralisasi” — yakni persepsi (gambar/video), penalaran, orkestrasi alat (pencarian, pemanggilan fungsi, eksekusi kode, grounding GUI) dan pengambilan keputusan multi-langkah di dalam satu model. Desainnya menekankan “mode berpikir” yang dapat dikonfigurasi (pertukaran antara latensi dan kedalaman), pengodean visual yang efisien, dan dukungan native untuk konteks panjang serta input multimodal agar model dapat beroperasi sebagai asisten/agen otonom dalam alur kerja produksi.
Fitur utama API Seed 1.8
- Model agenik multimodal terpadu. Mengintegrasikan persepsi (gambar/video), penalaran (LLM), dan aksi (pemanggilan alat/G U I, eksekusi kode) dalam satu model alih-alih pipeline terpisah. Ini memungkinkan alur kerja agen yang ringkas dan kompleksitas orkestrasi yang lebih rendah.
- Konteks ultra-panjang & penanganan video panjang. Konteks panjang (dukungan produk hingga 256k token) dan tolok ukur video panjang khusus (Seed1.8 menunjukkan efisiensi token video panjang yang kuat). Model mendukung tool video selektif (VideoCut) untuk memfokuskan penalaran pada cap waktu.
- Automasi GUI agenik & penggunaan alat. Tolok ukur dan pengujian internal (OSWorld, AndroidWorld, LiveCodeBench, tolok ukur grounding GUI) menunjukkan peningkatan pada tugas agen GUI dan otomasi multi-langkah. Model dapat menghasilkan perintah grounding GUI dan beroperasi dalam konteks OS/web/selar yang disimulasikan.
- Mode berpikir yang dapat dikonfigurasi untuk kontrol latensi/biaya. Empat mode inferensi memungkinkan developer menyetel komputasi saat uji untuk tugas interaktif vs. batch berkualitas tinggi. Ini berguna bagi sistem produksi dengan batasan latensi yang ketat.
- Efisiensi token yang ditingkatkan (multimodal). Seed 1.8 menunjukkan efisiensi token yang lebih kuat pada tolok ukur multimodal dibanding pendahulunya (seri Seed-1.5/1.6), mencapai akurasi tinggi dengan anggaran token yang lebih kecil pada sejumlah tugas video panjang.
- Mode berpikir yang dapat dikonfigurasi: menukar kedalaman inferensi vs latensi/biaya dengan mode yang berbeda (
no_think→think-high) untuk penyetelan penggunaan produksi yang interaktif. - Kemampuan teknis
- Efisiensi token: Seed1.8 menunjukkan efisiensi token yang nyata dibanding pendahulunya (Seed-1.5/1.6), menghadirkan akurasi lebih kuat pada anggaran token lebih rendah untuk tugas video panjang (mis. tetap kompetitif bahkan pada 32K token video). Ini memungkinkan biaya inferensi lebih rendah untuk input panjang.
- Penalaran & persepsi multimodal: Model mencapai SOTA pada beberapa tugas VQA multi-gambar dan tugas gerak/persepsi, serta meraih posisi kedua atau mendekati SOTA pada banyak tolok ukur penalaran multimodal; khususnya melampaui pendahulunya pada hampir setiap dimensi visual/video yang diukur.
- Penggunaan alat agenik & grounding GUI: Dukungan terdokumentasi untuk grounding GUI dan tolok ukur operasi berbasis layar (ScreenSpot-Pro, per-agengan GUI) dengan skor grounding yang kuat (mis. peningkatan atas Seed-1.5-VL pada ScreenSpot-Pro).
- Penalaran paralel/bertahap: Peningkatan komputasi saat uji (parallel thinking) menghasilkan kenaikan terukur pada tolok ukur matematika, pengodean, dan penalaran multimodal.
Sorotan benchmark publik terpilih dari Seed1.8
- VCRBench (visual commonsense reasoning): Seed1.8 meraih 59.8 (Pass@1 dilaporkan pada tabel kartu model), peningkatan atas Seed-1.5-VL dan kompetitif dengan model papan atas
- VideoHolmes (penalaran video): Seed1.8 65.5, melampaui Seed-1.5-VL dan mendekati model kompetitor kelas pro.
- MMLB-NIAH (multimodal konteks panjang, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k di MMLB-NIAH, melampaui beberapa model pro sezaman.
- Motion & Perception suite: SOTA pada 5 dari 6 tugas yang dievaluasi; contoh mencakup TVBench, TempCompass, dan TOMATO di mana Seed1.8 menunjukkan peningkatan signifikan dalam persepsi temporal.
- Alur kerja agenik: Pada BrowseComp dan tolok ukur penelusuran/kode agenik lain, Seed1.8 sering berada di dekat atau di atas model pro yang bersaing
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan jelas pada persepsi multimodal, efisiensi token untuk video panjang, dan eksekusi agenik.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak tolok ukur multimodal Seed1.8 menyamai atau melampaui Gemini 3 Pro (SOTA pada beberapa tugas VQA/gerak; lebih baik pada run MMLB-NIAH 128k). Namun, kartu juga menunjukkan area di mana keluarga Gemini mempertahankan keunggulan pada beberapa tugas pengetahuan disipliner — sehingga peringkat relatif bergantung pada benchmark.
- Varian Seed-Code (Doubao-Seed-Code): dibuat khusus untuk tugas pemrograman/tugas kode agenik (konteks besar untuk basis kode; tolok ukur SWE khusus). Seed1.8 adalah model agenik multimodal generalis, sementara Seed-Code adalah varian berfokus pemrograman.
Kasus penggunaan praktis oleh Seedream 4.5 API di CometAPI
- Asisten riset multimodal & analisis dokumen: ekstraksi, ringkasan, dan penalaran lintas dokumen panjang, deck slide, dan laporan multi-halaman.
- Pemahaman & pemantauan video panjang: analitik penyiaran keamanan/olahraga, peringkasan rapat panjang, dan analisis streaming di mana efisiensi token video panjang model penting.
- Alur kerja agenik / otomasi: skenario penelusuran web multi-langkah + eksekusi kode + ekstraksi data (mis., analisis kompetitif terotomasi, perencanaan perjalanan, pipeline riset yang didemokan dalam tolok ukur internal).
- Perkakas developer (jika menggunakan Seed-Code): analisis basis kode besar, asisten IDE, dan eksekusi kode agenik untuk pengujian & perbaikan (Seed-Code adalah varian khusus yang direkomendasikan).
- Automasi GUI & RPA: grounding layar dan tolok ukur agen GUI menunjukkan model dapat melakukan tugas GUI terstruktur dengan lebih baik dibanding rilis Seed sebelumnya.
Cara menggunakan doubao Seed 1.8 API melalui CometAPI
Doubao seed1.8 kini tersedia secara komersial melalui CometAPI sebagai API inferensi terkelola. API ini mendukung payload multimodal (teks + gambar + fragmen video / cap waktu) dan mode inferensi yang dapat dikonfigurasi untuk menukar latensi dan komputasi dengan kualitas jawaban.
Pola pemanggilan: API mendukung permintaan gaya chat/completion standar, respons streaming, dan alur agenik di mana model mengeluarkan pemanggilan alat (pencarian, eksekusi kode, aksi GUI) dan memasukkan keluaran alat sebagai konteks berikutnya.
Streaming & penanganan konteks panjang: API mendukung streaming dan memiliki primitif manajemen konteks bawaan untuk sesi panjang (untuk memungkinkan konteks 100K+ / jejak agen multi-langkah).
Langkah 1: Daftar untuk Kunci API
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke konsol CometAPI. Dapatkan kunci API kredensial akses antarmuka. Klik “Add Token” pada token API di pusat pribadi, dapatkan kunci token: sk-xxxxx dan kirimkan.

Langkah 2: Kirim Permintaan ke doubao Seed 1.8 API
Pilih endpoint “doubao-seed-1-8-251228 ” untuk mengirim permintaan API dan tetapkan body permintaan. Metode dan body permintaan diperoleh dari dokumen API di situs web kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. Kompatibel dengan API Chat.
Masukkan pertanyaan atau permintaan Anda ke kolom konten—ini yang akan direspons model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data keluaran.