Spesifikasi teknis API Seed 1.8
| Item | Spesifikasi / catatan |
|---|---|
| Nama / keluarga model | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modalitas yang didukung | Teks, gambar, video (kemampuan VLM multimodal), tooling audio dalam ekosistem (model terpisah untuk generasi audio/video). |
| Jendela konteks (teks) | 256K token |
| Kapasitas video / visual | Dirancang untuk penalaran video panjang, mendukung encoding visual yang efisien dan anggaran token video yang besar (model card melaporkan eksperimen token video dan benchmark video panjang). |
| Format input | Prompt teks bebas; unggahan gambar (screenshot, grafik, foto); video sebagai frame yang ditokenisasi / tool video untuk inspeksi segmen; unggahan file (dokumen). |
| Format output | Teks bahasa alami, output terstruktur (structured-output beta), function calls / tool calls, kode, dan output multimodal melalui orkestrasi. |
| Mode thinking / inferensi | no_think, think-low, think-medium, think-high — menukar akurasi dengan latensi/biaya. |
Apa itu Doubao Seed 1.8?
Doubao Seed 1.8 adalah rilis 1.8 dari tim Seed: LLM+VLM terpadu yang secara eksplisit menargetkan generalized real-world agency — yaitu persepsi (gambar/video), penalaran, orkestrasi tool (pencarian, function calls, eksekusi kode, GUI grounding), dan pengambilan keputusan multi-langkah di dalam satu model. Desainnya menekankan “thinking modes” yang dapat dikonfigurasi (tradeoff antara latensi dan kedalaman), encoding visual yang efisien, serta dukungan native untuk konteks panjang dan input multimodal agar model dapat beroperasi sebagai asisten/agent otonom dalam workflow produksi.
Fitur utama API Seed 1.8
- Model agentik multimodal terpadu. Mengintegrasikan persepsi (gambar/video), penalaran (LLM), dan aksi (tool/G U I calls, eksekusi kode) dalam satu model alih-alih pipeline terpisah. Ini memungkinkan workflow agent yang lebih ringkas dan kompleksitas orkestrasi yang lebih rendah.
- Konteks ultra-panjang & penanganan video panjang. Konteks panjang (dukungan produk hingga 256k token) dan benchmark khusus video panjang (Seed1.8 menunjukkan efisiensi token video panjang yang kuat). Model mendukung tool video selektif (VideoCut) untuk memfokuskan penalaran pada timestamp.
- Otomasi GUI agentik & penggunaan tool. Benchmark dan pengujian internal (OSWorld, AndroidWorld, LiveCodeBench, benchmark GUI grounding) menunjukkan peningkatan pada tugas GUI agent dan otomasi multi-langkah. Model dapat menghasilkan perintah GUI grounding dan beroperasi dalam konteks OS/web/mobile yang disimulasikan.
- Thinking modes yang dapat dikonfigurasi untuk kontrol latensi/biaya. Empat mode inferensi memungkinkan developer menyesuaikan compute saat test-time untuk tugas interaktif vs. batch berkualitas tinggi. Ini berguna untuk sistem produksi dengan anggaran latensi yang ketat.
- Peningkatan efisiensi token (multimodal). Seed 1.8 menunjukkan efisiensi token yang lebih kuat pada benchmark multimodal dibanding pendahulunya (seri Seed-1.5/1.6), mencapai akurasi tinggi dengan anggaran token yang lebih kecil dalam beberapa tugas video panjang.
- Thinking modes yang dapat dikonfigurasi: menukar kedalaman inferensi dengan latensi/biaya melalui mode yang berbeda (
no_think→think-high) untuk penyesuaian penggunaan produksi interaktif. - Kemampuan teknis
- Efisiensi token: Seed1.8 menunjukkan efisiensi token yang jelas dibanding pendahulunya (Seed-1.5/1.6), memberikan akurasi yang lebih kuat pada anggaran token yang lebih rendah untuk tugas video panjang (misalnya, mencapai akurasi kompetitif bahkan pada 32K token video). Ini memungkinkan biaya inferensi yang lebih rendah untuk input panjang.
- Penalaran & persepsi multimodal: Model ini mencapai SOTA pada beberapa tugas VQA multi-gambar dan motion/perception, serta meraih posisi kedua atau mendekati SOTA pada banyak benchmark penalaran multimodal; secara khusus model ini mengungguli pendahulunya pada hampir setiap dimensi visual/video yang diukur.
- Penggunaan tool agentik & GUI grounding: Dukungan terdokumentasi untuk GUI grounding dan benchmark operasi berbasis layar (ScreenSpot-Pro, GUI agenting) dengan skor grounding yang kuat (misalnya, peningkatan dibanding Seed-1.5-VL pada ScreenSpot-Pro).
- Penalaran paralel / bertahap: Peningkatan compute saat test-time (parallel thinking) menghasilkan peningkatan terukur pada benchmark matematika, coding, dan penalaran multimodal
Sorotan benchmark publik terpilih dari Seed1.8
- VCRBench (visual commonsense reasoning): Seed1.8 mencetak skor 59.8 (Pass@1 dilaporkan dalam tabel model card), meningkat dibanding Seed-1.5-VL dan kompetitif dengan model papan atas
- VideoHolmes (video reasoning): Seed1.8 65.5, mengungguli Seed-1.5-VL dan mendekati model kompetitor kelas pro.
- MMLB-NIAH (multimodal long-context, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k di MMLB-NIAH, melampaui beberapa model pro kontemporer.
- Motion & Perception suite: SOTA pada 5 dari 6 tugas yang dievaluasi; contohnya termasuk TVBench, TempCompass, dan TOMATO di mana Seed1.8 menunjukkan peningkatan substansial dalam persepsi temporal.
- Workflow agentik: Pada BrowseComp dan benchmark pencarian/kode agentik lainnya, Seed1.8 sering berada di peringkat mendekati atau di atas model pro pesaing
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan yang jelas dalam persepsi multimodal, efisiensi token untuk video panjang, dan eksekusi agentik.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak benchmark multimodal, Seed1.8 menyamai atau melampaui Gemini 3 Pro (SOTA pada beberapa tugas VQA / motion; lebih baik pada run MMLB-NIAH 128k). Namun, kartu tersebut juga menunjukkan area di mana keluarga model Gemini masih unggul pada tugas pengetahuan disipliner tertentu — sehingga urutan relatifnya bergantung pada benchmark.
- Varian Seed-Code (Doubao-Seed-Code): dikhususkan untuk tugas pemrograman/kode agentik (konteks besar untuk codebase; benchmark SWE khusus). Seed1.8 adalah model multimodal agentik generalis, sedangkan Seed-Code adalah varian yang berfokus pada pemrograman.
Use case praktis oleh API Seedream 4.5 di CometAPI
- Asisten riset multimodal & analisis dokumen: mengekstrak, merangkum, dan bernalar di berbagai dokumen panjang, slide deck, dan laporan multi-halaman.
- Pemahaman & pemantauan video panjang: analitik keamanan/siaran olahraga, peringkasan rapat panjang, dan analisis streaming di mana efisiensi token video panjang model menjadi penting.
- Workflow agentik / otomasi: skenario pencarian web multi-langkah + eksekusi kode + ekstraksi data (misalnya, analisis kompetitif otomatis, perencanaan perjalanan, pipeline riset yang didemonstrasikan dalam benchmark internal).
- Tooling developer (jika menggunakan Seed-Code): analisis codebase besar, asisten IDE, dan eksekusi kode agentik untuk pengujian & perbaikan (Seed-Code adalah varian khusus yang direkomendasikan).
- Otomasi GUI & RPA: benchmark screen grounding dan GUI agent menunjukkan model dapat melakukan tugas GUI terstruktur dengan lebih baik daripada rilis Seed sebelumnya.
Cara Menggunakan API doubao Seed 1.8 melalui CometAPI
Doubao seed1.8 kini tersedia secara komersial melalui CometAPI sebagai hosted inference API. API ini mendukung payload multimodal (teks + gambar + fragmen video / timestamp) serta mode inferensi yang dapat dikonfigurasi untuk menukar latensi dan compute dengan kualitas jawaban.
Pola pemanggilan: API mendukung request bergaya chat/completion standar, streaming response, dan alur agentik di mana model mengeluarkan tool calls (pencarian, eksekusi kode, aksi GUI) dan menyerap output tool sebagai konteks berikutnya.
Streaming & penanganan konteks panjang: API mendukung streaming dan memiliki primitive manajemen konteks bawaan untuk sesi panjang (agar memungkinkan konteks 100K+ / jejak agent multi-langkah).
Langkah 1: Daftar untuk Mendapatkan API Key
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console Anda. Dapatkan kredensial akses API key dari antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu submit.
Langkah 2: Kirim Request ke API doubao Seed 1.8
Pilih endpoint “doubao-seed-1-8-251228 ” untuk mengirim request API dan atur request body. Metode request dan request body diperoleh dari dokumentasi API di website kami. Website kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan CometAPI key aktual dari akun Anda. Kompatibel dengan API Chat.
Masukkan pertanyaan atau permintaan Anda ke dalam field content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data output.
