Spesifikasi teknikal Seed 1.8 API
| Item | Spesifikasi / nota |
|---|---|
| Nama model / keluarga | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modaliti disokong | Teks, imej, video (keupayaan VLM multimodal), alatan audio dalam ekosistem (model berasingan untuk penjanaan audio/video). |
| Tetingkap konteks (teks) | 256K token |
| Keupayaan video / visual | Direka untuk penaakulan video panjang, menyokong pengekodan visual yang cekap dan bajet token video yang besar (kad model melaporkan eksperimen token video dan penanda aras video panjang). |
| Format input | Prompt teks bebas; muat naik imej (tangkapan skrin, carta, foto); video sebagai bingkai yang ditokenkan / alatan video untuk pemeriksaan segmen; muat naik fail (dokumen). |
| Format output | Teks bahasa semula jadi, output berstruktur (structured-output beta), panggilan fungsi / panggilan alat, kod, dan output multimodal melalui orkestrasi. |
| Mod pemikiran / inferens | no_think, think-low, think-medium, think-high — pertukaran ketepatan vs kependaman/kos. |
Apakah Doubao Seed 1.8?
Doubao Seed 1.8 ialah keluaran 1.8 pasukan Seed: LLM+VLM bersatu yang menyasarkan agensi dunia nyata yang digeneralisasi — iaitu, persepsi (imej/video), penaakulan, orkestrasi alat (carian, panggilan fungsi, pelaksanaan kod, GUI grounding) dan pembuatan keputusan berbilang langkah dalam satu model. Reka bentuk menekankan “mod pemikiran” boleh dikonfigurasi (pertukaran antara kependaman dan kedalaman), pengekodan visual yang cekap dan sokongan asli untuk konteks panjang dan input multimodal supaya model boleh beroperasi sebagai pembantu/ejen autonomi dalam aliran kerja produksi.
Ciri utama Seed 1.8 API
- Model ejen multimodal bersatu. Mengintegrasikan persepsi (imej/video), penaakulan (LLM), dan tindakan (panggilan alat/G U I, pelaksanaan kod) dalam satu model dan bukannya pipeline berpecah. Ini membolehkan aliran kerja ejen yang ringkas dan kerumitan orkestrasi yang lebih rendah.
- Konteks sangat panjang & pengendalian video panjang. Konteks panjang (sokongan produk hingga 256k token) dan penanda aras video panjang khusus (Seed1.8 menunjukkan kecekapan token video panjang yang kukuh). Model menyokong alatan video terpilih (VideoCut) untuk memfokus penaakulan pada cop masa.
- Automasi GUI berasaskan ejen & penggunaan alat. Penanda aras dan ujian dalaman (OSWorld, AndroidWorld, LiveCodeBench, penanda aras GUI grounding) menunjukkan penambahbaikan dalam tugasan ejen GUI dan automasi berbilang langkah. Model boleh mengeluarkan arahan GUI grounding dan beroperasi dalam konteks OS/web/mudah alih simulasi.
- Mod pemikiran boleh dikonfigurasi untuk kawalan kependaman/kos. Empat mod inferens membolehkan pembangun melaras compute pada masa ujian untuk tugasan interaktif vs batch berkualiti tinggi. Ini berguna bagi sistem produksi dengan bajet kependaman ketat.
- Kecekapan token dipertingkat (multimodal). Seed 1.8 menunjukkan kecekapan token yang lebih kuat pada penanda aras multimodal berbanding pendahulunya (siri Seed-1.5/1.6), mencapai ketepatan tinggi dengan bajet token yang lebih kecil dalam beberapa tugasan video panjang.
- Mod pemikiran boleh dikonfigurasi: pertukaran kedalaman inferens vs kependaman/kos dengan mod berbeza (
no_think→think-high) untuk penalaan bagi kegunaan produksi interaktif. - Keupayaan teknikal
- Kecekapan token: Seed1.8 menunjukkan kecekapan token ketara berbanding pendahulu (Seed-1.5/1.6), menyampaikan ketepatan lebih kuat pada bajet token lebih rendah untuk tugasan video panjang (cth., mencapai ketepatan berdaya saing walaupun pada 32K token video). Ini membolehkan kos inferens lebih rendah untuk input panjang.
- Penaakulan & persepsi multimodal: Model mencapai SOTA pada beberapa tugasan VQA multi-imej dan gerakan/persepsi dan memperoleh tempat kedua atau hampir SOTA pada banyak penanda aras penaakulan multimodal; khususnya ia mengatasi pendahulunya pada hampir setiap dimensi visual/video yang diukur.
- Penggunaan alat beragensi & GUI grounding: Sokongan didokumenkan untuk GUI grounding dan penanda aras operasi berasaskan skrin (ScreenSpot-Pro, GUI agenting) dengan skor grounding yang kukuh (cth., penambahbaikan berbanding Seed-1.5-VL pada ScreenSpot-Pro).
- Penaakulan selari / berperingkat: Meningkatkan compute masa ujian (pemikiran selari) menghasilkan peningkatan ketara pada penanda aras matematik, pengaturcaraan, dan penaakulan multimodal.
Sorotan penanda aras awam terpilih bagi Seed1.8
- VCRBench (penaakulan pengetahuan umum visual): Seed1.8 memperoleh 59.8 (Pass@1 dilaporkan dalam jadual kad model), peningkatan berbanding Seed-1.5-VL dan kompetitif dengan model teratas.
- VideoHolmes (penaakulan video): Seed1.8 65.5, mengatasi Seed-1.5-VL dan menghampiri model pesaing peringkat profesional.
- MMLB-NIAH (multimodal konteks panjang, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k dalam MMLB-NIAH, melepasi beberapa model pro kontemporari.
- Suite Gerakan & Persepsi: SOTA dalam 5 daripada 6 tugasan yang dinilai; contoh termasuk TVBench, TempCompass dan TOMATO di mana Seed1.8 menunjukkan peningkatan besar dalam persepsi temporal.
- Aliran kerja beragensi: Pada BrowseComp dan penanda aras carian/kod beragensi lain, Seed1.8 sering berada hampir atau melebihi model pro pesaing.
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan jelas dalam persepsi multimodal, kecekapan token untuk video panjang, dan pelaksanaan beragensi.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak penanda aras multimodal Seed1.8 menyamai atau mengatasi Gemini 3 Pro (SOTA pada beberapa tugasan VQA / gerakan; lebih baik pada larian MMLB-NIAH 128k). Walau bagaimanapun, kad juga menunjukkan bidang di mana keluarga model Gemini mengekalkan kelebihan pada tugasan pengetahuan disiplin tertentu — jadi susunan relatif bergantung pada penanda aras.
- Varian Seed-Code (Doubao-Seed-Code): Dioptimumkan untuk tugasan pengaturcaraan/kod beragensi (konteks besar untuk asas kod; penanda aras SWE khusus). Seed1.8 ialah model multimodal beragensi generalis, manakala Seed-Code ialah varian fokus pengaturcaraan.
Kes penggunaan praktikal oleh Seedream 4.5 API pada CometAPI
- Pembantu penyelidikan multimodal & analisis dokumen: ekstrak, ringkaskan, dan buat penaakulan merentas dokumen panjang, dek slaid, dan laporan berbilang halaman.
- Kefahaman & pemantauan video panjang: analitik penyiaran keselamatan/sukan, peringkasan mesyuarat panjang, dan analisis penstriman di mana kecekapan token video panjang model adalah penting.
- Aliran kerja beragensi / automasi: carian web berbilang langkah + pelaksanaan kod + senario pengekstrakan data (cth., analisis pesaing automatik, perancangan perjalanan, saluran penyelidikan yang ditunjukkan dalam penanda aras dalaman).
- Alatan pembangun (jika menggunakan Seed-Code): analisis asas kod besar, pembantu IDE, dan pelaksanaan kod beragensi untuk pengujian & pembaikan (Seed-Code ialah varian khusus yang disyorkan).
- Automasi GUI & RPA: penanda aras asas skrin dan ejen GUI menunjukkan model boleh melaksanakan tugasan GUI berstruktur dengan lebih baik berbanding keluaran Seed terdahulu.
Cara Menggunakan doubao Seed 1.8 API melalui CometAPI
Doubao seed1.8 didedahkan secara komersial melalui CometAPI sebagai API inferens dihoskan pada masa kini. API menyokong payload multimodal (teks + imej + serpihan video / cop masa) dan mod inferens boleh dikonfigurasi untuk menukar kependaman dan compute dengan kualiti jawapan.
Corak panggilan: API menyokong permintaan gaya chat/pelengkapan standard, respons penstriman, dan aliran beragensi di mana model mengeluarkan panggilan alat (carian, pelaksanaan kod, tindakan GUI) dan menyerap output alat sebagai konteks susulan.
Penstriman & pengendalian konteks panjang: API menyokong penstriman dan mempunyai primitif pengurusan konteks terbina dalam untuk sesi panjang (untuk membolehkan konteks 100K+ / jejak ejen berbilang langkah).
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI anda. Dapatkan kelayakan akses kunci API bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Langkah 2: Hantar Permintaan ke doubao Seed 1.8 API
Pilih endpoint “doubao-seed-1-8-251228” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda dari akaun anda. Keserasian dengan API Chat.
Masukkan soalan atau permintaan anda ke medan kandungan—ini yang akan dijawab oleh model. Proseskan respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Ambil dan Sahkan Keputusan
Proseskan respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API membalas dengan status tugas dan data output.