Spesifikasi teknikal bagi Seed 1.8 API
| Perkara | Spesifikasi / nota |
|---|---|
| Nama model / keluarga | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| Modaliti yang disokong | Teks, imej, video (keupayaan VLM multimodal), alatan audio dalam ekosistem (model berasingan untuk penjanaan audio/video). |
| Tetingkap konteks (teks) | 256K tokens |
| Kebolehan video / visual | Direka untuk penaakulan video panjang, menyokong pengekodan visual yang cekap dan bajet token video yang besar (kad model melaporkan eksperimen token video dan penanda aras video panjang). |
| Format input | Prompt teks bebas; muat naik imej (tangkapan skrin, carta, foto); video sebagai bingkai ditokenkan / alatan video untuk pemeriksaan segmen; muat naik fail (dokumen). |
| Format output | Teks bahasa semula jadi, output berstruktur (structured-output beta), panggilan fungsi / panggilan alat, kod, dan output multimodal melalui pengorkestran. |
| Mod pemikiran / inferens | no_think, think-low, think-medium, think-high — mengimbangi ketepatan berbanding latensi/kos. |
Apakah Doubao Seed 1.8?
Doubao Seed 1.8 ialah keluaran 1.8 pasukan Seed: LLM+VLM bersatu yang menyasarkan secara eksplisit agensi dunia sebenar yang digeneralisasi — iaitu persepsi (imej/video), penaakulan, pengorkestran alat (carian, panggilan fungsi, pelaksanaan kod, GUI grounding) dan pembuatan keputusan berbilang langkah dalam satu model. Reka bentuk menekankan mod “pemikiran” boleh dikonfigurasi (pertukaran antara latensi dan kedalaman), pengekodan visual yang cekap dan sokongan asli untuk konteks panjang serta input multimodal supaya model boleh beroperasi sebagai pembantu/agen autonomi dalam aliran kerja produksi.
Ciri utama Seed 1.8 API
- Model agen multimodal bersepadu. Mengintegrasikan persepsi (imej/video), penaakulan (LLM), dan tindakan (panggilan alat/G U I, pelaksanaan kod) dalam satu model dan bukannya paip berpecah. Ini membolehkan aliran kerja agen yang padat dan kerumitan pengorkestran yang lebih rendah.
- Konteks ultra-panjang & pengendalian video panjang. Konteks panjang (sokongan produk sehingga 256k token) dan penanda aras video panjang khusus (Seed1.8 menunjukkan kecekapan token video panjang yang kukuh). Model menyokong alatan video terpilih (VideoCut) untuk memfokuskan penaakulan pada cap masa.
- Automasi GUI berasaskan agen & penggunaan alat. Penanda aras dan ujian dalaman (OSWorld, AndroidWorld, LiveCodeBench, penanda aras GUI grounding) menunjukkan penambahbaikan dalam tugasan agen GUI dan automasi berbilang langkah. Model boleh mengeluarkan perintah GUI grounding dan beroperasi dalam konteks OS/web/telefon pintar yang disimulasikan.
- Mod pemikiran boleh dikonfigurasi untuk kawalan latensi/kos. Empat mod inferens membolehkan pembangun melaras pengiraan pada masa ujian untuk tugasan interaktif vs. kelompok berkualiti tinggi. Ini berguna untuk sistem produksi dengan bajet latensi yang ketat.
- Kecekapan token bertambah baik (multimodal). Seed 1.8 menunjukkan kecekapan token yang lebih kuat pada penanda aras multimodal berbanding pendahulunya (siri Seed-1.5/1.6), mencapai ketepatan tinggi dengan bajet token lebih kecil dalam beberapa tugasan video panjang.
- Mod pemikiran boleh dikonfigurasi: pertukaran kedalaman inferens vs latensi/kos dengan mod berbeza (
no_think→think-high) untuk ditala bagi kegunaan produksi interaktif. - Keupayaan teknikal
- Kecekapan token: Seed1.8 menunjukkan kecekapan token yang ketara berbanding pendahulu (Seed-1.5/1.6), memberikan ketepatan lebih kuat pada bajet token lebih rendah dalam tugasan video panjang (cth., mencapai ketepatan kompetitif walaupun pada 32K token video). Ini membolehkan kos inferens lebih rendah untuk input panjang.
- Penaakulan & persepsi multimodal: Model mencapai SOTA pada beberapa tugasan VQA multi-imej dan tugasan gerakan/persepsi serta memperoleh tempat kedua atau hampir SOTA pada banyak penanda aras penaakulan multimodal; khususnya ia mengatasi pendahulunya pada hampir setiap dimensi visual/video yang diukur.
- Penggunaan alat berasaskan agen & GUI grounding: Sokongan didokumenkan untuk GUI grounding dan penanda aras operasi berasaskan skrin (ScreenSpot-Pro, GUI agenting) dengan skor grounding yang kukuh (cth., penambahbaikan berbanding Seed-1.5-VL pada ScreenSpot-Pro).
- Penaakulan selari / berperingkat: Meningkatkan pengiraan masa ujian (pemikiran selari) menghasilkan peningkatan yang boleh diukur pada penanda aras matematik, pengaturcaraan, dan penaakulan multimodal
Sorotan penanda aras awam terpilih Seed1.8
- VCRBench (penaakulan pengetahuan am visual): Seed1.8 memperoleh 59.8 (Pass@1 dilaporkan dalam jadual kad model), peningkatan berbanding Seed-1.5-VL dan kompetitif dengan model teratas
- VideoHolmes (penaakulan video): Seed1.8 65.5, mengatasi Seed-1.5-VL dan menghampiri model pesaing gred pro.
- MMLB-NIAH (konteks panjang multimodal, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k dalam MMLB-NIAH, mengatasi sesetengah model pro kontemporari.
- Sut Gerakan & Persepsi: SOTA dalam 5 daripada 6 tugasan yang dinilai; contoh termasuk TVBench, TempCompass dan TOMATO di mana Seed1.8 menunjukkan peningkatan besar dalam persepsi temporal.
- Aliran kerja berasaskan agen: Pada BrowseComp dan penanda aras carian/kod berasaskan agen yang lain, Seed1.8 sering berada hampir atau melebihi model pro yang bersaing
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan yang jelas dalam persepsi multimodal, kecekapan token untuk video panjang, dan pelaksanaan berasaskan agen.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak penanda aras multimodal Seed1.8 menyamai atau mengatasi Gemini 3 Pro (SOTA pada beberapa tugasan VQA / gerakan; lebih baik pada larian MMLB-NIAH 128k). Walau bagaimanapun, kad juga menunjukkan bidang di mana model keluarga Gemini mengekalkan kelebihan pada sesetengah tugasan ilmu disiplin — jadi susunan relatif adalah bergantung pada penanda aras.
- Varian Seed-Code (Doubao-Seed-Code): khusus untuk tugasan pengaturcaraan/agen kod (konteks besar untuk pangkalan kod; penanda aras SWE khusus). Seed1.8 ialah model multimodal berasaskan agen generalis, manakala Seed-Code ialah varian yang memfokuskan pengaturcaraan.
Kes penggunaan praktikal oleh Seedream 4.5 API di CometAPI
- Pembantu penyelidikan multimodal & analisis dokumen: mengekstrak, merumus, dan berfikir merentas dokumen panjang, dek slaid, dan laporan berbilang halaman.
- Pemahaman & pemantauan video panjang: analitik penyiaran keselamatan/sukan, peringkasan mesyuarat panjang, dan analisis penstriman di mana kecekapan token video panjang model penting.
- Aliran kerja berasaskan agen / automasi: senario berbilang langkah carian web + pelaksanaan kod + pengekstrakan data (cth., analisis pesaing automatik, perancangan perjalanan, saluran penyelidikan yang ditunjukkan dalam penanda aras dalaman).
- Alatan pembangun (jika menggunakan Seed-Code): analisis pangkalan kod besar, pembantu IDE, dan pelaksanaan kod berasaskan agen untuk pengujian & pembaikan (Seed-Code ialah varian khusus yang disyorkan).
- Automasi GUI & RPA: penanda aras pembumian skrin dan agen GUI menunjukkan model boleh melakukan tugas GUI berstruktur lebih baik daripada keluaran Seed sebelumnya.
Cara Menggunakan doubao Seed 1.8 API melalui CometAPI
Doubao seed1.8 kini didedahkan secara komersial melalui CometAPI sebagai API inferens hos. API menyokong payload multimodal (teks + imej + serpihan video / cap masa) dan mod inferens boleh dikonfigurasi untuk mengimbangi latensi dan pengiraan terhadap kualiti jawapan.
Corak panggilan: API menyokong permintaan gaya chat/penyempurnaan standard, respons penstriman, dan aliran berasaskan agen di mana model mengeluarkan panggilan alat (carian, pelaksanaan kod, tindakan GUI) dan mengambil output alat sebagai konteks susulan.
Penstriman & pengendalian konteks panjang: API menyokong penstriman dan mempunyai primitif pengurusan konteks terbina dalam untuk sesi panjang (untuk membolehkan konteks 100K+ / jejak agen berbilang langkah).
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke CometAPI console. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.
Langkah 2: Hantar Permintaan ke doubao Seed 1.8 API
Pilih endpoint “doubao-seed-1-8-251228” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda daripada akaun anda. Keserasian dengan Chat API.
Masukkan soalan atau permintaan anda ke dalam medan kandungan — inilah yang akan dijawab oleh model. Proses respons API untuk mendapatkan jawapan yang dihasilkan.
Langkah 3: Dapatkan dan Sahkan Hasil
Proses respons API untuk mendapatkan jawapan yang dihasilkan. Selepas pemprosesan, API membalas dengan status tugasan dan data output.
