Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

Masukan:$0.2/M
Keluaran:$1.6/M
Konteks:256k
Keluaran Maksimum:224k
Doubao-Seed-1.8 dioptimumkan untuk senario agen multimodal. Dari segi keupayaan agen, penggunaan alat dan pematuhan arahan kompleks telah dipertingkat dengan ketara. Berkenaan pemahaman multimodal, keupayaan visual asas telah dipertingkat dengan ketara, membolehkan pemahaman pada kadar bingkai rendah bagi video yang sangat panjang. Keupayaan pemahaman gerakan video, pemahaman ruang yang kompleks, dan penghuraian struktur dokumen juga telah dioptimumkan, dan pengurusan konteks pintar kini disokong secara natif, membolehkan pengguna menetapkan strategi konteks.
Baru
Penggunaan komersial
Playground
Gambaran Keseluruhan
Ciri-ciri
Harga
API

Spesifikasi teknikal Seed 1.8 API

ItemSpesifikasi / nota
Nama model / keluargaDoubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
Modaliti disokongTeks, imej, video (keupayaan VLM multimodal), alatan audio dalam ekosistem (model berasingan untuk penjanaan audio/video).
Tetingkap konteks (teks)256K token
Keupayaan video / visualDireka untuk penaakulan video panjang, menyokong pengekodan visual yang cekap dan bajet token video yang besar (kad model melaporkan eksperimen token video dan penanda aras video panjang).
Format inputPrompt teks bebas; muat naik imej (tangkapan skrin, carta, foto); video sebagai bingkai yang ditokenkan / alatan video untuk pemeriksaan segmen; muat naik fail (dokumen).
Format outputTeks bahasa semula jadi, output berstruktur (structured-output beta), panggilan fungsi / panggilan alat, kod, dan output multimodal melalui orkestrasi.
Mod pemikiran / inferensno_think, think-low, think-medium, think-high — pertukaran ketepatan vs kependaman/kos.

Apakah Doubao Seed 1.8?

Doubao Seed 1.8 ialah keluaran 1.8 pasukan Seed: LLM+VLM bersatu yang menyasarkan agensi dunia nyata yang digeneralisasi — iaitu, persepsi (imej/video), penaakulan, orkestrasi alat (carian, panggilan fungsi, pelaksanaan kod, GUI grounding) dan pembuatan keputusan berbilang langkah dalam satu model. Reka bentuk menekankan “mod pemikiran” boleh dikonfigurasi (pertukaran antara kependaman dan kedalaman), pengekodan visual yang cekap dan sokongan asli untuk konteks panjang dan input multimodal supaya model boleh beroperasi sebagai pembantu/ejen autonomi dalam aliran kerja produksi.

Ciri utama Seed 1.8 API

  1. Model ejen multimodal bersatu. Mengintegrasikan persepsi (imej/video), penaakulan (LLM), dan tindakan (panggilan alat/G U I, pelaksanaan kod) dalam satu model dan bukannya pipeline berpecah. Ini membolehkan aliran kerja ejen yang ringkas dan kerumitan orkestrasi yang lebih rendah.
  2. Konteks sangat panjang & pengendalian video panjang. Konteks panjang (sokongan produk hingga 256k token) dan penanda aras video panjang khusus (Seed1.8 menunjukkan kecekapan token video panjang yang kukuh). Model menyokong alatan video terpilih (VideoCut) untuk memfokus penaakulan pada cop masa.
  3. Automasi GUI berasaskan ejen & penggunaan alat. Penanda aras dan ujian dalaman (OSWorld, AndroidWorld, LiveCodeBench, penanda aras GUI grounding) menunjukkan penambahbaikan dalam tugasan ejen GUI dan automasi berbilang langkah. Model boleh mengeluarkan arahan GUI grounding dan beroperasi dalam konteks OS/web/mudah alih simulasi.
  4. Mod pemikiran boleh dikonfigurasi untuk kawalan kependaman/kos. Empat mod inferens membolehkan pembangun melaras compute pada masa ujian untuk tugasan interaktif vs batch berkualiti tinggi. Ini berguna bagi sistem produksi dengan bajet kependaman ketat.
  5. Kecekapan token dipertingkat (multimodal). Seed 1.8 menunjukkan kecekapan token yang lebih kuat pada penanda aras multimodal berbanding pendahulunya (siri Seed-1.5/1.6), mencapai ketepatan tinggi dengan bajet token yang lebih kecil dalam beberapa tugasan video panjang.
  6. Mod pemikiran boleh dikonfigurasi: pertukaran kedalaman inferens vs kependaman/kos dengan mod berbeza (no_think → think-high) untuk penalaan bagi kegunaan produksi interaktif.
  7. Keupayaan teknikal
  • Kecekapan token: Seed1.8 menunjukkan kecekapan token ketara berbanding pendahulu (Seed-1.5/1.6), menyampaikan ketepatan lebih kuat pada bajet token lebih rendah untuk tugasan video panjang (cth., mencapai ketepatan berdaya saing walaupun pada 32K token video). Ini membolehkan kos inferens lebih rendah untuk input panjang.
  • Penaakulan & persepsi multimodal: Model mencapai SOTA pada beberapa tugasan VQA multi-imej dan gerakan/persepsi dan memperoleh tempat kedua atau hampir SOTA pada banyak penanda aras penaakulan multimodal; khususnya ia mengatasi pendahulunya pada hampir setiap dimensi visual/video yang diukur.
  • Penggunaan alat beragensi & GUI grounding: Sokongan didokumenkan untuk GUI grounding dan penanda aras operasi berasaskan skrin (ScreenSpot-Pro, GUI agenting) dengan skor grounding yang kukuh (cth., penambahbaikan berbanding Seed-1.5-VL pada ScreenSpot-Pro).
  • Penaakulan selari / berperingkat: Meningkatkan compute masa ujian (pemikiran selari) menghasilkan peningkatan ketara pada penanda aras matematik, pengaturcaraan, dan penaakulan multimodal.

Sorotan penanda aras awam terpilih bagi Seed1.8

  • VCRBench (penaakulan pengetahuan umum visual): Seed1.8 memperoleh 59.8 (Pass@1 dilaporkan dalam jadual kad model), peningkatan berbanding Seed-1.5-VL dan kompetitif dengan model teratas.
  • VideoHolmes (penaakulan video): Seed1.8 65.5, mengatasi Seed-1.5-VL dan menghampiri model pesaing peringkat profesional.
  • MMLB-NIAH (multimodal konteks panjang, 128k): Seed1.8 mencapai 72.2 Pass@1 pada konteks 128k dalam MMLB-NIAH, melepasi beberapa model pro kontemporari.
  • Suite Gerakan & Persepsi: SOTA dalam 5 daripada 6 tugasan yang dinilai; contoh termasuk TVBench, TempCompass dan TOMATO di mana Seed1.8 menunjukkan peningkatan besar dalam persepsi temporal.
  • Aliran kerja beragensi: Pada BrowseComp dan penanda aras carian/kod beragensi lain, Seed1.8 sering berada hampir atau melebihi model pro pesaing.

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: Peningkatan jelas dalam persepsi multimodal, kecekapan token untuk video panjang, dan pelaksanaan beragensi.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: Pada banyak penanda aras multimodal Seed1.8 menyamai atau mengatasi Gemini 3 Pro (SOTA pada beberapa tugasan VQA / gerakan; lebih baik pada larian MMLB-NIAH 128k). Walau bagaimanapun, kad juga menunjukkan bidang di mana keluarga model Gemini mengekalkan kelebihan pada tugasan pengetahuan disiplin tertentu — jadi susunan relatif bergantung pada penanda aras.
  • Varian Seed-Code (Doubao-Seed-Code): Dioptimumkan untuk tugasan pengaturcaraan/kod beragensi (konteks besar untuk asas kod; penanda aras SWE khusus). Seed1.8 ialah model multimodal beragensi generalis, manakala Seed-Code ialah varian fokus pengaturcaraan.

Kes penggunaan praktikal oleh Seedream 4.5 API pada CometAPI

  • Pembantu penyelidikan multimodal & analisis dokumen: ekstrak, ringkaskan, dan buat penaakulan merentas dokumen panjang, dek slaid, dan laporan berbilang halaman.
  • Kefahaman & pemantauan video panjang: analitik penyiaran keselamatan/sukan, peringkasan mesyuarat panjang, dan analisis penstriman di mana kecekapan token video panjang model adalah penting.
  • Aliran kerja beragensi / automasi: carian web berbilang langkah + pelaksanaan kod + senario pengekstrakan data (cth., analisis pesaing automatik, perancangan perjalanan, saluran penyelidikan yang ditunjukkan dalam penanda aras dalaman).
  • Alatan pembangun (jika menggunakan Seed-Code): analisis asas kod besar, pembantu IDE, dan pelaksanaan kod beragensi untuk pengujian & pembaikan (Seed-Code ialah varian khusus yang disyorkan).
  • Automasi GUI & RPA: penanda aras asas skrin dan ejen GUI menunjukkan model boleh melaksanakan tugasan GUI berstruktur dengan lebih baik berbanding keluaran Seed terdahulu.

Cara Menggunakan doubao Seed 1.8 API melalui CometAPI

Doubao seed1.8 didedahkan secara komersial melalui CometAPI sebagai API inferens dihoskan pada masa kini. API menyokong payload multimodal (teks + imej + serpihan video / cop masa) dan mod inferens boleh dikonfigurasi untuk menukar kependaman dan compute dengan kualiti jawapan.

Corak panggilan: API menyokong permintaan gaya chat/pelengkapan standard, respons penstriman, dan aliran beragensi di mana model mengeluarkan panggilan alat (carian, pelaksanaan kod, tindakan GUI) dan menyerap output alat sebagai konteks susulan.

Penstriman & pengendalian konteks panjang: API menyokong penstriman dan mempunyai primitif pengurusan konteks terbina dalam untuk sesi panjang (untuk membolehkan konteks 100K+ / jejak ejen berbilang langkah).

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI anda. Dapatkan kelayakan akses kunci API bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Flux.2 Flex API

Langkah 2: Hantar Permintaan ke doubao Seed 1.8 API

Pilih endpoint “doubao-seed-1-8-251228” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda dari akaun anda. Keserasian dengan API Chat.

Masukkan soalan atau permintaan anda ke medan kandungan—ini yang akan dijawab oleh model. Proseskan respons API untuk mendapatkan jawapan yang dijana.

Langkah 3: Ambil dan Sahkan Keputusan

Proseskan respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API membalas dengan status tugas dan data output.

Soalan Lazim

What variants exist of Seed 1.8 and when to use each?

Seed1.8 is the generalist multimodal agent. Related variants include: Seed-Code / Doubao-Seed-Code: specialized for very large code contexts (some SKUs claim 256K contexts) and coding workflows. Seedance / Seedream: media/generation specialized variants (video/image generation). Pick Seed-Code for IDE/codebase tasks; pick Seed1.8 for broad multimodal agent tasks. Confirm SKU context windows and capabilities in product docs.

How does Seed1.8 differ from prior Seed versions?

Seed1.8 emphasizes agentic integration (tool use, GUI agenting, multi-step workflows), improved long-context handling and better long-video/motion perception vs earlier Seed 1.x models. It is positioned as the multimodal/agent upgrade in the Seed line.

What input/output modalities does Seed1.8 support?

Native multimodal support: text + images + video. Outputs include natural language answers, structured outputs (JSON/action plans), code, and references to visual segments/timestamps for agentic workflows. The model is explicitly designed for multimodal perception → reasoning → action.

What are the “thinking” or inference modes of Seed1.8?

There are tunable “thinking” modes — designed to trade off latency/compute vs. depth of reasoning (useful when you must balance interactivity vs. solution quality). Use the modes to tune for interactive UIs or deeper batch reasoning.

Ciri-ciri untuk Doubao-Seed-1.8

Terokai ciri-ciri utama Doubao-Seed-1.8, yang direka untuk meningkatkan prestasi dan kebolehgunaan. Temui bagaimana keupayaan ini boleh memberi manfaat kepada projek anda dan meningkatkan pengalaman pengguna.

Harga untuk Doubao-Seed-1.8

Terokai harga yang kompetitif untuk Doubao-Seed-1.8, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana Doubao-Seed-1.8 boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$0.2/M
Keluaran:$1.6/M
Masukan:$0.25/M
Keluaran:$2/M
-20%

Kod contoh dan API untuk Doubao-Seed-1.8

Doubao seed1.8 kini ditawarkan secara komersial melalui omgpt.cloud sebagai API inferens yang dihoskan. API ini menyokong muatan multimodal (teks + imej + fragmen video / cap masa) dan mod inferens yang boleh dikonfigurasi untuk mengimbangi latensi dan komputasi dengan kualiti jawapan.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Lebih Banyak Model