Seed 1.8 API 기술 사양
| 항목 | 사양 / 비고 |
|---|---|
| 모델명/패밀리 | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 지원 모달리티 | 텍스트, 이미지, 비디오(멀티모달 VLM 기능), 에코시스템 내 오디오 도구(오디오/비디오 생성은 별도 모델). |
| 컨텍스트 윈도우(텍스트) | 256K 토큰 |
| 비디오/비주얼 역량 | 장시간 비디오 추론에 최적화, 효율적인 비주얼 인코딩과 대규모 비디오 토큰 예산을 지원(모델 카드에 비디오 토큰 실험 및 장시간 비디오 벤치마크 보고). |
| 입력 형식 | 자유 형식 텍스트 프롬프트; 이미지 업로드(스크린샷, 차트, 사진); 토크나이즈된 프레임 형태의 비디오/세그먼트 확인용 비디오 도구; 파일 업로드(문서). |
| 출력 형식 | 자연어 텍스트, 구조화 출력(structured-output beta), 함수 호출/툴 호출, 코드, 오케스트레이션을 통한 멀티모달 출력. |
| Thinking/추론 모드 | no_think, think-low, think-medium, think-high — 정확도와 지연/비용 간 트레이드오프. |
Doubao Seed 1.8란?
Doubao Seed 1.8은 Seed 팀의 1.8 릴리스로, LLM+VLM을 통합하여 일반화된 실세계 에이전시—즉, 지각(이미지/비디오), 추론, 도구 오케스트레이션(검색, 함수 호출, 코드 실행, GUI 그라운딩)과 다단계 의사결정—를 단일 모델 안에서 직접적으로 목표로 합니다. 설계는 구성 가능한 “Thinking 모드”(지연과 깊이의 트레이드오프), 효율적인 비주얼 인코딩, 긴 컨텍스트와 멀티모달 입력에 대한 네이티브 지원을 강조하여, 모델이 프로덕션 워크플로에서 자율 보조자/에이전트로 작동할 수 있도록 합니다.
Seed 1.8 API의 주요 기능
- 통합 멀티모달 에이전트형 모델. 분리된 파이프라인 대신 단일 모델 안에 지각(이미지/비디오), 추론(LLM)과 액션(툴/G U I 호출, 코드 실행)을 통합합니다. 이를 통해 간결한 에이전트 워크플로와 낮은 오케스트레이션 복잡도를 달성합니다.
- 초장문 컨텍스트 및 장시간 비디오 처리. 긴 컨텍스트(제품 지원 최대 256k 토큰)와 특정 장시간 비디오 벤치마크(Seed1.8은 장시간 비디오 토큰 효율성에서 강점을 보임). 모델은 특정 타임스탬프에 추론을 집중하도록 선택적 비디오 도구(VideoCut)를 지원합니다.
- 에이전트형 GUI 자동화 및 도구 사용. 벤치마크와 내부 테스트(OSWorld, AndroidWorld, LiveCodeBench, GUI 그라운딩 벤치마크)에서 GUI 에이전트 작업과 다단계 자동화 성능이 향상되었습니다. 모델은 GUI 그라운딩 명령을 출력하고 OS/웹/모바일의 시뮬레이션 환경 내에서 동작할 수 있습니다.
- 지연/비용 제어를 위한 구성 가능한 Thinking 모드. 네 가지 추론 모드를 통해 인터랙티브 환경과 고품질 배치 작업을 위해 테스트 시점의 연산량을 조절할 수 있습니다. 이는 엄격한 지연 예산을 가진 프로덕션 시스템에 유용합니다.
- 향상된 토큰 효율성(멀티모달). Seed 1.8은 멀티모달 벤치마크에서 전작(Seed-1.5/1.6 시리즈) 대비 더 강한 토큰 효율성을 보여주며, 여러 장시간 비디오 작업에서 더 작은 토큰 예산으로도 높은 정확도를 달성합니다.
- 구성 가능한 Thinking 모드: 상이한 모드(
no_think→think-high)로 추론 깊이와 지연/비용 간의 균형을 조절하여 인터랙티브 프로덕션 활용에 맞게 튜닝할 수 있습니다. - 기술적 역량
- 토큰 효율성: Seed1.8은 전작(Seed-1.5/1.6) 대비 뚜렷한 토큰 효율성 향상을 보이며, 장시간 비디오 작업에서 낮은 토큰 예산으로도 더 높은 정확도를 제공합니다(예: 32K 비디오 토큰에서도 경쟁력 있는 정확도 달성). 이는 긴 입력에 대한 추론 비용 절감을 가능하게 합니다.
- 멀티모달 추론 및 지각: 다중 이미지 VQA와 모션/지각 작업의 여러 과제에서 SOTA에 도달하고, 다수의 멀티모달 추론 벤치마크에서 2위 혹은 SOTA에 근접한 성능을 기록합니다. 특히 대부분의 비주얼/비디오 측정 항목에서 전작을 능가합니다.
- 에이전트형 도구 사용 및 GUI 그라운딩: ScreenSpot-Pro, GUI 에이전팅 등 화면 기반 동작 벤치마크에서 문서화된 GUI 그라운딩 지원과 함께 강한 점수를 보이며(예: ScreenSpot-Pro에서 Seed-1.5-VL 대비 개선), 견고한 동작을 확인했습니다.
- 병렬/계단식 추론: 테스트 시점 연산량을 늘리는 것(병렬 사고)이 수학, 코딩, 멀티모달 추론 벤치마크에서 유의미한 성능 향상을 이끕니다.
Seed1.8의 선택된 공개 벤치마크 하이라이트
- VCRBench(시각적 상식 추론): Seed1.8은 모델 카드 표에서 보고된 Pass@1 기준으로 59.8을 기록, Seed-1.5-VL 대비 개선되었으며 상위권 모델들과 경쟁력 있는 성능.
- VideoHolmes(비디오 추론): Seed1.8 65.5, Seed-1.5-VL을 상회하며 프로급 경쟁 모델에 근접.
- MMLB-NIAH(멀티모달 장문 컨텍스트, 128k): Seed1.8은 128k 컨텍스트에서 72.2 Pass@1 달성, 일부 동시대 프로 모델을 상회.
- 모션 & 지각 스위트: 평가된 6개 작업 중 5개에서 SOTA; TVBench, TempCompass, TOMATO 등에서 시간적 지각에서 큰 향상을 보임.
- 에이전트형 워크플로: BrowseComp 및 기타 에이전트형 검색/코드 벤치마크에서 Seed1.8은 종종 경쟁 프로 모델과 비슷하거나 그 이상을 기록.
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 멀티모달 지각, 장시간 비디오에 대한 토큰 효율성, 에이전트형 실행에서 명확한 개선.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 많은 멀티모달 벤치마크에서 Seed1.8이 Gemini 3 Pro와 대등하거나 앞서는 성능(SOTA 수준의 여러 VQA/모션 작업; MMLB-NIAH 128k 실행에서 더 나은 결과). 다만 일부 학문 지식 과제에서는 Gemini 계열이 우위를 유지하는 영역도 있어 상대적 순위는 벤치마크에 따라 달라집니다.
- Seed-Code 변형(Doubao-Seed-Code): 프로그래밍/에이전트형 코드 작업에 특화(대규모 코드베이스 컨텍스트; 특화 SWE 벤치마크). Seed1.8은 범용 에이전트형 멀티모달 모델이며, Seed-Code는 프로그래밍 중심 변형입니다.
CometAPI의 Seedream 4.5 API를 통한 실용적 사용 사례
- 멀티모달 리서치 보조 및 문서 분석: 장문 문서, 슬라이드, 다중 페이지 리포트를 추출/요약/종합 추론.
- 장시간 비디오 이해 및 모니터링: 보안/스포츠 방송 분석, 장시간 회의 요약, 스트리밍 분석 등 장시간 비디오 토큰 효율성이 중요한 시나리오.
- 에이전트형 워크플로/자동화: 다단계 웹 검색 + 코드 실행 + 데이터 추출(예: 내부 벤치마크로 시연된 자동 경쟁 분석, 여행 계획, 리서치 파이프라인).
- 개발자 도구(Seed-Code 사용 시): 대규모 코드베이스 분석, IDE 보조, 테스트/수정을 위한 에이전트형 코드 실행(전문화 변형인 Seed-Code 권장).
- GUI 자동화 및 RPA: 화면 그라운딩과 GUI 에이전트 벤치마크가 이전 Seed 릴리스 대비 구조화된 GUI 작업 수행 능력 향상을 시사.
CometAPI를 통해 Doubao Seed 1.8 API를 사용하는 방법
Doubao Seed1.8은 현재 CometAPI를 통해 호스티드 추론 API로 상용 제공됩니다. API는 멀티모달 페이로드(텍스트 + 이미지 + 비디오 조각/타임스탬프)와 구성 가능한 추론 모드를 지원하여 지연/연산량과 응답 품질 간의 균형을 조절할 수 있습니다.
호출 패턴: API는 표준 채팅/완성 스타일 요청, 스트리밍 응답, 그리고 모델이 툴 호출(검색, 코드 실행, GUI 동작)을 발행하고 툴 출력을 후속 컨텍스트로 흡수하는 에이전트형 플로우를 지원합니다.
스트리밍 및 장문 컨텍스트 처리: API는 스트리밍을 지원하며 긴 세션(100K+ 컨텍스트/다단계 에이전트 트레이스)을 위한 내장 컨텍스트 관리 프리미티브를 제공합니다.
1단계: API 키 등록
cometapi.com에 로그인하세요. 아직 사용자 계정이 없다면 먼저 등록하세요. CometAPI 콘솔에 로그인합니다. 인터페이스의 액세스 자격증명 API 키를 발급받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭하고 토큰 키: sk-xxxxx를 발급받아 제출합니다.

2단계: Doubao Seed 1.8 API로 요청 보내기
“doubao-seed-1-8-251228 ” 엔드포인트를 선택해 API 요청을 보내고 요청 바디를 설정하세요. 요청 메서드와 요청 바디는 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 편의를 위해 Apifox 테스트도 제공합니다. <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 교체하세요. Chat API와의 호환성을 제공합니다.
질문이나 요청을 content 필드에 넣으세요 — 모델이 응답할 내용입니다. API 응답을 처리하여 생성된 답변을 얻습니다.
3단계: 결과 수신 및 검증
API 응답을 처리해 생성된 답변을 받습니다. 처리 후, API는 작업 상태와 출력 데이터를 함께 반환합니다.