Seed 1.8 API 기술 사양
| 항목 | 사양 / 비고 |
|---|---|
| 모델명 / 패밀리 | Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine |
| 지원 모달리티 | 텍스트, 이미지, 비디오(멀티모달 VLM 기능), 생태계 내 오디오 도구(오디오/비디오 생성은 별도 모델). |
| 컨텍스트 윈도우(텍스트) | 256K 토큰 |
| 비디오/비주얼 처리 능력 | 장기 비디오 추론용으로 설계되었으며, 효율적인 비주얼 인코딩과 대규모 비디오 토큰 예산을 지원(모델 카드에 비디오 토큰 실험 및 장기 비디오 벤치마크 보고). |
| 입력 형식 | 자유 텍스트 프롬프트; 이미지 업로드(스크린샷, 차트, 사진); 토큰화된 프레임으로 입력되는 비디오/구간 점검용 비디오 도구; 파일 업로드(문서). |
| 출력 형식 | 자연어 텍스트, 구조화된 출력(structured-output beta), 함수 호출/도구 호출, 코드, 오케스트레이션을 통한 멀티모달 출력. |
| 사고/추론 모드 | no_think, think-low, think-medium, think-high — 정확도와 지연/비용 간 트레이드오프. |
Doubao Seed 1.8이란?
Doubao Seed 1.8은 Seed 팀의 1.8 릴리스로, LLM+VLM을 통합한 모델입니다. 이 모델은 단일 모델 안에서 지각(이미지/비디오), 추론, 도구 오케스트레이션(검색, 함수 호출, 코드 실행, GUI 그라운딩)과 다단계 의사결정을 수행하는, 즉 일반화된 실세계 에이전트 능력을 명시적으로 목표로 합니다. 설계는 구성 가능한 “사고 모드”(지연 시간과 깊이 간 트레이드오프), 효율적인 비주얼 인코딩, 긴 컨텍스트와 멀티모달 입력의 네이티브 지원을 강조하여, 실제 프로덕션 워크플로에서 자율형 어시스턴트/에이전트로 동작할 수 있게 합니다.
Seed 1.8 API의 주요 기능
- 통합 멀티모달 에이전트형 모델. 분리된 파이프라인 대신 단일 모델에서 지각(이미지/비디오), 추론(LLM), 액션(도구/GUI 호출, 코드 실행)을 통합합니다. 이를 통해 에이전트 워크플로가 간결해지고 오케스트레이션 복잡도가 낮아집니다.
- 초장문 컨텍스트 및 장기 비디오 처리. 긴 컨텍스트(제품 지원 256k 토큰)와 특정 장기 비디오 벤치마크(Seed1.8은 장기 비디오 토큰 효율 우수)를 제공합니다. 모델은 선택적 비디오 도구(VideoCut)를 통해 특정 타임스탬프에 추론을 집중할 수 있습니다.
- 에이전트형 GUI 자동화 및 도구 사용. 벤치마크 및 내부 테스트(OSWorld, AndroidWorld, LiveCodeBench, GUI 그라운딩 벤치마크)에서 GUI 에이전트 작업과 다단계 자동화 성능이 향상되었습니다. 모델은 GUI 그라운딩 명령을 출력하고, 시뮬레이션된 OS/웹/모바일 컨텍스트에서 동작할 수 있습니다.
- 지연/비용 제어를 위한 구성 가능한 사고 모드. 네 가지 추론 모드는 인터랙티브 용도와 고품질 배치 작업 간에서 테스트 타임 컴퓨트를 조절할 수 있게 해줍니다. 이는 엄격한 지연 예산을 가진 프로덕션 시스템에 유용합니다.
- 향상된 토큰 효율(멀티모달). Seed 1.8은 이전(Seed-1.5/1.6 시리즈) 대비 멀티모달 벤치마크에서 더 강한 토큰 효율을 보여주며, 여러 장기 비디오 작업에서 더 적은 토큰 예산으로 높은 정확도를 달성합니다.
- 구성 가능한 사고 모드: 상이한 모드(
no_think→think-high)로 추론 깊이와 지연/비용을 트레이드오프하여 인터랙티브 프로덕션 사용에 맞게 튜닝할 수 있습니다. - 기술 역량
- 토큰 효율: Seed1.8은 전작(Seed-1.5/1.6) 대비 뚜렷한 토큰 효율을 보여주며, 장기 비디오 작업에서 낮은 토큰 예산으로 더 높은 정확도를 제공합니다(예: 32K 비디오 토큰에서도 경쟁력 있는 정확도 달성). 이는 긴 입력에 대한 추론 비용 절감을 가능하게 합니다.
- 멀티모달 추론 및 지각: 다중 이미지 VQA와 동작/지각 작업의 여러 영역에서 SOTA에 도달했으며, 다수의 멀티모달 추론 벤치마크에서 2위 또는 SOTA에 근접한 성능을 보입니다. 특히 비주얼/비디오 전반의 측정 지표에서 전작을 거의 모두 상회합니다.
- 에이전트형 도구 사용 및 GUI 그라운딩: ScreenSpot-Pro, GUI 에이전팅 등 화면 기반 운영 벤치마크에 대한 문서화된 지원이 있으며, 강력한 그라운딩 점수(예: ScreenSpot-Pro에서 Seed-1.5-VL 대비 향상)를 보입니다.
- 병렬/단계적 추론: 테스트 타임 컴퓨트를 증가(병렬 사고)하면 수학, 코딩, 멀티모달 추론 벤치마크에서 측정 가능한 성능 향상이 나타납니다.
선별된 Seed1.8 공개 벤치마크 하이라이트
- VCRBench(시각적 상식 추론): Seed1.8은 Pass@1 기준 59.8(모델 카드 표에 보고)을 기록하여 Seed-1.5-VL 대비 개선되었고 상위 모델들과 경쟁합니다.
- VideoHolmes(비디오 추론): Seed1.8 65.5로 Seed-1.5-VL을 능가하며 프로급 경쟁 모델에 근접합니다.
- MMLB-NIAH(멀티모달 장문 컨텍스트, 128k): Seed1.8은 128k 컨텍스트에서 72.2 Pass@1을 달성하여 일부 동시대 프로 모델을 상회했습니다.
- Motion & Perception 스위트: 평가된 6개 작업 중 5개에서 SOTA; TVBench, TempCompass, TOMATO 등에서 시간적 지각에서 큰 향상을 보였습니다.
- 에이전트형 워크플로: BrowseComp 및 기타 에이전트형 검색/코드 벤치마크에서 Seed1.8은 종종 경쟁 프로 모델에 근접하거나 상회합니다.
Seed 1.8 vs Gemini 3 Pro / GPT-5.x
- Seed1.8 vs Seed-1.5-VL / Seed-1.6: 멀티모달 지각, 장기 비디오 토큰 효율, 에이전트 실행에서 명확한 개선.
- Seed1.8 vs Gemini 3 Pro / GPT-5.x: 다수의 멀티모달 벤치마크에서 Seed1.8이 Gemini 3 Pro에 대응하거나 능가합니다(여러 VQA/동작 과제에서 SOTA; MMLB-NIAH 128k 런에서 더 우수). 다만 특정 학문 지식 과제에서는 Gemini 계열이 우위를 보이는 영역도 모델 카드에 나타나며, 상대적 순위는 벤치마크에 따라 달라집니다.
- Seed-Code variant (Doubao-Seed-Code): 프로그래밍/에이전트형 코드 작업에 특화(대규모 코드베이스 컨텍스트; 특화 SWE 벤치마크). Seed1.8은 범용 에이전트형 멀티모달 모델이고, Seed-Code는 프로그래밍 중심 변형입니다.
CometAPI의 Seedream 4.5 API로 구현하는 실용적 사용 사례
- 멀티モ달 연구 어시스턴트 및 문서 분석: 긴 문서, 슬라이드 데크, 다중 페이지 보고서를 추출/요약/추론.
- 장기 비디오 이해 및 모니터링: 보안/스포츠 방송 분석, 긴 회의 요약, 스트리밍 분석 등에서 장기 비디오 토큰 효율이 중요할 때.
- 에이전트형 워크플로/자동화: 다단계 웹 검색 + 코드 실행 + 데이터 추출 시나리오(예: 자동 경쟁 분석, 여행 계획, 내부 벤치마크로 입증된 연구 파이프라인).
- 개발자 도구(Seed-Code 사용 시): 대규모 코드베이스 분석, IDE 어시스턴트, 테스트/수정을 위한 에이전트형 코드 실행(전문화된 변형인 Seed-Code 권장).
- GUI 자동화 및 RPA: 화면 그라운딩과 GUI 에이전트 벤치마크가 이전 Seed 릴리스 대비 구조화된 GUI 작업 수행 능력 향상을 시사.
CometAPI를 통한 doubao Seed 1.8 API 사용 방법
Doubao seed1.8은 현재 CometAPI를 통해 호스팅된 추론 API로 상용 제공됩니다. 이 API는 멀티모달 페이로드(텍스트 + 이미지 + 비디오 조각/타임스탬프)를 지원하며, 응답 품질에 대한 지연 및 컴퓨트 트레이드오프를 위한 구성 가능한 추론 모드를 제공합니다.
호출 패턴: API는 표준 채팅/완성 스타일 요청, 스트리밍 응답, 그리고 모델이 도구 호출(검색, 코드 실행, GUI 액션)을 발행하고 그 출력물을 후속 컨텍스트로 흡수하는 에이전트형 플로를 지원합니다.
스트리밍 및 장문 컨텍스트 처리: API는 스트리밍을 지원하며, 긴 세션을 위한 내장 컨텍스트 관리 프리미티브(100K+ 컨텍스트/다단계 에이전트 트레이스 지원)를 제공합니다.
Step 1: Sign Up for API Key
cometapi.com에 로그인하세요. 아직 사용자라면 먼저 회원 가입을 진행합니다. CometAPI console에 로그인합니다. 인터페이스의 액세스 자격(API 키)을 가져옵니다. 개인 센터에서 API 토큰의 “Add Token”을 클릭하고 토큰 키: sk-xxxxx를 발급받아 제출합니다.
Step 2: Send Requests to doubao Seed 1.8 API
“doubao-seed-1-8-251228 ” 엔드포인트를 선택하여 API 요청을 전송하고 요청 본문을 설정합니다. 요청 방식과 요청 본문은 웹사이트의 API 문서에서 확인할 수 있습니다. 편의를 위해 웹사이트에서 Apifox 테스트도 제공합니다. 계정의 실제 CometAPI 키로 <YOUR_API_KEY>를 바꿔 넣으세요. Chat API와의 호환성을 제공합니다.
질문이나 요청을 content 필드에 입력하세요 — 모델이 이에 응답합니다. 생성된 답변을 얻기 위해 API 응답을 처리합니다.
Step 3: Retrieve and Verify Results
생성된 답변을 얻기 위해 API 응답을 처리합니다. 처리 이후, API는 작업 상태와 출력 데이터를 반환합니다.
