모델지원엔터프라이즈블로그
500개 이상의 AI 모델 API, 모든 것이 하나의 API로. CometAPI에서
Models API
개발자
빠른 시작문서API 대시보드
리소스
AI 모델블로그엔터프라이즈변경 로그소개
2025 CometAPI. 모든 권리 보유.개인정보 보호정책서비스 이용약관
Home/Models/Doubao/Doubao-Seed-1.8
X

Doubao-Seed-1.8

입력:$0.2/M
출력:$1.6/M
맥락:256k
최대 출력:224k
Doubao-Seed-1.8은 멀티모달 에이전트 시나리오에 맞춰 최적화되었습니다. 에이전트 역량 측면에서는 도구 사용과 복잡한 명령 수행 능력이 크게 강화되었습니다. 멀티모달 이해 측면에서는 기본 시각 인식 능력이 대폭 향상되어, 매우 긴 동영상을 낮은 프레임 속도로도 이해할 수 있게 되었습니다. 영상 내 동작 이해, 복잡한 공간 이해, 문서 구조 파싱 능력도 최적화되었으며, 지능형 컨텍스트 관리는 이제 기본적으로 지원되어 사용자가 컨텍스트 전략을 구성할 수 있습니다.
새로운
상업적 사용
Playground
개요
기능
가격
API

Seed 1.8 API 기술 사양

항목사양 / 비고
모델명 / 패밀리Doubao-Seed-1.8 (Seed1.8) — ByteDance Seed / Volcano Engine
지원 모달리티텍스트, 이미지, 비디오(멀티모달 VLM 기능), 생태계 내 오디오 도구(오디오/비디오 생성은 별도 모델).
컨텍스트 윈도우(텍스트)256K 토큰
비디오/비주얼 처리 능력장기 비디오 추론용으로 설계되었으며, 효율적인 비주얼 인코딩과 대규모 비디오 토큰 예산을 지원(모델 카드에 비디오 토큰 실험 및 장기 비디오 벤치마크 보고).
입력 형식자유 텍스트 프롬프트; 이미지 업로드(스크린샷, 차트, 사진); 토큰화된 프레임으로 입력되는 비디오/구간 점검용 비디오 도구; 파일 업로드(문서).
출력 형식자연어 텍스트, 구조화된 출력(structured-output beta), 함수 호출/도구 호출, 코드, 오케스트레이션을 통한 멀티모달 출력.
사고/추론 모드no_think, think-low, think-medium, think-high — 정확도와 지연/비용 간 트레이드오프.

Doubao Seed 1.8이란?

Doubao Seed 1.8은 Seed 팀의 1.8 릴리스로, LLM+VLM을 통합한 모델입니다. 이 모델은 단일 모델 안에서 지각(이미지/비디오), 추론, 도구 오케스트레이션(검색, 함수 호출, 코드 실행, GUI 그라운딩)과 다단계 의사결정을 수행하는, 즉 일반화된 실세계 에이전트 능력을 명시적으로 목표로 합니다. 설계는 구성 가능한 “사고 모드”(지연 시간과 깊이 간 트레이드오프), 효율적인 비주얼 인코딩, 긴 컨텍스트와 멀티모달 입력의 네이티브 지원을 강조하여, 실제 프로덕션 워크플로에서 자율형 어시스턴트/에이전트로 동작할 수 있게 합니다.

Seed 1.8 API의 주요 기능

  1. 통합 멀티모달 에이전트형 모델. 분리된 파이프라인 대신 단일 모델에서 지각(이미지/비디오), 추론(LLM), 액션(도구/GUI 호출, 코드 실행)을 통합합니다. 이를 통해 에이전트 워크플로가 간결해지고 오케스트레이션 복잡도가 낮아집니다.
  2. 초장문 컨텍스트 및 장기 비디오 처리. 긴 컨텍스트(제품 지원 256k 토큰)와 특정 장기 비디오 벤치마크(Seed1.8은 장기 비디오 토큰 효율 우수)를 제공합니다. 모델은 선택적 비디오 도구(VideoCut)를 통해 특정 타임스탬프에 추론을 집중할 수 있습니다.
  3. 에이전트형 GUI 자동화 및 도구 사용. 벤치마크 및 내부 테스트(OSWorld, AndroidWorld, LiveCodeBench, GUI 그라운딩 벤치마크)에서 GUI 에이전트 작업과 다단계 자동화 성능이 향상되었습니다. 모델은 GUI 그라운딩 명령을 출력하고, 시뮬레이션된 OS/웹/모바일 컨텍스트에서 동작할 수 있습니다.
  4. 지연/비용 제어를 위한 구성 가능한 사고 모드. 네 가지 추론 모드는 인터랙티브 용도와 고품질 배치 작업 간에서 테스트 타임 컴퓨트를 조절할 수 있게 해줍니다. 이는 엄격한 지연 예산을 가진 프로덕션 시스템에 유용합니다.
  5. 향상된 토큰 효율(멀티모달). Seed 1.8은 이전(Seed-1.5/1.6 시리즈) 대비 멀티모달 벤치마크에서 더 강한 토큰 효율을 보여주며, 여러 장기 비디오 작업에서 더 적은 토큰 예산으로 높은 정확도를 달성합니다.
  6. 구성 가능한 사고 모드: 상이한 모드(no_think → think-high)로 추론 깊이와 지연/비용을 트레이드오프하여 인터랙티브 프로덕션 사용에 맞게 튜닝할 수 있습니다.
  7. 기술 역량
  • 토큰 효율: Seed1.8은 전작(Seed-1.5/1.6) 대비 뚜렷한 토큰 효율을 보여주며, 장기 비디오 작업에서 낮은 토큰 예산으로 더 높은 정확도를 제공합니다(예: 32K 비디오 토큰에서도 경쟁력 있는 정확도 달성). 이는 긴 입력에 대한 추론 비용 절감을 가능하게 합니다.
  • 멀티모달 추론 및 지각: 다중 이미지 VQA와 동작/지각 작업의 여러 영역에서 SOTA에 도달했으며, 다수의 멀티모달 추론 벤치마크에서 2위 또는 SOTA에 근접한 성능을 보입니다. 특히 비주얼/비디오 전반의 측정 지표에서 전작을 거의 모두 상회합니다.
  • 에이전트형 도구 사용 및 GUI 그라운딩: ScreenSpot-Pro, GUI 에이전팅 등 화면 기반 운영 벤치마크에 대한 문서화된 지원이 있으며, 강력한 그라운딩 점수(예: ScreenSpot-Pro에서 Seed-1.5-VL 대비 향상)를 보입니다.
  • 병렬/단계적 추론: 테스트 타임 컴퓨트를 증가(병렬 사고)하면 수학, 코딩, 멀티모달 추론 벤치마크에서 측정 가능한 성능 향상이 나타납니다.

선별된 Seed1.8 공개 벤치마크 하이라이트

  • VCRBench(시각적 상식 추론): Seed1.8은 Pass@1 기준 59.8(모델 카드 표에 보고)을 기록하여 Seed-1.5-VL 대비 개선되었고 상위 모델들과 경쟁합니다.
  • VideoHolmes(비디오 추론): Seed1.8 65.5로 Seed-1.5-VL을 능가하며 프로급 경쟁 모델에 근접합니다.
  • MMLB-NIAH(멀티모달 장문 컨텍스트, 128k): Seed1.8은 128k 컨텍스트에서 72.2 Pass@1을 달성하여 일부 동시대 프로 모델을 상회했습니다.
  • Motion & Perception 스위트: 평가된 6개 작업 중 5개에서 SOTA; TVBench, TempCompass, TOMATO 등에서 시간적 지각에서 큰 향상을 보였습니다.
  • 에이전트형 워크플로: BrowseComp 및 기타 에이전트형 검색/코드 벤치마크에서 Seed1.8은 종종 경쟁 프로 모델에 근접하거나 상회합니다.

Seed 1.8 vs Gemini 3 Pro / GPT-5.x

  • Seed1.8 vs Seed-1.5-VL / Seed-1.6: 멀티모달 지각, 장기 비디오 토큰 효율, 에이전트 실행에서 명확한 개선.
  • Seed1.8 vs Gemini 3 Pro / GPT-5.x: 다수의 멀티모달 벤치마크에서 Seed1.8이 Gemini 3 Pro에 대응하거나 능가합니다(여러 VQA/동작 과제에서 SOTA; MMLB-NIAH 128k 런에서 더 우수). 다만 특정 학문 지식 과제에서는 Gemini 계열이 우위를 보이는 영역도 모델 카드에 나타나며, 상대적 순위는 벤치마크에 따라 달라집니다.
  • Seed-Code variant (Doubao-Seed-Code): 프로그래밍/에이전트형 코드 작업에 특화(대규모 코드베이스 컨텍스트; 특화 SWE 벤치마크). Seed1.8은 범용 에이전트형 멀티모달 모델이고, Seed-Code는 프로그래밍 중심 변형입니다.

CometAPI의 Seedream 4.5 API로 구현하는 실용적 사용 사례

  • 멀티モ달 연구 어시스턴트 및 문서 분석: 긴 문서, 슬라이드 데크, 다중 페이지 보고서를 추출/요약/추론.
  • 장기 비디오 이해 및 모니터링: 보안/스포츠 방송 분석, 긴 회의 요약, 스트리밍 분석 등에서 장기 비디오 토큰 효율이 중요할 때.
  • 에이전트형 워크플로/자동화: 다단계 웹 검색 + 코드 실행 + 데이터 추출 시나리오(예: 자동 경쟁 분석, 여행 계획, 내부 벤치마크로 입증된 연구 파이프라인).
  • 개발자 도구(Seed-Code 사용 시): 대규모 코드베이스 분석, IDE 어시스턴트, 테스트/수정을 위한 에이전트형 코드 실행(전문화된 변형인 Seed-Code 권장).
  • GUI 자동화 및 RPA: 화면 그라운딩과 GUI 에이전트 벤치마크가 이전 Seed 릴리스 대비 구조화된 GUI 작업 수행 능력 향상을 시사.

CometAPI를 통한 doubao Seed 1.8 API 사용 방법

Doubao seed1.8은 현재 CometAPI를 통해 호스팅된 추론 API로 상용 제공됩니다. 이 API는 멀티모달 페이로드(텍스트 + 이미지 + 비디오 조각/타임스탬프)를 지원하며, 응답 품질에 대한 지연 및 컴퓨트 트레이드오프를 위한 구성 가능한 추론 모드를 제공합니다.

호출 패턴: API는 표준 채팅/완성 스타일 요청, 스트리밍 응답, 그리고 모델이 도구 호출(검색, 코드 실행, GUI 액션)을 발행하고 그 출력물을 후속 컨텍스트로 흡수하는 에이전트형 플로를 지원합니다.

스트리밍 및 장문 컨텍스트 처리: API는 스트리밍을 지원하며, 긴 세션을 위한 내장 컨텍스트 관리 프리미티브(100K+ 컨텍스트/다단계 에이전트 트레이스 지원)를 제공합니다.

Step 1: Sign Up for API Key

cometapi.com에 로그인하세요. 아직 사용자라면 먼저 회원 가입을 진행합니다. CometAPI console에 로그인합니다. 인터페이스의 액세스 자격(API 키)을 가져옵니다. 개인 센터에서 API 토큰의 “Add Token”을 클릭하고 토큰 키: sk-xxxxx를 발급받아 제출합니다.

Step 2: Send Requests to doubao Seed 1.8 API

“doubao-seed-1-8-251228 ” 엔드포인트를 선택하여 API 요청을 전송하고 요청 본문을 설정합니다. 요청 방식과 요청 본문은 웹사이트의 API 문서에서 확인할 수 있습니다. 편의를 위해 웹사이트에서 Apifox 테스트도 제공합니다. 계정의 실제 CometAPI 키로 <YOUR_API_KEY>를 바꿔 넣으세요. Chat API와의 호환성을 제공합니다.

질문이나 요청을 content 필드에 입력하세요 — 모델이 이에 응답합니다. 생성된 답변을 얻기 위해 API 응답을 처리합니다.

Step 3: Retrieve and Verify Results

생성된 답변을 얻기 위해 API 응답을 처리합니다. 처리 이후, API는 작업 상태와 출력 데이터를 반환합니다.

자주 묻는 질문

What variants exist of Seed 1.8 and when to use each?

Seed1.8은 범용 멀티모달 에이전트입니다. 관련 파생 모델로는 다음이 있습니다: Seed-Code / Doubao-Seed-Code: 매우 큰 코드 컨텍스트(일부 SKU는 256K 컨텍스트를 표기)와 코딩 워크플로에 특화. Seedance / Seedream: 미디어/생성 특화 변형(비디오/이미지 생성). IDE/코드베이스 작업에는 Seed-Code를, 폭넓은 멀티모달 에이전트 작업에는 Seed1.8을 선택하세요. SKU의 컨텍스트 윈도우와 기능은 제품 문서에서 확인하세요.

How does Seed1.8 differ from prior Seed versions?

Seed1.8은 이전 Seed 1.x 모델 대비, 에이전트 통합(도구 사용, GUI 에이전팅, 다단계 워크플로), 향상된 장기 컨텍스트 처리, 더 나은 장시간 비디오/동작 인식을 강조합니다. Seed 라인에서 멀티모달/에이전트 업그레이드로 포지셔닝되어 있습니다.

What input/output modalities does Seed1.8 support?

네이티브 멀티모달 지원: 텍스트 + 이미지 + 비디오. 출력에는 자연어 응답, 구조화된 출력(JSON/액션 플랜), 코드, 에이전트 워크플로를 위한 시각적 구간/타임스탬프 참조가 포함됩니다. 본 모델은 멀티모달 지각 → 추론 → 행동을 위해 명시적으로 설계되었습니다.

What are the “thinking” or inference modes of Seed1.8?

조정 가능한 '사고' 모드가 있으며 — 지연/연산량과 추론 깊이 간의 균형을 맞추도록 설계되었습니다(상호작용성과 해법 품질을 균형 있게 맞춰야 할 때 유용). 이 모드들을 사용해 인터랙티브 UI용 또는 더 깊은 배치 추론용으로 튜닝하세요.

Doubao-Seed-1.8의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

Doubao-Seed-1.8 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.
코멧 가격 (USD / M Tokens)공식 가격 (USD / M Tokens)할인
입력:$0.2/M
출력:$1.6/M
입력:$0.25/M
출력:$2/M
-20%

Doubao-Seed-1.8의 샘플 코드 및 API

Doubao seed1.8은 이제 CometAPI를 통해 호스팅 추론 API로 상업적으로 제공됩니다. 이 API는 멀티모달 페이로드(텍스트 + 이미지 + 비디오 조각/타임스탬프)를 지원하며, 응답 품질에 따라 지연 시간과 연산량을 조절할 수 있는 구성 가능한 추론 모드를 제공합니다.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="doubao-seed-1-8-251228",
    max_completion_tokens=65535,
    extra_body={"reasoning_effort": "medium"},
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
                    },
                },
                {"type": "text", "text": "What is the main idea of the picture?"},
            ],
        }
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: "doubao-seed-1-8-251228",
    max_completion_tokens: 65535,
    reasoning_effort: "medium",
    messages: [
      {
        role: "user",
        content: [
          {
            type: "image_url",
            image_url: {
              url: "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            type: "text",
            text: "What is the main idea of the picture?"
          }
        ]
      }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "doubao-seed-1-8-251228",
    "max_completion_tokens": 65535,
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://ark-project.tos-cn-beijing.ivolces.com/images/view.jpeg"
            }
          },
          {
            "type": "text",
            "text": "What is the main idea of the picture?"
          }
        ]
      }
    ]
  }'

더 많은 모델

A

Claude Opus 4.6

입력:$4/M
출력:$20/M
Claude Opus 4.6는 Anthropic의 “Opus”급 대규모 언어 모델로, 2026년 2월에 출시되었습니다. 지식 업무와 연구 워크플로를 위한 주력 모델로 자리매김했으며 — 긴 컨텍스트 추론, 다단계 계획, 도구 사용(에이전트형 소프트웨어 워크플로 포함), 그리고 슬라이드와 스프레드시트 자동 생성과 같은 컴퓨터 활용 작업을 개선합니다.
A

Claude Sonnet 4.6

입력:$2.4/M
출력:$12/M
Claude Sonnet 4.6은 지금까지 가장 역량이 뛰어난 Sonnet 모델입니다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전반에 걸쳐 모델의 역량을 전면 업그레이드한 버전입니다. Sonnet 4.6은 베타 단계의 1M 토큰 컨텍스트 윈도우도 제공합니다.
O

GPT-5.4 nano

입력:$0.16/M
출력:$1/M
GPT-5.4 nano는 속도와 비용이 최우선인 분류, 데이터 추출, 순위화, 하위 에이전트 등의 작업을 위해 설계되었습니다.
O

GPT-5.4 mini

입력:$0.6/M
출력:$3.6/M
GPT-5.4 mini는 대규모 워크로드를 위해 설계된 더 빠르고 더 효율적인 모델에 GPT-5.4의 강점을 접목합니다.
A

Claude Mythos Preview

A

Claude Mythos Preview

곧 출시 예정
입력:$60/M
출력:$240/M
Claude Mythos Preview는 현재까지 우리의 가장 강력한 프런티어 모델이며, 이전 프런티어 모델인 Claude Opus 4.6과 비교해 여러 평가 벤치마크 점수에서 놀라운 도약을 보여줍니다.
X

mimo-v2-pro

입력:$0.8/M
출력:$2.4/M
MiMo-V2-Pro는 Xiaomi의 플래그십 파운데이션 모델로, 총 1T 파라미터와 1M 컨텍스트 길이를 갖추고 있으며, 에이전트 중심 시나리오에 맞춰 깊이 최적화되었습니다. OpenClaw와 같은 범용 에이전트 프레임워크와의 호환성이 뛰어납니다. 표준 PinchBench 및 ClawBench 벤치마크에서 글로벌 최상위권에 속하며, 체감 성능은 Opus 4.6에 근접합니다. MiMo-V2-Pro는 에이전트 시스템의 두뇌로 기능하도록 설계되어 복잡한 워크플로를 오케스트레이션하고, 프로덕션 엔지니어링 작업을 추진하며, 신뢰할 수 있는 결과를 제공합니다.

관련 블로그

Doubao Seed 1.8 API는 어떻게 사용하나요?  종합 가이드
Jan 12, 2026

Doubao Seed 1.8 API는 어떻게 사용하나요? 종합 가이드

Doubao Seed 1.8 — ByteDance의 Doubao 제품군 및 Seed 연구 라인의 일부 — 은 매우 긴 컨텍스트 처리와 향상된 도구/에이전트 지원을 갖춘 “에이전트형” 멀티모달 모델로 설계되어 주목을 받고 있다.