모델 - 원 API로 500개 이상의 AI 모델 접근 - CometAPI

Nano Banana 2

Nano Banana 2

핵심 기능 개요: 해상도: 최대 4K(4096×4096), Pro와 동급. 참조 이미지 일관성: 최대 14개의 참조 이미지(오브젝트 10개 + 캐릭터 4개)로 스타일/캐릭터 일관성을 유지. 극단적인 종횡비: 새로운 1:4, 4:1, 1:8, 8:1 비율이 추가되어 긴 이미지, 포스터, 배너에 적합. 텍스트 렌더링: 고급 텍스트 생성, 인포그래픽 및 마케팅 포스터 레이아웃에 적합. 검색 기능 강화: Google 검색 + 이미지 검색 통합. 그라운딩: 내장된 사고 프로세스; 복잡한 프롬프트는 생성 전에 추론됨.

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6는 Anthropic의 “Opus”급 대규모 언어 모델로, 2026년 2월에 출시되었습니다. 지식 업무와 연구 워크플로를 위한 주력 모델로 자리매김했으며 — 긴 컨텍스트 추론, 다단계 계획, 도구 사용(에이전트형 소프트웨어 워크플로 포함), 그리고 슬라이드와 스프레드시트 자동 생성과 같은 컴퓨터 활용 작업을 개선합니다.

Claude Sonnet 4.6

Claude Sonnet 4.6

Claude Sonnet 4.6은 지금까지 가장 역량이 뛰어난 Sonnet 모델입니다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전반에 걸쳐 모델의 역량을 전면 업그레이드한 버전입니다. Sonnet 4.6은 베타 단계의 1M 토큰 컨텍스트 윈도우도 제공합니다.

GPT-5.4 nano

GPT-5.4 nano

GPT-5.4 nano는 속도와 비용이 최우선인 분류, 데이터 추출, 순위화, 하위 에이전트 등의 작업을 위해 설계되었습니다.

GPT-5.4 mini

GPT-5.4 mini

GPT-5.4 mini는 대규모 워크로드를 위해 설계된 더 빠르고 더 효율적인 모델에 GPT-5.4의 강점을 접목합니다.

Claude Mythos Preview

Claude Mythos Preview

곧 출시 예정

Claude Mythos Preview는 현재까지 우리의 가장 강력한 프런티어 모델이며, 이전 프런티어 모델인 Claude Opus 4.6과 비교해 여러 평가 벤치마크 점수에서 놀라운 도약을 보여줍니다.

mimo-v2-pro

mimo-v2-pro

MiMo-V2-Pro는 Xiaomi의 플래그십 파운데이션 모델로, 총 1T 파라미터와 1M 컨텍스트 길이를 갖추고 있으며, 에이전트 중심 시나리오에 맞춰 깊이 최적화되었습니다. OpenClaw와 같은 범용 에이전트 프레임워크와의 호환성이 뛰어납니다. 표준 PinchBench 및 ClawBench 벤치마크에서 글로벌 최상위권에 속하며, 체감 성능은 Opus 4.6에 근접합니다. MiMo-V2-Pro는 에이전트 시스템의 두뇌로 기능하도록 설계되어 복잡한 워크플로를 오케스트레이션하고, 프로덕션 엔지니어링 작업을 추진하며, 신뢰할 수 있는 결과를 제공합니다.

mimo-v2-omni

mimo-v2-omni

MiMo-V2-Omni는 단일 통합 아키텍처 내에서 이미지, 비디오 및 오디오 입력을 네이티브로 처리하는 최첨단 옴니모달 모델입니다. 강력한 멀티모달 지각과 에이전트적 역량 - 시각적 그라운딩, 다단계 계획, 도구 사용, 코드 실행 - 의 결합으로, 여러 모달리티에 걸친 복잡한 현실 세계의 과제에 적합합니다. 256K 컨텍스트 윈도우.

MiniMax-M2.7

MiniMax-M2.7

MiniMax-M2.7은 표준 버전과 동일한 최고 수준의 지능—재귀적 자기 진화와 전문가 수준의 오피스 생산성을 포함—을 제공하지만, 1초 미만의 지연 시간과 고속 토큰 생성이 필요한 애플리케이션을 위해 설계되었습니다. 강화된 추론 백본 아키텍처를 활용하여 출력 속도는 표준 모델 대비 66% 더 빠르며 100 tps에 도달합니다. 대화형 프로그래밍 어시스턴트, 실시간 에이전트 루프 실행, 그리고 엄격한 완료 시간 요구 사항이 있는 고처리량 엔터프라이즈 파이프라인에 가장 선호되는 선택입니다.

GLM 5 Turbo

GLM 5 Turbo

출력:$3.264/M

GLM-5 Turbo는 Z.ai의 새로운 모델로, OpenClaw 시나리오와 같은 에이전트 주도형 환경에서 빠른 추론과 강력한 성능을 발휘하도록 설계되었습니다.

GPT-5.4 pro

GPT-5.4 pro

맥락:1,050,000

더 지능적이고 더 정밀한 응답을 생성하는 GPT-5.4 버전.

GPT-5.4

GPT-5.4

맥락:1,050,000

GPT-5.4는 복잡한 전문 업무를 위한 최첨단 모델입니다. Reasoning.effort은 다음을 지원합니다: none(기본값), low, medium, high 및 xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

ChatGPT에서 사용되는 GPT-5.3 Instant 모델

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite는 Google의 Gemini 3 시리즈에 속한, 매우 비용 효율적이고 저지연인 Tier-3 모델로, 최대 추론 깊이보다 처리량과 속도가 더 중요한 대량 처리 프로덕션 AI 워크플로를 위해 설계되었습니다. 대형 멀티모달 컨텍스트 윈도우와 효율적인 추론 성능을 결합하면서, 대부분의 플래그십 동급 모델보다 더 낮은 비용으로 제공됩니다.

Claude Haiku 4.5

Claude Haiku 4.5

가장 빠르고 비용 효율적인 모델.

Sora 2 Pro

Sora 2 Pro

Sora 2 Pro는 동기화된 오디오가 포함된 동영상을 생성할 수 있는, 당사에서 가장 진보되고 강력한 미디어 생성 모델입니다. 자연어 또는 이미지로부터 정교하고 역동적인 동영상 클립을 생성할 수 있습니다.

Sora 2

Sora 2

초강력 비디오 생성 모델, 효과음 지원, 채팅 형식 지원.

mj_fast_video

mj_fast_video

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

네이티브 비전-언어 모델인 Qwen3.5 시리즈의 QWEN3.5-397B-A17B는 추론, 프로그래밍, 에이전트 역량, 멀티모달 이해 등 종합 벤치마크 평가에서 탁월한 성능을 보이며, 개발자와 기업의 생산성을 크게 높이는 데 도움을 줍니다. 이 모델은 선형 어텐션(Gated Delta Networks)과 스파스 하이브리드 전문가(MoE)를 결합한 혁신적인 하이브리드 아키텍처를 채택해 우수한 추론 효율을 실현합니다: 총 397 billion 파라미터에 대해 순전파 한 번당 활성화되는 파라미터는 17 billion에 불과하여, 역량을 유지하면서 속도와 비용을 최적화합니다. 또한 지원 언어와 방언을 119개에서 201개로 확대해 전 세계 사용자에게 더 넓은 가용성과 더 나은 지원을 제공합니다.

Grok 4.20

Grok 4.20

맥락:2,000,000

Grok 4.20 릴리스는 멀티에이전트 아키텍처(실시간으로 조율되는 여러 특화 에이전트), 확장된 컨텍스트 모드, 그리고 지시 준수 능력, 환각 감소, 구조화된/도구 연계 출력에 대한 집중적인 개선을 도입합니다.

Grok Imagine Video

Grok Imagine Video

텍스트 프롬프트로 동영상을 생성하거나, 정지 이미지를 애니메이션으로 만들거나, 자연어로 기존 동영상을 편집할 수 있습니다. API는 생성된 동영상의 길이, 종횡비, 해상도를 설정할 수 있도록 지원하며 — SDK가 비동기 폴링을 자동으로 처리합니다.

gpt-realtime-1.5

gpt-realtime-1.5

오디오 입력 및 출력用 최고의 음성 모델.

gpt-audio-1.5

gpt-audio-1.5

Chat Completions와 함께 오디오 입력과 오디오 출력을 위한 최고의 음성 모델.

GPT 5.3 Codex

GPT 5.3 Codex

GPT-5.3-Codex는 Codex 또는 유사한 환경에서 에이전트 주도 코딩 작업에 최적화되어 있습니다. GPT-5.3-Codex는 추론 강도 설정으로 low, medium, high 및 xhigh를 지원합니다.

Doubao Seedream 5

Doubao Seedream 5

요청당:$0.028

Seedream 5.0 Lite는 심층적 사고와 온라인 검색 기능을 갖춘 통합 멀티모달 이미지 생성 모델로, 이해·추론·생성 능력이 전반적으로 업그레이드되었습니다.

Gemini 3.1 Pro

Gemini 3.1 Pro

Gemini 3.1 Pro는 기본적으로 멀티모달인 고성능 추론 모델로 구성된 Gemini 모델 시리즈의 차세대 모델입니다. Gemini 3 Pro는 이제 복잡한 작업을 위한 Google의 가장 진보된 모델이며, 텍스트, 오디오、이미지、비디오、전체 코드 저장소를 포함해 다양한 정보 출처로부터 방대한 데이터셋과 난도 높은 문제를 이해할 수 있습니다.

qwen3.5-plus

qwen3.5-plus

Qwen3.5 네이티브 비전-언어 시리즈 Plus 모델은 선형 어텐션 메커니즘과 희소 Mixture-of-Experts(MoE) 모델을 통합한 하이브리드 아키텍처를 기반으로 구축되어, 더 높은 추론 효율성을 달성합니다.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Qwen3.5 시리즈 397B-A17B 네이티브 비전-언어 모델은 선형 어텐션 메커니즘과 희소 Mixture-of-Experts 모델을 통합한 하이브리드 아키텍처를 기반으로 구축되어 더 높은 추론 효율을 달성한다.

Doubao-Seed-2.0

Doubao-Seed-2.0

입력:$0.024/M

🔹 Doubao Seed 2.0 시리즈 doubao-seed-2-0-code-preview-260215 긴 연쇄 추론 능력과 복잡한 작업에서의 안정성에 초점을 맞추며, 실제 비즈니스 환경의 복잡한 시나리오에 맞게 최适화되었습니다. Seed 2.0의 코딩 강화 버전으로서, Agentic Coding에 더 적합합니다. doubao-seed-2-0-lite-260215 생성 품질과 응답 속도의 균형을 이뤄, 범용 프로덕션급 모델로 적합합니다. doubao-seed-2-0-mini-260215 저지연, 높은 동시성, 비용 민감한 시나리오를 위해 설계되었습니다. 빠른 응답과 유연한 추론 배포를 강조하며, 4단계 사고와 멀티모달 이해 능력을 지원합니다.

MiniMax M2.5

MiniMax M2.5

MiniMax-M2.5는 현실 세계의 생산성을 위해 설계된 최첨단 대규모 언어 모델입니다. 다양한하고 복잡한 현실 세계 디지털 업무 환경에서 학습된 M2.5는 M2.1의 코딩 전문성을 바탕으로 일반 사무 업무로 확장되어, Word, Excel, PowerPoint 파일을 생성하고 다루는 데 능숙하고, 다양한 소프트웨어 환경 간 컨텍스트를 전환하며, 서로 다른 에이전트 및 인간 팀에 걸쳐 작업합니다.