기술 사양(빠른 참조 표)
| Item | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (hosted) |
|---|---|---|---|---|
| Parameter scale | ~122B (중대형) | ~27B (덴스) | ~35B (MoE / A3B 하이브리드) | 35B-A3B 가중치에 대응(호스팅) |
| Architecture notes | 하이브리드(게이티드 델타 + 제품군 내 MoE 어텐션) | 덴스 트랜스포머 | 스파스/ Mixture-of-Experts 변형(A3B) | 35B-A3B와 동일한 아키텍처, 프로덕션 기능 |
| Input / output modalities | 텍스트, 비전-언어(조기 융합 멀티모달 토큰); 채팅형 I/O | 텍스트, V+L 지원 | 텍스트 + 비전(에이전트 도구 호출 지원) | 텍스트 + 비전; 공식 도구 통합 및 API 출력 |
| Default maximum context (local / standard) | 구성 가능(대형) — 제품군이 매우 긴 컨텍스트 지원 | 구성 가능 | 262,144 토큰(표준 로컬 구성 예) | 1,000,000 토큰(호스티드 Flash의 기본값). |
| Serving / API | OpenAI 스타일 채팅 컴플리션과 호환; vLLM / SGLang / Transformers 권장 | 동일 | 동일(모델 카드에 CLI / vLLM 명령 예시) | 호스티드 API(Alibaba Cloud Model Studio / Qwen Chat); 추가적인 프로덕션 관측 및 스케일링 |
| Typical use cases | 에이전트, 추론, 코딩 보조, 장문 문서 작업, 멀티모달 어시스턴트 | 경량/단일 GPU 추론, 작은 풋프린트의 에이전트 작업 | 프로덕션 에이전트 배포, 장문맥 멀티모달 작업 | 프로덕션 에이전트 SaaS: 긴 컨텍스트, 도구 사용, 관리형 추론 |
What is Qwen-3.5 Flash
Qwen-3.5 Flash는 Qwen3.5 제품군의 프로덕션/호스팅 제품으로, 35B-A3B 오픈 웨이트에 매핑되지만 프로덕션 기능을 추가합니다: 확장된 기본 컨텍스트(호스티드 제품은 최대 1M 토큰로 안내), 공식 도구 통합, 에이전트 워크플로와 스케일링을 단순화하는 관리형 추론 엔드포인트 등. 한마디로 말해, Flash = 장문맥, 도구 사용, 처리량을 위한 엔지니어링이 더해진 클라우드 호스팅형 프로덕션 준비 완료 35B A3B 변형입니다.
Qwen-3.5 Flash Series는 더 넓은 Qwen 3.5 “Medium model series”의 일부이며, 다음과 같은 여러 모델을 포함합니다:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
이 라인업에서 Qwen3.5-Flash는 프로덕션 API 버전으로, 본질적으로 개발자와 엔터프라이즈에 최적화된 35B 모델의 빠르고 배포 가능한 버전입니다. 👉 Flash는 본질적으로 35B-A3B 모델 위에 구축된 “엔터프라이즈 런타임 레이어”입니다.
Qwen-3.5 Flash의 주요 기능
- 통합된 비전-언어 기반 — 조기 융합 멀티모달 토큰으로 학습되어 텍스트와 이미지를 일관된 스트림으로 처리(추론 및 시각적 에이전트 작업 개선).
- 하이브리드/효율적 아키텍처 — 일부 사이즈에서 게이티드 델타 네트워크 + 스파스 Mixture-of-Experts(MoE) 패턴(A3B는 스파스 변형을 의미)으로 연산 대비 높은 성능의 트레이드오프 제공.
- 장문맥 지원 — 제품군은 매우 긴 로컬 컨텍스트를 지원(로컬 예시 구성은 최대 262,144 토큰), 호스티드 Flash 제품은 프로덕션 워크플로를 위해 기본 1,000,000 토큰을 제공합니다. 에이전트 체인, 문서 QA, 다중 문서 종합에 맞춰 조정.
- 에이전트형 도구 사용 — 툴 콜, 추론 파이프라인, “thinking” 또는 추측 샘플링을 위한 네이티브 지원과 파서를 제공하여 모델이 계획하고 외부 API나 도구를 구조화된 방식으로 호출할 수 있게 함.
Qwen-3.5 Flash의 벤치마크 성능
| Benchmark / Category | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash aligns w/ 35B-A3B) |
|---|---|---|---|---|
| MMLU-Pro (knowledge) | 86.7 | 86.1 | 85.3 (35B) | Flash ≈ 35B-A3B 공개 프로필과 유사 |
| C-Eval (Chinese exam) | 91.9 | 90.5 | 90.2 | |
| IFEval (instruction following) | 93.4 | 95.0 | 91.9 | |
| AA-LCR (long context reasoning) | 66.9 | 66.1 | 58.5 | (로컬 구성은 최대 262k 토큰의 장문맥 설정을 보여줌; Flash는 기본 1M을 안내). |
Summary: Qwen3.5 미드 및 더 작은 변형(예: 27B, 122B A10B)은 다양한 지식 및 지시 벤치마크에서 프런티어 모델과의 격차를 좁이며, 35B-A3B(및 Flash)는 처리량+긴 컨텍스트라는 프로덕션 트레이드오프를 목표로 하면서 대형 모델 대비 경쟁력 있는 MMLU/C-Eval 점수를 제공합니다.
🆚 Qwen 3.5 패밀리에서 Qwen-3.5 Flash의 위치
Think of the series like this:
| Model | Role |
|---|---|
| Qwen3.5-Flash | ⚡ 빠른 프로덕션 API |
| Qwen3.5-35B-A3B | 🧠 균형 잡힌 코어 모델 |
| Qwen3.5-122B-A10B | 🏆 더 높은 추론 능력 |
| Qwen3.5-27B | 💻 더 작고 효율적인 로컬 모델 |
👉 Flash = 지능 계층은 35B와 동일하지만, 배포에 최적화되어 있습니다.
Qwen-3.5 Flash를 사용할 때
다음이 필요하다면 사용하세요:
- 실시간 AI(챗봇, 어시스턴트)
- 도구를 사용하는 AI 에이전트(검색, API, 자동화)
- 대규모 문서 또는 코드 분석
- 대규모 프로덕션 API
Qwen-3.5 Flash API 액세스 방법
Step 1: API 키 등록
cometapi.com에 로그인하세요. 아직 사용자라면 먼저 회원가입을 진행하세요. CometAPI console에 로그인합니다. 인터페이스의 액세스 자격 API 키를 받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭해 토큰 키 sk-xxxxx를 발급받아 제출하세요.

Step 2: Qwen-3.5 Flash API로 요청 전송
“qwen3.5-flash” 엔드포인트를 선택해 API 요청을 보내고 요청 본문을 설정하세요. 요청 방식과 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 편의를 위해 Apifox 테스트도 제공합니다. 계정에서 발급받은 실제 CometAPI 키로 <YOUR_API_KEY>를 교체하세요. 기본 base url은 Chat Completions입니다.
content 필드에 질문이나 요청을 삽입하세요 — 모델이 해당 내용에 응답합니다. 생성된 답변을 얻기 위해 API 응답을 처리합니다.
Step 3: 결과 검색 및 검증
API 응답을 처리해 생성된 답변을 얻습니다. 처리 후, API는 작업 상태와 출력 데이터를 함께 반환합니다.