기술 사양(빠른 참조 표)
| 항목 | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (hosted) |
|---|---|---|---|---|
| 파라미터 규모 | ~122B(중대형) | ~27B(덴스) | ~35B(MoE/A3B 하이브리드) | 35B-A3B 가중치에 대응(호스팅) |
| 아키텍처 참고 | 하이브리드(게이티드 델타 + 계열 내 MoE 어텐션) | 덴스 트랜스포머 | 희소/전문가 혼합(MoE) 변형(A3B) | 35B-A3B와 동일한 아키텍처, 프로덕션 기능 |
| 입력/출력 모달리티 | 텍스트, 비전-언어(초기 융합 멀티모달 토큰); 채팅형 I/O | 텍스트, V+L 지원 | 텍스트 + 비전(에이전트형 도구 호출 지원) | 텍스트 + 비전; 공식 도구 통합 및 API 출력 |
| 기본 최대 컨텍스트(로컬/표준) | 구성 가능(대형) — 계열은 매우 긴 컨텍스트 지원 | 구성 가능 | 262,144 토큰(표준 로컬 구성 예) | 1,000,000 토큰(호스팅 Flash 기본값). |
| 서빙/API | OpenAI 스타일 채팅 컴플리션 호환; vLLM / SGLang / Transformers 권장 | 동일 | 동일(모델 카드에 CLI/vLLM 명령 예시) | 호스팅 API(Alibaba Cloud Model Studio/Qwen Chat); 추가적인 프로덕션 관측 및 스케일링. |
| 일반적 사용 사례 | 에이전트, 추론, 코딩 보조, 장문 문서 작업, 멀티모달 보조 | 경량/단일 GPU 추론, 작은 풋프린트의 에이전트형 작업 | 프로덕션 에이전트 배포, 장문 컨텍스트 멀티모달 작업 | 프로덕션 에이전트 SaaS: 장문 컨텍스트, 도구 사용, 관리형 추론 |
Qwen-3.5 Flash란 무엇인가
Qwen-3.5 Flash는 35B-A3B 오픈 웨이트에 매핑되면서 프로덕션 기능을 더한 Qwen3.5 패밀리의 프로덕션/호스팅 제공형입니다. 확장된 기본 컨텍스트(호스팅 제품은 최대 1M 토큰을 표기), 공식 도구 통합, 에이전트형 워크플로와 스케일링을 단순화하는 관리형 추론 엔드포인트를 제공합니다. 한마디로: Flash = 장문 컨텍스트, 도구 사용, 처리량을 위한 추가 엔지니어링이 더해진 클라우드 호스팅형, 프로덕션 준비된 35B A3B 변형입니다.
Qwen-3.5 Flash Series는 더 넓은 **Qwen 3.5 “Medium model series”**의 일부로, 다음과 같은 여러 모델을 포함합니다:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
이 라인업에서 Qwen3.5-Flash는 프로덕션 API 버전으로, 본질적으로 개발자와 엔터프라이즈에 최적화된 빠르고 배포 가능한 35B 모델입니다. 👉 Flash는 본질적으로 35B-A3B 모델 위에 구축된 **“엔터프라이즈 런타임 레이어”**입니다.
Qwen-3.5 Flash의 주요 기능
- 통합 비전-언어 기반 — 초기 융합 멀티모달 토큰으로 학습되어 텍스트와 이미지를 일관된 스트림으로 처리(추론 및 시각 에이전트 작업 향상).
- 하이브리드/효율적 아키텍처 — 일부 규모에서 게이티드 델타 네트워크 + 희소 전문가 혼합(MoE) 패턴(A3B는 희소 변형을 의미)을 사용하여, 연산 대비 높은 능력의 트레이드오프 제공.
- 장문 컨텍스트 지원 — 계열은 로컬에서 매우 긴 컨텍스트를 지원(예시 구성은 최대 262,144 토큰)하고, Flash 호스팅 제품은 프로덕션 워크플로를 위해 기본 1,000,000 토큰 컨텍스트를 제공합니다. 이는 에이전트 체인, 문서 QA, 다문서 종합에 최적화되어 있습니다.
- 에이전트형 도구 사용 — 도구 호출, 추론 파이프라인, “생각” 또는 추측적 샘플링에 대한 네이티브 지원과 파서로, 모델이 구조화된 방식으로 외부 API나 도구를 계획하고 호출할 수 있게 합니다.
Qwen-3.5 Flash의 벤치마크 성능
| 벤치마크/카테고리 | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash는 35B-A3B와 일치) |
|---|---|---|---|---|
| MMLU-Pro(지식) | 86.7 | 86.1 | 85.3 (35B) | Flash ≈ 35B-A3B 공개 프로파일. |
| C-Eval(중국 시험) | 91.9 | 90.5 | 90.2 | |
| IFEval(지시 따르기) | 93.4 | 95.0 | 91.9 | |
| AA-LCR(장문 컨텍스트 추론) | 66.9 | 66.1 | 58.5 | (로컬 구성은 최대 262k 토큰의 장문 컨텍스트 설정을 보여줌; Flash는 기본 1M을 표기). |
요약: Qwen3.5 미디엄 및 소형 변형(예: 27B, 122B A10B)은 많은 지식 및 지시 벤치마크에서 프런티어 모델과의 격차를 좁이며, 35B-A3B(및 Flash)는 경쟁력 있는 MMLU/C-Eval 점수를 유지하면서(더 큰 모델 대비) 프로덕션 트레이드오프(처리량 + 장문 컨텍스트)에 초점을 맞춥니다.
🆚 Qwen 3.5 패밀리에서의 Qwen-3.5 Flash 위치
이 시리즈는 다음과 같습니다:
| 모델 | 역할 |
|---|---|
| Qwen3.5-Flash | ⚡ 빠른 프로덕션 API |
| Qwen3.5-35B-A3B | 🧠 균형 잡힌 코어 모델 |
| Qwen3.5-122B-A10B | 🏆 더 높은 추론 성능 |
| Qwen3.5-27B | 💻 더 작고 효율적인 로컬 모델 |
👉 Flash = 35B와 동일한 지능 티어, 배포에 최적화.
Qwen-3.5 Flash를 사용할 때
다음이 필요하다면 사용하세요:
- 실시간 AI(챗봇, 보조)
- 도구를 활용하는 AI 에이전트(검색, API, 자동화)
- 대규모 문서 또는 코드 분석
- 대규모 프로덕션 API
Qwen-3.5 Flash API 액세스 방법
1단계: API 키 등록
cometapi.com에 로그인하세요. 아직 사용자가 아니라면 먼저 등록하세요. CometAPI 콘솔에 로그인합니다. 인터페이스의 액세스 자격 증명 API 키를 획득하세요. 개인 센터의 API 토큰에서 “Add Token”을 클릭하여 토큰 키(sk-xxxxx)를 발급받고 제출하세요.

2단계: Qwen-3.5 Flash API로 요청 보내기
“qwen3.5-flash” 엔드포인트를 선택해 API 요청을 보내고 요청 본문을 설정하세요. 요청 방식과 요청 본문은 당사 웹사이트의 API 문서에서 확인할 수 있습니다. 편의를 위해 웹사이트에서 Apifox 테스트도 제공합니다. <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 바꾸세요. 기본 base url은 Chat Completions입니다.
질문이나 요청을 content 필드에 삽입하세요 — 모델은 여기에 응답합니다. API 응답을 처리해 생성된 답변을 얻으세요.
3단계: 결과 조회 및 검증
API 응답을 처리해 생성된 답변을 얻으세요. 처리 후, API는 작업 상태와 출력 데이터를 반환합니다.