Qwen3의 훈련 디코딩: 심층 분석

CometAPI
AnnaMay 28, 2025
Qwen3의 훈련 디코딩: 심층 분석

알리바바의 최신 하이브리드 추론 대규모 언어 모델(LLM)인 Qwen3의 출시는 AI 연구 및 응용 분야의 틀을 다시 한번 뒤바꿔 놓았습니다. 이 놀라운 기능의 이면에는 다양한 데이터에 대한 방대한 사전 학습, 아키텍처 혁신, 그리고 다단계 사후 학습 파이프라인을 아우르는 정교하게 설계된 학습 프로세스가 있습니다. 이 글에서는 Qwen3가 어떻게 훈련하는지원시 데이터 수집부터 추론 및 배포를 위한 미세 조정까지 각 단계를 살펴보고, 설계와 성능을 좌우하는 핵심 질문에 답합니다.

Qwen3의 사전 훈련은 어떤 데이터를 기반으로 이루어집니까?

토큰 수 확장: 수조 개에서 수십조 개로

Qwen3의 기반은 전례 없는 코퍼스를 기반으로 구축되었습니다.36조 개가 넘는 토큰 119개 이상의 언어와 방언을 지원합니다. 이는 2.5조 개의 토큰을 학습했던 이전 버전인 Qwen18의 토큰 용량의 거의 두 배에 달합니다. Qwen3는 데이터 규모를 확장함으로써 더욱 풍부한 언어 패턴, 세계 지식, 그리고 특정 분야에 특화된 콘텐츠를 수집합니다.

다양한 데이터 소스 활용: 웹, PDF, 합성 콘텐츠

이 거대한 데이터 세트를 조립하기 위해 Alibaba는 웹 크롤링을 결합했습니다. PDF와 유사한 문서 Qwen2.5-VL을 통해 처리되어 기술 텍스트 및 학술 자료의 고품질 추출을 보장합니다. 또한, Qwen2.5-Math와 Qwen2.5-Coder를 활용한 맞춤형 합성 데이터 생성을 통해 수백만 개의 수학 문제 풀이와 코드 조각으로 코퍼스를 보강하여 STEM 및 프로그래밍 유창성을 향상시켰습니다.

Qwen3의 사전 훈련 과정은 어떻게 구성되어 있나요?

1단계: 기초 지식 구축

In 1단계(S1), Qwen3는 다음에 대해 훈련됩니다. 30조 개가 넘는 토큰 표준 4K 컨텍스트 트랜스포머 백본을 사용합니다. 이 단계는 인간의 문해력을 위한 "알파벳 학습"과 유사하게 기본적인 언어 이해와 일반 영역 지식을 심어줍니다.

2단계: 지식 집약적 역량 강화

이사 2단계(S2), 데이터 세트는 강조하기 위해 재조정됩니다. 지식 집약적 콘텐츠—STEM 텍스트, 코딩 과제, 추론 과제. 추가 5조 토큰 수집되어 복잡한 학문적, 기술적 문제를 해결하는 모델의 능력이 강화됩니다.

3단계: 컨텍스트 길이 확장

마지막으로, 장기 컨텍스트 사전 훈련 단계 Qwen3의 기본 컨텍스트 창을 확장하기 위해 고품질 문서를 ​​활용합니다. 32K 토큰이를 통해 연구 논문이나 여러 단계로 구성된 지침과 같은 긴 입력 내용을 처리하고 추론할 수 있게 되었습니다.

Qwen3의 성능을 가능하게 하는 구조적 혁신은 무엇입니까?

밀집 모델 vs. 전문가 혼합 모델(MoE)

Qwen3는 두 가지 모두 제공합니다 밀집한전문가 혼합(MoE) 변형. 고밀도 모델은 매개변수가 0.6B에서 32B에 이르는 반면, MoE 버전은 토큰당 소수의 전문가(예: 8명 중 128명)만 활성화하여 성능 저하 없이 활성 컴퓨팅을 최대 90%까지 줄입니다.

주의 및 정규화 향상

다음과 같은 혁신 헤드당 QK 정규화 재설계된 주의 편향은 대규모 환경에서 안정성을 향상시킵니다. 이러한 개선을 통해 심층 모델(Qwen94-3B-A235B의 경우 최대 22개 계층)이 효율적으로 수렴하여 추가된 용량으로 일관된 성능을 보장합니다.

Qwen3는 하이브리드 추론을 어떻게 구현하나요?

사고 모드 vs. 비사고 모드

Qwen3의 특징은 다음과 같습니다. 하이브리드 추론:

  • 생각 모드: 사고의 사슬(CoT) 추론을 활용하여 최종 답을 도출하기 전에 문제를 중간 단계로 나눕니다.
  • 비사고 모드: 명확한 중간 추론 없이 신속하게 응답합니다.
    사용자는 다음을 통해 모드를 전환할 수 있습니다. enable_thinking 플래그 또는 인라인 태그(/think, /no_think), 추론을 작업 복잡성에 맞게 조정합니다.

추론 예산 제어

Qwen3는 추론 단계에 "연산 예산"을 할당함으로써 비용 대비 품질 균형을 보장합니다. 더 어려운 작업은 더 심층적인 추론(더 많은 연산)을 유발할 수 있으며, 더 간단한 쿼리는 빠른 속도를 유지하여 추론 트레이드오프에 대한 세분화된 제어 .

Qwen3의 훈련 후 파이프라인에는 무엇이 포함됩니까?

사고의 사슬을 이용한 콜드 스타트 ​​미세 조정

The 첫 번째 훈련 후 단계 Qwen3를 미세 조정합니다 다양한 장기 CoT 데이터수학, 논리 퍼즐, 코딩 문제 등을 아우릅니다. 이 "콜드 스타트" 단계는 강화 학습 전에 모델의 명시적 추론 능력을 활성화합니다.

추론을 위한 강화 학습

2단계에서는 컴퓨팅을 확장합니다. **규칙 기반 강화 학습(RL)**수작업으로 제작된 보상 함수를 사용하여 추론 경로 탐색을 안내합니다. 이를 통해 모델은 작업에서 벗어나지 않고 일관된 중간 단계를 생성하는 능력을 향상시킵니다.

사고 모드 융합과 일반 RL

3단계에서는 추론 및 지시 조정 데이터가 병합됩니다.사고 모드 융합— 심층 추론과 일반적인 지시 수행을 결합합니다. 마지막으로, 4단계에서는 20개 이상의 일반 영역 과제(예: 형식 준수, 에이전트 함수)에 강화 학습을 적용하여 원치 않는 행동을 교정하고 유창성을 향상시킵니다.

Qwen3는 Qwen2.5와 어떻게 다릅니까?

Qwen2.5가 Alibaba의 오픈 LLM 부문 리더십을 확립한 반면, Qwen3은 몇 가지 핵심적인 개선 사항을 제공합니다.

특색Qwen2.5Qwen3
매개변수 스케일최대 72B(고밀도)최대 235B(MoE) + 고밀도 옵션
상황에 맞는 창16K 토큰128K 토큰(대부분의 변형)
언어 범위29 언어119 개 언어와 방언
추론 통합별도의 추론 모델통합적 사고/비사고 모드
오픈웨이트 가용성네(아파치 2.0)네(아파치 2.0)

이러한 업그레이드를 통해 더욱 다양하고 정확하며 전 세계적으로 접근 가능한 모델이 탄생했습니다.

Qwen3는 실시간 배포에 어떻게 최적화되어 있나요?

Qwen3의 엔지니어링은 훈련 외에도 프로덕션 등급 에이전트와 조종사를 지원하기 위해 저지연 추론과 확장 가능한 배포에 중점을 둡니다.

Cerebras의 하드웨어 가속

Cerebras는 Qwen3-32B를 사용하여 실시간 추론을 시연했으며, 웨이퍼 규모 엔진과 Qwen1.2 아키텍처에 최적화된 특수 추론 커널을 활용하여 60초 이내에 응답을 제공했습니다. 이는 비슷한 추론 모델보다 최대 3배 빠릅니다.

클라우드 배포 및 API 준비

알리바바 클라우드는 자동 확장 GPU 클러스터와 추론 최적화 CPU 노드를 갖춘 API 제품군을 통해 Qwen3를 제공합니다. 개발자는 내장된 LoRA 지원을 활용하여 Qwen3 변형을 미세 조정하고 배포하여 리소스 소비를 줄이고, 대규모 AI 서비스를 비용 효율적이고 접근성 있게 구축할 수 있습니다.

개발자는 Qwen3를 어떻게 활용할 수 있나요?

알리바바는 Qwen3를 출시했습니다. 아파치 2.0 라이선스를 통해 글로벌 연구 커뮤니티와 기업 개발자들이 특수 응용 분야에 맞게 모델 패밀리를 채택, 조정, 확장할 수 있도록 초대합니다.

어떤 변형이 가능합니까?

  • 밀집 모델(0.6B, 3B, 22B, 32B)
    온프레미스 배포 및 엣지 시나리오에 적합한 이러한 변형 제품은 간단한 통합을 통해 강력한 기능을 제공합니다.
  • MoE 모델(총 매개변수 235B개, 활성 매개변수 22B개)
    처리량이 높은 클라우드 서비스를 위해 설계된 이러한 대규모 구성은 최적화된 리소스 활용으로 최대 추론 깊이와 다국어 유창성을 제공합니다.

API와 온프레미스 옵션은 어떻게 다른가요?

개발자는 다음 중에서 선택할 수 있습니다.

  • 알리바바 클라우드 API: 자동 확장 기능을 갖춘 관리형 엔드포인트로, 신속한 프로토타입 제작과 글로벌 배포가 가능합니다.
  • 셀프 호스팅 배포: Docker 컨테이너와 Kubernetes 매니페스트가 제공되어 데이터 상주와 보안이 가장 중요한 규정 준수 시나리오를 원활하게 진행할 수 있습니다.
  • 코멧API: 개발자가 액세스할 수 있습니다 퀀 3 API를 통해 코멧APICometAPI는 수백 개의 AI 모델을 집계하는 통합 REST 인터페이스를 제공합니다.

어떤 커뮤니티와 생태계 지원이 존재합니까?

  • 오픈소스 저장소: Qwen GitHub은 모델 가중치, 교육 스크립트, 미세 조정 툴킷을 호스팅하여 커뮤니티 중심의 혁신을 장려합니다.
  • 사전 구축된 통합: 인기 있는 ML 프레임워크(TensorFlow, PyTorch) 및 타사 플랫폼(LangChain, Hugging Face)용 플러그인을 사용하면 가치 실현 시간이 단축됩니다.
  • 연구 협력: Alibaba는 arXiv에 Qwen3 기술 보고서 ​​전문을 게시하여 아키텍처 결정과 교육 방법론에 대한 투명성을 제공했습니다.

대규모 다단계 사전 학습, 구조적 혁신, 그리고 정교한 사후 학습 파이프라인을 통해 Qwen3는 하이브리드 추론의 새로운 기준을 제시합니다. 유연한 사고 모드, 효율적인 MoE 변형, 그리고 풍부한 배포 생태계는 QwenXNUMX를 오픈소스 AI의 선두주자로 자리매김하여 연구자와 개발자가 차세대 지능형 에이전트를 구축할 수 있도록 지원합니다.

시작 가이드

CometAPI는 수백 개의 AI 모델을 일관된 엔드포인트로 통합하는 통합 REST 인터페이스를 제공하며, 내장된 API 키 관리, 사용량 할당량 및 청구 대시보드를 통해 여러 공급업체 URL과 자격 증명을 일일이 관리할 필요가 없습니다.

개발자는 액세스할 수 있습니다 퀀 3 API를 통해 코멧API시작하려면 Playground에서 모델의 기능을 탐색하고 다음을 참조하세요. API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인