Расшифровка обучения Qwen3: глубокое погружение

CometAPI
AnnaMay 28, 2025
Расшифровка обучения Qwen3: глубокое погружение

Запуск Qwen3, новейшей гибридной модели логического мышления (LLM) Alibaba, снова изменил контуры исследований и применения ИИ. За его замечательными возможностями скрывается тщательно разработанный процесс обучения, который охватывает массивное предварительное обучение на разнообразных данных, архитектурные инновации и многоступенчатый конвейер постобучения. В этой статье раскрывается как тренируется Qwen3, исследуя каждый этап, от приема необработанных данных до тонкой настройки для обоснования и развертывания, отвечая на ключевые вопросы, определяющие его дизайн и производительность.

Какие данные лежат в основе предварительного обучения Qwen3?

Увеличение количества токенов: от триллионов до десятков триллионов

В основе Qwen3 лежит беспрецедентный корпус —более 36 трлн токенов охватывающий более 119 языков и диалектов. Это почти вдвое больше объема токенов, использованных в его предшественнике Qwen2.5, который обучался на 18 триллионах токенов. Масштабируя величину данных, Qwen3 поглощает более богатую палитру языковых шаблонов, мировых знаний и доменно-специфического контента.

Использование различных источников данных: Интернет, PDF-файлы и синтетический контент

Чтобы собрать этот колоссальный набор данных, Alibaba объединила веб-сканирование с Документы в формате PDF обработано с помощью Qwen2.5-VL, что обеспечивает высококачественное извлечение технических текстов и академических материалов. Более того, целенаправленная синтетическая генерация данных — с использованием Qwen2.5-Math и Qwen2.5-Coder — дополнила корпус миллионами решений математических задач и фрагментами кода, укрепив STEM и беглость программирования.

Как структурирован процесс предварительной подготовки в Qwen3?

Этап 1: Формирование базовых знаний

In Этап 1 (S1), Qwen3 обучен на более 30 трлн токенов с использованием стандартной 4K-контекстной основы Transformer. Этот этап прививает базовое понимание языка и общие знания, аналогичные «изучению алфавита» для человеческой грамотности.

Этап 2: Расширение возможностей, требующих больших знаний

Переезд в Этап 2 (S2), набор данных перебалансирован, чтобы подчеркнуть наукоемкий контент— Тексты STEM, задачи по кодированию и рассуждения. Дополнительный 5 триллионов токенов усваиваются, оттачивая способность модели решать сложные академические и технические проблемы.

Этап 3: Увеличение длины контекста

Наконец, этап предварительного обучения с длительным контекстом использует высококачественные документы для расширения собственного контекстного окна Qwen3 32 тысяч токенов, предоставляя ему возможность обрабатывать и рассуждать на основе объемных входных данных, таких как исследовательские работы или многошаговые инструкции.

Какие архитектурные инновации обеспечивают производительность Qwen3?

Модели «плотные» и «смешанные эксперты» (MoE)

Qwen3 предлагает оба варианта плотный и Смесь экспертов (МО) варианты. Плотные модели содержат от 0.6 млрд до 32 млрд параметров, в то время как версии MoE активируют лишь небольшую часть экспертов (например, 8 из 128) на токен, сокращая активные вычисления до 90% без ущерба для производительности.

Улучшения внимания и нормализации

Инновации, такие как нормализация QK по головке и переработанные смещения внимания повышают стабильность в масштабе. Эти усовершенствования позволяют более глубоким моделям (до 94 слоев в Qwen3-235B-A22B) эффективно сходиться, обеспечивая последовательный прирост с дополнительной емкостью.

Как Qwen3 реализует гибридное мышление?

Режим мышления против режима немышления

Отличительной чертой Qwen3 является его гибридное рассуждение:

  • Режим мышления: Задействует цепочку рассуждений (CoT), разбивая проблемы на промежуточные этапы перед выдачей окончательного ответа.
  • Режим не-думания: Дает быстрые ответы без явных промежуточных рассуждений.
    Пользователи могут переключать режимы с помощью enable_thinking флаговые или встроенные теги (/think, /no_think), адаптируя вывод к сложности задачи.

Контроль бюджетов рассуждений

Выделяя «вычислительные бюджеты» на этапы рассуждения, Qwen3 обеспечивает баланс между стоимостью и качеством. Более сложные задачи могут вызывать более глубокие рассуждения (больше вычислений), в то время как более простые запросы остаются быстрыми, предлагая детальный контроль над компромиссами вывода .

Что включает в себя посттренировочный процесс Qwen3?

Тонкая настройка с помощью цепочки мыслей о холодном запуске

The первый посттренировочный этап тонкие настройки Qwen3 на разнообразные длинные данные CoT, охватывающий математику, логические головоломки и проблемы кодирования. Эта фаза «холодного старта» запускает явные способности модели к рассуждению перед обучением с подкреплением.

Обучение с подкреплением для рассуждений

Этап 2 увеличивает масштаб вычислений для обучение с подкреплением на основе правил (RL), используя вручную созданные функции вознаграждения для руководства исследованием путей рассуждения. Это оттачивает способность модели генерировать последовательные промежуточные шаги без отхода от задачи.

Слияние режимов мышления и общее RL

На третьем этапе данные рассуждений и настроенные на инструкции данные объединяются.слияние режимов мышления— для объединения глубокого рассуждения с общим следованием инструкциям. Наконец, этап 4 применяет RL в более чем 20 задачах общей области (например, соблюдение формата, агентные функции), исправляя нежелательное поведение и шлифуя беглость.

Чем Qwen3 отличается от Qwen2.5?

В то время как Qwen2.5 обеспечил Alibaba лидерство в области открытых программ LLM, Qwen3 привносит несколько важных улучшений:

ОсобенностьКвен2.5Квен3
Параметрические шкалыДо 72Б (плотный)До 235B (MoE) + плотные опции
Контекстное окно16 тысяч токенов128 тыс. токенов (большинство вариантов)
Языковой охватЯзыки 29119 языков и диалектов
Интеграция рассужденийОтдельная модель рассужденийЕдиные режимы мышления/немышления
Наличие открытого весаДа (Apache 2.0)Да (Apache 2.0)

Эти обновления приводят к созданию более универсальных, точных и доступных по всему миру моделей.

Как Qwen3 оптимизирован для развертывания в реальном времени?

Помимо обучения, инженеры Qwen3 уделяют особое внимание логическому выводу с малой задержкой и масштабируемому развертыванию для поддержки агентов и вторых пилотов производственного уровня.

Аппаратное ускорение на Cerebras

Компания Cerebras продемонстрировала способность к рассуждениям в реальном времени с помощью Qwen3-32B, предоставляя ответы в течение 1.2 секунды — до 60 раз быстрее, чем сопоставимые модели рассуждений — за счет использования своего процессора масштаба пластины и специализированных ядер вывода, оптимизированных для архитектуры Qwen3.

Развертывание в облаке и готовность API

Alibaba Cloud предлагает Qwen3 через свой набор API с автоматически масштабируемыми кластерами GPU и оптимизированными для вывода узлами CPU. Разработчики могут настраивать и развертывать варианты Qwen3, используя встроенную поддержку LoRA, чтобы сократить потребление ресурсов, делая крупномасштабные службы ИИ экономически эффективными и доступными.

Как разработчики могут использовать Qwen3?

Alibaba выпустила Qwen3 под Apache 2.0 лицензия, приглашающая мировое исследовательское сообщество и корпоративных разработчиков принять, адаптировать и расширить семейство моделей для специализированных приложений.

Какие варианты доступны?

  • Плотные модели (0.6B, 3B, 22B, 32B)
    Эти варианты идеально подходят для локальных развертываний и периферийных сценариев и обеспечивают надежные возможности с простой интеграцией.
  • Модели MoE (всего 235B параметров; 22B активных)
    Эти более крупные конфигурации, разработанные для высокопроизводительных облачных сервисов, обеспечивают максимальную глубину рассуждений и многоязыковую гибкость при оптимизированном использовании ресурсов.

Чем отличаются API и локальные варианты?

Разработчики могут выбирать между:

  • API облака Alibaba: Управляемая конечная точка с автоматическим масштабированием, обеспечивающая быстрое создание прототипов и глобальное распространение.
  • Самостоятельное развертывание: Предоставляются контейнеры Docker и манифесты Kubernetes, облегчающие выполнение сценариев с жесткими требованиями к соблюдению нормативных требований, где первостепенное значение имеют размещение и безопасность данных.
  • CometAPI: Разработчики могут получить доступ Квен 3 API через CometAPI. CometAPI предоставляет унифицированный интерфейс REST, объединяющий сотни моделей ИИ.

Какая поддержка со стороны сообщества и экосистемы существует?

  • Репозиторий с открытым исходным кодом: Qwen GitHub размещает веса моделей, обучающие скрипты и наборы инструментов для тонкой настройки, поощряя инновации, инициированные сообществом.
  • Готовые интеграции: Плагины для популярных фреймворков машинного обучения (TensorFlow, PyTorch) и сторонних платформ (LangChain, Hugging Face) ускоряют окупаемость проектов.
  • Сотрудничество в области исследований: Alibaba опубликовала полный технический отчет Qwen3 на arXiv, предлагая прозрачность архитектурных решений и методик обучения.

Благодаря массивному многоэтапному предварительному обучению, архитектурным прорывам и сложному конвейеру постобучения Qwen3 достигает нового уровня в гибридном мышлении. Его гибкие режимы мышления, эффективные варианты MoE и богатая экосистема развертывания ставят его на передовую позицию ИИ с открытым исходным кодом, предоставляя исследователям и разработчикам возможность создавать следующее поколение интеллектуальных агентов.

Первые шаги

CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ — в рамках единой конечной точки, со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо жонглирования несколькими URL-адресами поставщиков и учетными данными.

Разработчики могут получить доступ Квен 3 API через CometAPI.Для начала изучите возможности модели на игровой площадке и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.

Читать далее

500+ моделей в одном API

Скидка до 20%