Запуск Qwen3, новейшей гибридной модели логического мышления (LLM) Alibaba, снова изменил контуры исследований и применения ИИ. За его замечательными возможностями скрывается тщательно разработанный процесс обучения, который охватывает массивное предварительное обучение на разнообразных данных, архитектурные инновации и многоступенчатый конвейер постобучения. В этой статье раскрывается как тренируется Qwen3, исследуя каждый этап, от приема необработанных данных до тонкой настройки для обоснования и развертывания, отвечая на ключевые вопросы, определяющие его дизайн и производительность.
Какие данные лежат в основе предварительного обучения Qwen3?
Увеличение количества токенов: от триллионов до десятков триллионов
В основе Qwen3 лежит беспрецедентный корпус —более 36 трлн токенов охватывающий более 119 языков и диалектов. Это почти вдвое больше объема токенов, использованных в его предшественнике Qwen2.5, который обучался на 18 триллионах токенов. Масштабируя величину данных, Qwen3 поглощает более богатую палитру языковых шаблонов, мировых знаний и доменно-специфического контента.
Использование различных источников данных: Интернет, PDF-файлы и синтетический контент
Чтобы собрать этот колоссальный набор данных, Alibaba объединила веб-сканирование с Документы в формате PDF обработано с помощью Qwen2.5-VL, что обеспечивает высококачественное извлечение технических текстов и академических материалов. Более того, целенаправленная синтетическая генерация данных — с использованием Qwen2.5-Math и Qwen2.5-Coder — дополнила корпус миллионами решений математических задач и фрагментами кода, укрепив STEM и беглость программирования.
Как структурирован процесс предварительной подготовки в Qwen3?
Этап 1: Формирование базовых знаний
In Этап 1 (S1), Qwen3 обучен на более 30 трлн токенов с использованием стандартной 4K-контекстной основы Transformer. Этот этап прививает базовое понимание языка и общие знания, аналогичные «изучению алфавита» для человеческой грамотности.
Этап 2: Расширение возможностей, требующих больших знаний
Переезд в Этап 2 (S2), набор данных перебалансирован, чтобы подчеркнуть наукоемкий контент— Тексты STEM, задачи по кодированию и рассуждения. Дополнительный 5 триллионов токенов усваиваются, оттачивая способность модели решать сложные академические и технические проблемы.
Этап 3: Увеличение длины контекста
Наконец, этап предварительного обучения с длительным контекстом использует высококачественные документы для расширения собственного контекстного окна Qwen3 32 тысяч токенов, предоставляя ему возможность обрабатывать и рассуждать на основе объемных входных данных, таких как исследовательские работы или многошаговые инструкции.
Какие архитектурные инновации обеспечивают производительность Qwen3?
Модели «плотные» и «смешанные эксперты» (MoE)
Qwen3 предлагает оба варианта плотный и Смесь экспертов (МО) варианты. Плотные модели содержат от 0.6 млрд до 32 млрд параметров, в то время как версии MoE активируют лишь небольшую часть экспертов (например, 8 из 128) на токен, сокращая активные вычисления до 90% без ущерба для производительности.
Улучшения внимания и нормализации
Инновации, такие как нормализация QK по головке и переработанные смещения внимания повышают стабильность в масштабе. Эти усовершенствования позволяют более глубоким моделям (до 94 слоев в Qwen3-235B-A22B) эффективно сходиться, обеспечивая последовательный прирост с дополнительной емкостью.
Как Qwen3 реализует гибридное мышление?
Режим мышления против режима немышления
Отличительной чертой Qwen3 является его гибридное рассуждение:
- Режим мышления: Задействует цепочку рассуждений (CoT), разбивая проблемы на промежуточные этапы перед выдачей окончательного ответа.
- Режим не-думания: Дает быстрые ответы без явных промежуточных рассуждений.
Пользователи могут переключать режимы с помощьюenable_thinkingфлаговые или встроенные теги (/think,/no_think), адаптируя вывод к сложности задачи.
Контроль бюджетов рассуждений
Выделяя «вычислительные бюджеты» на этапы рассуждения, Qwen3 обеспечивает баланс между стоимостью и качеством. Более сложные задачи могут вызывать более глубокие рассуждения (больше вычислений), в то время как более простые запросы остаются быстрыми, предлагая детальный контроль над компромиссами вывода .
Что включает в себя посттренировочный процесс Qwen3?
Тонкая настройка с помощью цепочки мыслей о холодном запуске
The первый посттренировочный этап тонкие настройки Qwen3 на разнообразные длинные данные CoT, охватывающий математику, логические головоломки и проблемы кодирования. Эта фаза «холодного старта» запускает явные способности модели к рассуждению перед обучением с подкреплением.
Обучение с подкреплением для рассуждений
Этап 2 увеличивает масштаб вычислений для обучение с подкреплением на основе правил (RL), используя вручную созданные функции вознаграждения для руководства исследованием путей рассуждения. Это оттачивает способность модели генерировать последовательные промежуточные шаги без отхода от задачи.
Слияние режимов мышления и общее RL
На третьем этапе данные рассуждений и настроенные на инструкции данные объединяются.слияние режимов мышления— для объединения глубокого рассуждения с общим следованием инструкциям. Наконец, этап 4 применяет RL в более чем 20 задачах общей области (например, соблюдение формата, агентные функции), исправляя нежелательное поведение и шлифуя беглость.
Чем Qwen3 отличается от Qwen2.5?
В то время как Qwen2.5 обеспечил Alibaba лидерство в области открытых программ LLM, Qwen3 привносит несколько важных улучшений:
| Особенность | Квен2.5 | Квен3 |
|---|---|---|
| Параметрические шкалы | До 72Б (плотный) | До 235B (MoE) + плотные опции |
| Контекстное окно | 16 тысяч токенов | 128 тыс. токенов (большинство вариантов) |
| Языковой охват | Языки 29 | 119 языков и диалектов |
| Интеграция рассуждений | Отдельная модель рассуждений | Единые режимы мышления/немышления |
| Наличие открытого веса | Да (Apache 2.0) | Да (Apache 2.0) |
Эти обновления приводят к созданию более универсальных, точных и доступных по всему миру моделей.
Как Qwen3 оптимизирован для развертывания в реальном времени?
Помимо обучения, инженеры Qwen3 уделяют особое внимание логическому выводу с малой задержкой и масштабируемому развертыванию для поддержки агентов и вторых пилотов производственного уровня.
Аппаратное ускорение на Cerebras
Компания Cerebras продемонстрировала способность к рассуждениям в реальном времени с помощью Qwen3-32B, предоставляя ответы в течение 1.2 секунды — до 60 раз быстрее, чем сопоставимые модели рассуждений — за счет использования своего процессора масштаба пластины и специализированных ядер вывода, оптимизированных для архитектуры Qwen3.
Развертывание в облаке и готовность API
Alibaba Cloud предлагает Qwen3 через свой набор API с автоматически масштабируемыми кластерами GPU и оптимизированными для вывода узлами CPU. Разработчики могут настраивать и развертывать варианты Qwen3, используя встроенную поддержку LoRA, чтобы сократить потребление ресурсов, делая крупномасштабные службы ИИ экономически эффективными и доступными.
Как разработчики могут использовать Qwen3?
Alibaba выпустила Qwen3 под Apache 2.0 лицензия, приглашающая мировое исследовательское сообщество и корпоративных разработчиков принять, адаптировать и расширить семейство моделей для специализированных приложений.
Какие варианты доступны?
- Плотные модели (0.6B, 3B, 22B, 32B)
Эти варианты идеально подходят для локальных развертываний и периферийных сценариев и обеспечивают надежные возможности с простой интеграцией. - Модели MoE (всего 235B параметров; 22B активных)
Эти более крупные конфигурации, разработанные для высокопроизводительных облачных сервисов, обеспечивают максимальную глубину рассуждений и многоязыковую гибкость при оптимизированном использовании ресурсов.
Чем отличаются API и локальные варианты?
Разработчики могут выбирать между:
- API облака Alibaba: Управляемая конечная точка с автоматическим масштабированием, обеспечивающая быстрое создание прототипов и глобальное распространение.
- Самостоятельное развертывание: Предоставляются контейнеры Docker и манифесты Kubernetes, облегчающие выполнение сценариев с жесткими требованиями к соблюдению нормативных требований, где первостепенное значение имеют размещение и безопасность данных.
- CometAPI: Разработчики могут получить доступ Квен 3 API через CometAPI. CometAPI предоставляет унифицированный интерфейс REST, объединяющий сотни моделей ИИ.
Какая поддержка со стороны сообщества и экосистемы существует?
- Репозиторий с открытым исходным кодом: Qwen GitHub размещает веса моделей, обучающие скрипты и наборы инструментов для тонкой настройки, поощряя инновации, инициированные сообществом.
- Готовые интеграции: Плагины для популярных фреймворков машинного обучения (TensorFlow, PyTorch) и сторонних платформ (LangChain, Hugging Face) ускоряют окупаемость проектов.
- Сотрудничество в области исследований: Alibaba опубликовала полный технический отчет Qwen3 на arXiv, предлагая прозрачность архитектурных решений и методик обучения.
Благодаря массивному многоэтапному предварительному обучению, архитектурным прорывам и сложному конвейеру постобучения Qwen3 достигает нового уровня в гибридном мышлении. Его гибкие режимы мышления, эффективные варианты MoE и богатая экосистема развертывания ставят его на передовую позицию ИИ с открытым исходным кодом, предоставляя исследователям и разработчикам возможность создавать следующее поколение интеллектуальных агентов.
Первые шаги
CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ — в рамках единой конечной точки, со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо жонглирования несколькими URL-адресами поставщиков и учетными данными.
Разработчики могут получить доступ Квен 3 API через CometAPI.Для начала изучите возможности модели на игровой площадке и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.
