Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Да. Веса Qwen3.5-397B-A17B выпущены под лицензией Apache-2.0 на Hugging Face и ModelScope, а проект предоставляет рецепты сервинга для Transformers, vLLM и SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B означает, что в разреженной схеме маршрутизации модели используется примерно 17 миллиардов активных параметров на токен (активные эксперты), тогда как общая емкость модели составляет ~397 миллиардов параметров.

What is the native context window and can I extend it for very long documents?

Модель поставляется с нативной длиной входной последовательности 262,144 токенов и включает задокументированные методы расширения контекста до ~1,010,000 токенов посредством масштабирования YaRN/RoPE, в зависимости от используемого фреймворка сервинга.

Which input modalities does Qwen3.5-397B-A17B support?

Это унифицированная визуально-языковая модель, обученная с ранним слиянием; поддерживаемые входные данные включают текст, изображения и видео-токены для мультимодального рассуждения и генерации.

How does inference efficiency compare to a 17B dense model?

Вычислительные затраты на инференс в пересчёте на токен сопоставимы с плотными моделями класса 17B благодаря разрежённой маршрутизации MoE, но артефакты модели и требования к памяти больше, поскольку полные веса необходимо хранить и распределять по устройствам.

Доступный API qwen3.5-397b-a17b | text-to-text

Технические характеристики Qwen3.5-397B-A17B

Параметр	Qwen3.5-397B-A17B (с открытыми весами, дообученная)
Семейство моделей	Qwen3.5 (серия Tongyi Qwen, Alibaba)
Архитектура	Гибридная Mixture-of-Experts (MoE) + Gated DeltaNet; мультимодальное обучение с ранним слиянием
Общее число параметров	~397 миллиардов (всего)
Активные параметры (A17B)	~17 миллиардов активных на токен (разреженная маршрутизация)
Типы ввода	Текст, изображение, видео (мультимодальность с ранним слиянием)
Типы вывода	Текст (чат, код, RAG-выводы), image-to-text, мультимодальные ответы
Нативное окно контекста	262,144 токена (native ISL)
Расширяемый контекст	До ~1,010,000 токенов через масштабирование YaRN/ RoPE (зависит от платформы)
Максимум токенов вывода	Зависит от фреймворка/сервинга (в руководствах приводятся 81,920–131,072)
Языки	200+ языков и диалектов
Дата выпуска	16 февраля 2026 (релиз с открытыми весами)
Лицензия	Apache‑2.0 (открытые веса на Hugging Face / ModelScope)

Что такое Qwen3.5-397B-A17B

Qwen3.5-397B-A17B — первый релиз с открытыми весами в семействе Qwen3.5 от Alibaba: крупная мультимодальная базовая модель типа mixture‑of‑experts, обученная с целями vision–language с ранним слиянием и оптимизированная для агентных рабочих процессов. Модель раскрывает всю мощность архитектуры на 397B параметров, при этом использует разреженную маршрутизацию (суффикс «A17B»), так что на каждый токен приходится активными лишь ~17B параметров — обеспечивая баланс между емкостью знаний и эффективностью инференса.

Этот релиз предназначен для исследователей и инженерных команд, которым нужна открытая, развертываемая мультимодальная базовая модель, способная к долгоконтекстному рассуждению, визуальному пониманию и приложениям с RAG/агентными возможностями.

Основные возможности Qwen3.5-397B-A17B

Спарсная MoE с эффективностью активных параметров: большая глобальная емкость (397B) с активностью на токен, сопоставимой с плотной моделью 17B, снижение FLOPS на токен при сохранении разнообразия знаний.
Нативная мультимодальность (раннее слияние): обучена работать с текстом, изображениями и видео через унифицированную стратегию токенизации и энкодера для межмодального рассуждения.
Поддержка очень длинного контекста: нативная длина входной последовательности 262K токенов и документированные пути расширения до ~1M+ токенов с использованием масштабирования RoPE/YARN для retrieval и пайплайнов длинных документов.
Режим «мышления» и инструменты агента: поддержка внутренних трасс рассуждений и агентного шаблона исполнения; примеры включают включение вызовов инструментов и интеграцию с интерпретатором кода.
Открытые веса и широкая совместимость: выпущена под Apache‑2.0 на Hugging Face и ModelScope, с официальными гайдами интеграции для Transformers, vLLM, SGLang и сообщественных фреймворков.
Ориентированное на предприятия языковое покрытие: масштабное многоязычное обучение (200+ языков), а также инструкции и рецепты для развёртывания на уровне предприятия.

Qwen3.5-397B-A17B по сравнению с выбранными моделями

Модель	Окно контекста (нативное)	Сильные стороны	Типичные компромиссы
Qwen3.5-397B-A17B	262K (нативное)	Мультимодальная MoE, открытые веса, емкость 397B с 17B активными	Большие артефакты модели, для полной производительности требуется распределенный хостинг
GPT-5.2 (репрезентативная закрытая)	~400K (по сообщениям для некоторых вариантов)	Высокая точность рассуждений у одной плотной модели	Закрытые веса, более высокая стоимость инференса в масштабе
Плотная 70B в стиле LLaMA	~128K (варьируется)	Более простой стек инференса, меньшие требования к VRAM для плотных рантаймов	Меньшая емкость параметров по сравнению с глобальными знаниями MoE

Известные ограничения и эксплуатационные соображения

След модели в памяти: разреженная MoE всё ещё требует хранения больших файлов весов; хостинг требует значительного хранилища и памяти устройств по сравнению с плотным «клоновидным» 17B.
Инженерная сложность: для оптимальной пропускной способности требуется аккуратный параллелизм (тензорный/конвейерный) и фреймворки вроде vLLM или SGLang; наивный хостинг на одном GPU непрактичен.
Экономика токенов: хотя вычисления на токен снижены, очень длинные контексты всё равно увеличивают I/O, размер KV‑кэша и биллинг у управляемых провайдеров.
Безопасность и защитные барьеры: открытые веса повышают гибкость, но переносят ответственность за фильтрацию безопасности, мониторинг и защитные меры при развёртывании на оператора.

Репрезентативные случаи использования

Исследования и анализ моделей: открытые веса обеспечивают воспроизводимость исследований и оценки сообщества.
Мультимодальные сервисы on‑premise: предприятия, которым нужна локализация данных, могут развёртывать и запускать рабочие нагрузки vision+text локально.
RAG и пайплайны длинных документов: нативная поддержка длинного контекста помогает однопроходному рассуждению по большим корпусам.
Кодовая интеллигенция и агентные инструменты: анализ монорепозиториев, генерация патчей и запуск агентных циклов вызова инструментов в контролируемых средах.
Многоязычные приложения: широкое языковое покрытие для глобальных продуктов.

Как получить доступ и интегрировать Qwen3.5-397B-A17B

Шаг 1: Зарегистрируйтесь для получения API‑ключа

Войдите на cometapi.com. Если вы ещё не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь. Войдите в вашу консоль CometAPI. Получите ключ доступа API. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Шаг 2: Отправляйте запросы к API Qwen3.5-397B-A17B

Выберите конечную точку «Qwen3.5-397B-A17B», чтобы отправить API‑запрос, и задайте тело запроса. Метод запроса и тело запроса доступны в документации API на нашем сайте. На нашем сайте также доступен тест Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический CometAPI‑ключ из вашего аккаунта. Где вызывать: формат Chat.

Вставьте ваш вопрос или запрос в поле content — это то, на что модель ответит. Обработайте ответ API, чтобы получить сгенерированный ответ.

Шаг 3: Извлекайте и проверяйте результаты

Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API отвечает статусом задачи и выходными данными.

qwen3.5-397b-a17b