Технические характеристики Qwen3.5-397B-A17B

Параметр	Qwen3.5-397B-A17B (с открытыми весами, дополнительно обученная)
Семейство моделей	Qwen3.5 (серия Tongyi Qwen, Alibaba)
Архитектура	Гибридная Mixture-of-Experts (MoE) + Gated DeltaNet; мультимодальное обучение с ранним слиянием
Общее число параметров	~397 миллиардов (итого)
Активные параметры (A17B)	~17 миллиардов активных на токен (разреженная маршрутизация)
Типы ввода	Текст, изображение, видео (мультимодальное раннее слияние)
Типы вывода	Текст (чат, код, RAG-выводы), преобразование изображений в текст, мультимодальные ответы
Родное окно контекста	262,144 токенов (родной ISL)
Расширяемый контекст	До ~1,010,000 токенов через масштабирование YaRN/ RoPE (зависит от платформы)
Максимум токенов вывода	Зависит от фреймворка/сервинга (в руководствах показано 81,920–131,072)
Языки	200+ языков и диалектов
Дата выпуска	16 февраля 2026 (релиз с открытыми весами)
Лицензия	Apache‑2.0 (открытые веса на Hugging Face / ModelScope)

Что такое Qwen3.5-397B-A17B

Qwen3.5-397B-A17B — первый релиз с открытыми весами в семействе Qwen3.5 от Alibaba: крупная мультимодальная базовая модель со смесью экспертов, обученная целям раннего слияния зрения и языка и оптимизированная для агентных рабочих процессов. Модель раскрывает полную емкость архитектуры на 397B параметров, используя разреженную маршрутизацию (суффикс “A17B”), так что активными на токен являются лишь ~17B параметров — обеспечивая баланс между емкостью знаний и эффективностью инференса.

Этот релиз предназначен для исследователей и инженерных команд, которым нужна открытая, развертываемая мультимодальная базовая модель, способная к рассуждениям на длинных контекстах, визуальному пониманию и приложениям с RAG/агентным поведением.

Основные возможности Qwen3.5-397B-A17B

Разреженное MoE с эффективностью активных параметров: Большая глобальная емкость (397B) при активности на токен, сопоставимой с плотной моделью 17B; снижает FLOPS на токен при сохранении разнообразия знаний.
Нативная мультимодальность (раннее слияние): Обучена работать с текстом, изображениями и видео через единую стратегию токенизации и энкодера для межмодальных рассуждений.
Поддержка очень длинного контекста: Родная длина входной последовательности 262K токенов и документированные способы расширения до ~1M+ токенов с использованием масштабирования RoPE/YaRN для извлечения и конвейеров длинных документов.
Режим мышления и агентные инструменты: Поддержка внутренних трасс рассуждений и агентного шаблона исполнения; примеры включают включение вызовов инструментов и интеграцию интерпретатора кода.
Открытые веса и широкая совместимость: Выпущена под Apache‑2.0 на Hugging Face и ModelScope, с официальными руководствами по интеграции для Transformers, vLLM, SGLang и фреймворков сообщества.
Покрытие языков, удобное для предприятий: Обширное многоязычное обучение (200+ языков), а также инструкции и практики для масштабного развертывания.

Qwen3.5-397B-A17B и выбранные модели

Модель	Окно контекста (родное)	Сильные стороны	Типичные компромиссы
Qwen3.5-397B-A17B	262K (родное)	Мультимодальное MoE, открытые веса, емкость 397B с 17B активными	Крупные артефакты модели, требуется распределенный хостинг для полной производительности
GPT-5.2 (репрезентативный закрытый)	~400K (сообщается для некоторых вариантов)	Высокая точность плотных рассуждений одной модели	Закрытые веса, более высокая стоимость инференса в масштабе
Плотная модель в стиле LLaMA 70B	~128K (варьируется)	Более простой стек инференса, меньшая VRAM для плотных рантаймов	Меньшая емкость параметров по сравнению с глобальными знаниями MoE

Известные ограничения и операционные аспекты

Потребление памяти: Разреженное MoE все равно требует хранения больших файлов весов; хостинг требует значительного объема хранения и памяти устройства по сравнению с плотной 17B копией.
Инженерная сложность: Оптимальная пропускная способность требует аккуратного параллелизма (тензорного/конвейерного) и фреймворков вроде vLLM или SGLang; наивный хостинг на одной GPU непрактичен.
Экономика токенов: Хотя вычисления на токен снижены, очень длинные контексты все равно увеличивают I/O, размер KV‑кэша и биллинг у управляемых провайдеров.
Безопасность и защитные ограничения: Открытые веса повышают гибкость, но переносят ответственность за фильтрацию безопасности, мониторинг и ограничители развертывания на оператора.

Репрезентативные варианты использования

Исследования и анализ моделей: Открытые веса обеспечивают воспроизводимые исследования и оценку, управляемую сообществом.
Локальные мультимодальные сервисы: Предприятия, которым требуется хранение данных на месте, могут развертывать и запускать задачи vision+text локально.
RAG и конвейеры длинных документов: Нативная поддержка длинного контекста помогает однопроходным рассуждениям по большим корпусам.
Интеллект кода и агентные инструменты: Анализируйте монорепозитории, генерируйте патчи и запускайте агентные циклы вызова инструментов в контролируемых средах.
Многоязычные приложения: Высокое покрытие языков для глобальных продуктов.

Как получить доступ и интегрировать Qwen3.5-397B-A17B

Шаг 1: Зарегистрируйтесь для получения ключа API

Войдите на cometapi.com. Если вы еще не наш пользователь, пожалуйста, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные доступа — ключ API интерфейса. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Шаг 2: Отправьте запросы к API Qwen3.5-397B-A17B

Выберите эндпоинт «Qwen3.5-397B-A17B» для отправки запроса к API и задайте тело запроса. Метод и тело запроса берутся из документации API на нашем сайте. Наш сайт также предоставляет тестирование в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашего аккаунта. Где вызывать: формат Чат.

Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API возвращает статус задачи и выходные данные.