Технические характеристики Qwen3.5-397B-A17B
| Параметр | Qwen3.5-397B-A17B (с открытыми весами, дополнительно обученная) |
|---|---|
| Семейство моделей | Qwen3.5 (серия Tongyi Qwen, Alibaba) |
| Архитектура | Гибридная Mixture-of-Experts (MoE) + Gated DeltaNet; мультимодальное обучение с ранним слиянием |
| Общее число параметров | ~397 миллиардов (итого) |
| Активные параметры (A17B) | ~17 миллиардов активных на токен (разреженная маршрутизация) |
| Типы ввода | Текст, изображение, видео (мультимодальное раннее слияние) |
| Типы вывода | Текст (чат, код, RAG-выводы), преобразование изображений в текст, мультимодальные ответы |
| Родное окно контекста | 262,144 токенов (родной ISL) |
| Расширяемый контекст | До ~1,010,000 токенов через масштабирование YaRN/ RoPE (зависит от платформы) |
| Максимум токенов вывода | Зависит от фреймворка/сервинга (в руководствах показано 81,920–131,072) |
| Языки | 200+ языков и диалектов |
| Дата выпуска | 16 февраля 2026 (релиз с открытыми весами) |
| Лицензия | Apache‑2.0 (открытые веса на Hugging Face / ModelScope) |
Что такое Qwen3.5-397B-A17B
Qwen3.5-397B-A17B — первый релиз с открытыми весами в семействе Qwen3.5 от Alibaba: крупная мультимодальная базовая модель со смесью экспертов, обученная целям раннего слияния зрения и языка и оптимизированная для агентных рабочих процессов. Модель раскрывает полную емкость архитектуры на 397B параметров, используя разреженную маршрутизацию (суффикс “A17B”), так что активными на токен являются лишь ~17B параметров — обеспечивая баланс между емкостью знаний и эффективностью инференса.
Этот релиз предназначен для исследователей и инженерных команд, которым нужна открытая, развертываемая мультимодальная базовая модель, способная к рассуждениям на длинных контекстах, визуальному пониманию и приложениям с RAG/агентным поведением.
Основные возможности Qwen3.5-397B-A17B
- Разреженное MoE с эффективностью активных параметров: Большая глобальная емкость (397B) при активности на токен, сопоставимой с плотной моделью 17B; снижает FLOPS на токен при сохранении разнообразия знаний.
- Нативная мультимодальность (раннее слияние): Обучена работать с текстом, изображениями и видео через единую стратегию токенизации и энкодера для межмодальных рассуждений.
- Поддержка очень длинного контекста: Родная длина входной последовательности 262K токенов и документированные способы расширения до ~1M+ токенов с использованием масштабирования RoPE/YaRN для извлечения и конвейеров длинных документов.
- Режим мышления и агентные инструменты: Поддержка внутренних трасс рассуждений и агентного шаблона исполнения; примеры включают включение вызовов инструментов и интеграцию интерпретатора кода.
- Открытые веса и широкая совместимость: Выпущена под Apache‑2.0 на Hugging Face и ModelScope, с официальными руководствами по интеграции для Transformers, vLLM, SGLang и фреймворков сообщества.
- Покрытие языков, удобное для предприятий: Обширное многоязычное обучение (200+ языков), а также инструкции и практики для масштабного развертывания.
Qwen3.5-397B-A17B и выбранные модели
| Модель | Окно контекста (родное) | Сильные стороны | Типичные компромиссы |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (родное) | Мультимодальное MoE, открытые веса, емкость 397B с 17B активными | Крупные артефакты модели, требуется распределенный хостинг для полной производительности |
| GPT-5.2 (репрезентативный закрытый) | ~400K (сообщается для некоторых вариантов) | Высокая точность плотных рассуждений одной модели | Закрытые веса, более высокая стоимость инференса в масштабе |
| Плотная модель в стиле LLaMA 70B | ~128K (варьируется) | Более простой стек инференса, меньшая VRAM для плотных рантаймов | Меньшая емкость параметров по сравнению с глобальными знаниями MoE |
Известные ограничения и операционные аспекты
- Потребление памяти: Разреженное MoE все равно требует хранения больших файлов весов; хостинг требует значительного объема хранения и памяти устройства по сравнению с плотной 17B копией.
- Инженерная сложность: Оптимальная пропускная способность требует аккуратного параллелизма (тензорного/конвейерного) и фреймворков вроде vLLM или SGLang; наивный хостинг на одной GPU непрактичен.
- Экономика токенов: Хотя вычисления на токен снижены, очень длинные контексты все равно увеличивают I/O, размер KV‑кэша и биллинг у управляемых провайдеров.
- Безопасность и защитные ограничения: Открытые веса повышают гибкость, но переносят ответственность за фильтрацию безопасности, мониторинг и ограничители развертывания на оператора.
Репрезентативные варианты использования
- Исследования и анализ моделей: Открытые веса обеспечивают воспроизводимые исследования и оценку, управляемую сообществом.
- Локальные мультимодальные сервисы: Предприятия, которым требуется хранение данных на месте, могут развертывать и запускать задачи vision+text локально.
- RAG и конвейеры длинных документов: Нативная поддержка длинного контекста помогает однопроходным рассуждениям по большим корпусам.
- Интеллект кода и агентные инструменты: Анализируйте монорепозитории, генерируйте патчи и запускайте агентные циклы вызова инструментов в контролируемых средах.
- Многоязычные приложения: Высокое покрытие языков для глобальных продуктов.
Как получить доступ и интегрировать Qwen3.5-397B-A17B
Шаг 1: Зарегистрируйтесь для получения ключа API
Войдите на cometapi.com. Если вы еще не наш пользователь, пожалуйста, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные доступа — ключ API интерфейса. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.
Шаг 2: Отправьте запросы к API Qwen3.5-397B-A17B
Выберите эндпоинт «Qwen3.5-397B-A17B» для отправки запроса к API и задайте тело запроса. Метод и тело запроса берутся из документации API на нашем сайте. Наш сайт также предоставляет тестирование в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашего аккаунта. Где вызывать: формат Чат.
Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.
Шаг 3: Получите и проверьте результаты
Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API возвращает статус задачи и выходные данные.