Технические характеристики Qwen3.5-397B-A17B
| Пункт | Qwen3.5-397B-A17B (дообученная, с открытыми весами) |
|---|---|
| Семейство моделей | Qwen3.5 (серия Tongyi Qwen, Alibaba) |
| Архитектура | Гибридная Mixture‑of‑Experts (MoE) + Gated DeltaNet; мультимодальное обучение с ранним объединением |
| Общее число параметров | ~397 миллиардов (итого) |
| Активные параметры (A17B) | ~17 миллиардов активных на токен (разреженная маршрутизация) |
| Типы входов | Текст, Изображение, Видео (мультимодальное раннее объединение) |
| Типы выходов | Текст (чат, код, ответы RAG), image‑to‑text, мультимодальные ответы |
| Родное окно контекста | 262,144 токенов (родной ISL) |
| Расширяемый контекст | До ~1,010,000 токенов через масштабирование YaRN/ RoPE (зависит от платформы) |
| Макс. токенов на вывод | Зависит от фреймворка/сервинга (в руководствах приведены примеры 81,920–131,072) |
| Языки | 200+ языков и диалектов |
| Дата релиза | 16 февраля 2026 (релиз с открытыми весами) |
| Лицензия | Apache‑2.0 (открытые веса на Hugging Face / ModelScope) |
Что такое Qwen3.5-397B-A17B
Qwen3.5-397B-A17B — первый релиз с открытыми весами в семействе Qwen3.5 от Alibaba: крупная мультимодальная базовая модель на архитектуре mixture‑of‑experts, обученная с целями раннего объединения зрения и языка и оптимизированная под агентные рабочие процессы. Модель раскрывает полный потенциал архитектуры на 397B параметров, используя разреженную маршрутизацию (суффикс «A17B»), так что на токен активно лишь ~17B параметров — обеспечивая баланс между емкостью знаний и эффективностью инференса.
Этот релиз предназначен для исследователей и инженерных команд, которым нужна открытая, разворачиваемая мультимодальная базовая модель, способная к рассуждениям на длинном контексте, визуальному пониманию и приложениям с RAG/агентной логикой.
Основные возможности Qwen3.5-397B-A17B
- Разреженная MoE с эффективностью по активным параметрам: большая глобальная емкость (397B) при активности на токен, сопоставимой с плотной моделью 17B, снижая FLOPS на токен при сохранении разнообразия знаний.
- Нативная мультимодальность (раннее объединение): обучена обрабатывать текст, изображения и видео через единую стратегию токенизации и энкодера для межмодального рассуждения.
- Поддержка очень длинного контекста: родная длина входной последовательности 262K токенов и задокументированные пути расширения до ~1M+ токенов с помощью RoPE/YARN‑масштабирования для конвейеров извлечения и длинных документов.
- Режим размышления и инструменты агента: поддержка внутренних следов рассуждений и агентного шаблона выполнения; примеры включают включение вызовов инструментов и интеграцию с интерпретатором кода.
- Открытые веса и широкая совместимость: выпущена под Apache‑2.0 на Hugging Face и ModelScope, есть официальные инструкции по интеграции с Transformers, vLLM, SGLang и сообществом фреймворков.
- Языковое покрытие уровня enterprise: обширное мультиязычное обучение (200+ языков), а также инструкции и рецепты для масштабного развёртывания.
Qwen3.5-397B-A17B по сравнению с выбранными моделями
| Модель | Окно контекста (родное) | Сильные стороны | Типичные компромиссы |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (родное) | Мультимодальная MoE, открытые веса, емкость 397B при 17B активных | Большие артефакты модели, для максимальной производительности требуется распределённый хостинг |
| GPT-5.2 (репрезентативная закрытая) | ~400K (сообщается для некоторых вариантов) | Высокая точность рассуждений у плотной модели | Закрытые веса, более высокая стоимость инференса в масштабе |
| Плотная LLaMA‑стиль 70B | ~128K (варьируется) | Более простой стек инференса, меньшие требования к VRAM для плотных рантаймов | Меньшая емкость параметров по сравнению с глобальными знаниями MoE |
Известные ограничения и операционные соображения
- След памяти: даже при разреженной MoE хранение крупных файлов весов необходимо; хостинг требует значительного объёма хранилища и памяти устройства по сравнению с плотным «клон‑17B».
- Инженерная сложность: для оптимальной пропускной способности требуется аккуратный подбор параллелизма (тензорный/конвейерный) и такие фреймворки, как vLLM или SGLang; наивный хостинг на одном GPU непрактичен.
- Экономика токенов: хотя вычисления на токен снижены, очень длинные контексты всё равно увеличивают I/O, размер KV‑кэша и биллинг у управляемых провайдеров.
- Безопасность и защитные механизмы: открытые веса повышают гибкость, но перекладывают ответственность за фильтрацию по безопасности, мониторинг и защитные механизмы развёртывания на оператора.
Репрезентативные варианты использования
- Исследования и анализ моделей: открытые веса обеспечивают воспроизводимые исследования и оценку сообществом.
- Локальные мультимодальные сервисы: предприятия с требованиями к резидентности данных могут разворачивать и запускать рабочие нагрузки «зрение+текст» локально.
- Конвейеры RAG и длинных документов: нативная поддержка длинного контекста помогает однопроходному рассуждению по большим корпусам.
- Интеллект для кода и агентные инструменты: анализ монорепозиториев, генерация патчей и запуск агентных циклов вызовов инструментов в контролируемых средах.
- Многоязычные приложения: широкое языковое покрытие для глобальных продуктов.
Как получить доступ и интегрировать Qwen3.5-397B-A17B
Шаг 1: Зарегистрируйтесь, чтобы получить API‑ключ
Войдите на cometapi.com. Если вы ещё не наш пользователь, пожалуйста, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные — API‑ключ для интерфейса. Нажмите “Add Token” в разделе токенов API в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.
Шаг 2: Отправьте запросы к API Qwen3.5-397B-A17B
Выберите эндпоинт “Qwen3.5-397B-A17B”, чтобы отправить API‑запрос, и задайте тело запроса. Метод запроса и тело запроса приведены в документации API на нашем сайте. Наш сайт также предоставляет тест в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта. Где вызывать: формат Chat.
Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный ответ.
Шаг 3: Получите и проверьте результаты
Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API отвечает статусом задачи и выходными данными.