Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

Ввод:$0.48/M
Вывод:$2.88/M
Нативная визуально-языковая модель Qwen3.5 серии 397B-A17B построена на гибридной архитектуре, которая объединяет механизм линейного внимания с разрежённой моделью смеси экспертов, обеспечивая более высокую эффективность инференса.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API

Технические характеристики Qwen3.5-397B-A17B

ПараметрQwen3.5-397B-A17B (с открытыми весами, дополнительно обученная)
Семейство моделейQwen3.5 (серия Tongyi Qwen, Alibaba)
АрхитектураГибридная Mixture-of-Experts (MoE) + Gated DeltaNet; мультимодальное обучение с ранним слиянием
Общее число параметров~397 миллиардов (итого)
Активные параметры (A17B)~17 миллиардов активных на токен (разреженная маршрутизация)
Типы вводаТекст, изображение, видео (мультимодальное раннее слияние)
Типы выводаТекст (чат, код, RAG-выводы), преобразование изображений в текст, мультимодальные ответы
Родное окно контекста262,144 токенов (родной ISL)
Расширяемый контекстДо ~1,010,000 токенов через масштабирование YaRN/ RoPE (зависит от платформы)
Максимум токенов выводаЗависит от фреймворка/сервинга (в руководствах показано 81,920–131,072)
Языки200+ языков и диалектов
Дата выпуска16 февраля 2026 (релиз с открытыми весами)
ЛицензияApache‑2.0 (открытые веса на Hugging Face / ModelScope)

Что такое Qwen3.5-397B-A17B

Qwen3.5-397B-A17B — первый релиз с открытыми весами в семействе Qwen3.5 от Alibaba: крупная мультимодальная базовая модель со смесью экспертов, обученная целям раннего слияния зрения и языка и оптимизированная для агентных рабочих процессов. Модель раскрывает полную емкость архитектуры на 397B параметров, используя разреженную маршрутизацию (суффикс “A17B”), так что активными на токен являются лишь ~17B параметров — обеспечивая баланс между емкостью знаний и эффективностью инференса.

Этот релиз предназначен для исследователей и инженерных команд, которым нужна открытая, развертываемая мультимодальная базовая модель, способная к рассуждениям на длинных контекстах, визуальному пониманию и приложениям с RAG/агентным поведением.


Основные возможности Qwen3.5-397B-A17B

  • Разреженное MoE с эффективностью активных параметров: Большая глобальная емкость (397B) при активности на токен, сопоставимой с плотной моделью 17B; снижает FLOPS на токен при сохранении разнообразия знаний.
  • Нативная мультимодальность (раннее слияние): Обучена работать с текстом, изображениями и видео через единую стратегию токенизации и энкодера для межмодальных рассуждений.
  • Поддержка очень длинного контекста: Родная длина входной последовательности 262K токенов и документированные способы расширения до ~1M+ токенов с использованием масштабирования RoPE/YaRN для извлечения и конвейеров длинных документов.
  • Режим мышления и агентные инструменты: Поддержка внутренних трасс рассуждений и агентного шаблона исполнения; примеры включают включение вызовов инструментов и интеграцию интерпретатора кода.
  • Открытые веса и широкая совместимость: Выпущена под Apache‑2.0 на Hugging Face и ModelScope, с официальными руководствами по интеграции для Transformers, vLLM, SGLang и фреймворков сообщества.
  • Покрытие языков, удобное для предприятий: Обширное многоязычное обучение (200+ языков), а также инструкции и практики для масштабного развертывания.

Qwen3.5-397B-A17B и выбранные модели

МодельОкно контекста (родное)Сильные стороныТипичные компромиссы
Qwen3.5-397B-A17B262K (родное)Мультимодальное MoE, открытые веса, емкость 397B с 17B активнымиКрупные артефакты модели, требуется распределенный хостинг для полной производительности
GPT-5.2 (репрезентативный закрытый)~400K (сообщается для некоторых вариантов)Высокая точность плотных рассуждений одной моделиЗакрытые веса, более высокая стоимость инференса в масштабе
Плотная модель в стиле LLaMA 70B~128K (варьируется)Более простой стек инференса, меньшая VRAM для плотных рантаймовМеньшая емкость параметров по сравнению с глобальными знаниями MoE

Известные ограничения и операционные аспекты

  • Потребление памяти: Разреженное MoE все равно требует хранения больших файлов весов; хостинг требует значительного объема хранения и памяти устройства по сравнению с плотной 17B копией.
  • Инженерная сложность: Оптимальная пропускная способность требует аккуратного параллелизма (тензорного/конвейерного) и фреймворков вроде vLLM или SGLang; наивный хостинг на одной GPU непрактичен.
  • Экономика токенов: Хотя вычисления на токен снижены, очень длинные контексты все равно увеличивают I/O, размер KV‑кэша и биллинг у управляемых провайдеров.
  • Безопасность и защитные ограничения: Открытые веса повышают гибкость, но переносят ответственность за фильтрацию безопасности, мониторинг и ограничители развертывания на оператора.

Репрезентативные варианты использования

  1. Исследования и анализ моделей: Открытые веса обеспечивают воспроизводимые исследования и оценку, управляемую сообществом.
  2. Локальные мультимодальные сервисы: Предприятия, которым требуется хранение данных на месте, могут развертывать и запускать задачи vision+text локально.
  3. RAG и конвейеры длинных документов: Нативная поддержка длинного контекста помогает однопроходным рассуждениям по большим корпусам.
  4. Интеллект кода и агентные инструменты: Анализируйте монорепозитории, генерируйте патчи и запускайте агентные циклы вызова инструментов в контролируемых средах.
  5. Многоязычные приложения: Высокое покрытие языков для глобальных продуктов.

Как получить доступ и интегрировать Qwen3.5-397B-A17B

Шаг 1: Зарегистрируйтесь для получения ключа API

Войдите на cometapi.com. Если вы еще не наш пользователь, пожалуйста, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные доступа — ключ API интерфейса. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Шаг 2: Отправьте запросы к API Qwen3.5-397B-A17B

Выберите эндпоинт «Qwen3.5-397B-A17B» для отправки запроса к API и задайте тело запроса. Метод и тело запроса берутся из документации API на нашем сайте. Наш сайт также предоставляет тестирование в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашего аккаунта. Где вызывать: формат Чат.

Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API возвращает статус задачи и выходные данные.

ЧАВО

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

Функции для qwen3.5-397b-a17b

Изучите ключевые функции qwen3.5-397b-a17b, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для qwen3.5-397b-a17b

Изучите конкурентоспособные цены на qwen3.5-397b-a17b, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как qwen3.5-397b-a17b может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$0.48/M
Вывод:$2.88/M
Ввод:$0.6/M
Вывод:$3.6/M
-20%

Пример кода и API для qwen3.5-397b-a17b

Получите доступ к исчерпывающим примерам кода и ресурсам API для qwen3.5-397b-a17b, чтобы упростить процесс интеграции. Наша подробная документация предоставляет пошаговые инструкции, помогая вам использовать весь потенциал qwen3.5-397b-a17b в ваших проектах.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Больше моделей