Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Sí. Los pesos de Qwen3.5-397B-A17B se publican bajo Apache-2.0 en Hugging Face y ModelScope, y el proyecto proporciona recetas de serving para Transformers, vLLM y SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indica que el diseño de enrutamiento disperso del modelo utiliza aproximadamente 17 mil millones de parámetros activos por token (expertos activos), mientras que la capacidad global del modelo es de ~397 mil millones de parámetros.

What is the native context window and can I extend it for very long documents?

El modelo se entrega con una longitud nativa de secuencia de entrada de 262,144 tokens e incluye métodos documentados para ampliar el contexto hasta ~1,010,000 tokens mediante escalado YaRN/RoPE, dependiendo del framework de serving.

Which input modalities does Qwen3.5-397B-A17B support?

Es un modelo unificado de visión y lenguaje entrenado con fusión temprana; las entradas admitidas incluyen texto, imágenes y tokens de video para razonamiento y generación multimodal.

How does inference efficiency compare to a 17B dense model?

El cómputo de inferencia por token es similar al de modelos densos de 17B gracias al enrutamiento MoE disperso, pero los artefactos del modelo y los requisitos de memoria son mayores porque los pesos completos deben almacenarse y distribuirse entre los dispositivos.

API de qwen3.5-397b-a17b Asequible | text-to-text

Especificaciones técnicas de Qwen3.5-397B-A17B

Elemento	Qwen3.5-397B-A17B (pesos abiertos, postentrenado)
Familia de modelos	Qwen3.5 (serie Tongyi Qwen, Alibaba)
Arquitectura	Mezcla de expertos (MoE) híbrida + Gated DeltaNet; entrenamiento multimodal de fusión temprana
Parámetros totales	~397 mil millones (total)
Parámetros activos (A17B)	~17 mil millones activos por token (enrutamiento disperso)
Tipos de entrada	Texto, Imagen, Video (fusión temprana multimodal)
Tipos de salida	Texto (chat, código, salidas de RAG), de imagen a texto, respuestas multimodales
Ventana de contexto nativa	262,144 tokens (ISL nativo)
Contexto ampliable	Hasta ~1,010,000 tokens mediante escalado YaRN/ RoPE (dependiente de la plataforma)
Tokens máximos de salida	Dependiente del framework/servicio (las guías muestran 81,920–131,072 como ejemplos)
Idiomas	200+ idiomas y dialectos
Fecha de lanzamiento	16 de febrero de 2026 (lanzamiento de pesos abiertos)
Licencia	Apache‑2.0 (pesos abiertos en Hugging Face / ModelScope)

Qué es Qwen3.5-397B-A17B

Qwen3.5-397B-A17B es el primer lanzamiento de pesos abiertos de la familia Qwen3.5 de Alibaba: un gran modelo base multimodal de mezcla de expertos, entrenado con objetivos visión‑lenguaje de fusión temprana y optimizado para flujos de trabajo basados en agentes. El modelo expone la capacidad completa de una arquitectura de 397B parámetros mientras utiliza enrutamiento disperso (el sufijo “A17B”), de modo que solo ~17B parámetros están activos por token—logrando un equilibrio entre la capacidad de conocimiento y la eficiencia de inferencia.

Este lanzamiento está dirigido a investigadores y equipos de ingeniería que necesitan un modelo base multimodal, abierto y desplegable, capaz de razonamiento de largo contexto, comprensión visual y aplicaciones de recuperación aumentada (RAG) y basadas en agentes.

Características principales de Qwen3.5-397B-A17B

MoE disperso con eficiencia en parámetros activos: Gran capacidad global (397B) con actividad por token comparable a la de un modelo denso de 17B, reduciendo los FLOPS por token mientras se preserva la diversidad de conocimiento.
Multimodalidad nativa (fusión temprana): Entrenado para manejar texto, imágenes y video mediante una estrategia unificada de tokenización y codificación para el razonamiento entre modalidades.
Compatibilidad con contextos muy largos: Longitud nativa de la secuencia de entrada de 262K tokens y rutas documentadas para extender hasta ~1M+ tokens usando escalado RoPE/YARN para recuperación y flujos de documentos largos.
Modo de razonamiento y herramientas de agente: Compatible con trazas de razonamiento internas y un patrón de ejecución basado en agentes; ejemplos incluyen habilitar llamadas a herramientas e integración con intérprete de código.
Pesos abiertos y amplia compatibilidad: Publicado bajo Apache‑2.0 en Hugging Face y ModelScope, con guías de integración oficiales para Transformers, vLLM, SGLang y frameworks de la comunidad.
Cobertura lingüística orientada a empresas: Entrenamiento multilingüe extenso (200+ idiomas), además de instrucciones y recetas para el despliegue a escala.

Qwen3.5-397B-A17B frente a modelos seleccionados

Modelo	Ventana de contexto (nativa)	Fortaleza	Compromisos típicos
Qwen3.5-397B-A17B	262K (nativa)	MoE multimodal, pesos abiertos, capacidad de 397B con 17B activos	Artefactos de gran tamaño, requiere alojamiento distribuido para el rendimiento completo
GPT-5.2 (cerrado representativo)	~400K (reportado para algunas variantes)	Alta precisión de razonamiento en un único modelo denso	Pesos cerrados, mayor coste de inferencia a escala
70B denso estilo LLaMA	~128K (varía)	Pila de inferencia más simple, menor VRAM para ejecuciones densas	Menor capacidad de parámetros en relación con el conocimiento global de MoE

Limitaciones conocidas y consideraciones operativas

Huella de memoria: El MoE disperso sigue requiriendo almacenar archivos de pesos grandes; el alojamiento exige almacenamiento y memoria de dispositivo significativos en comparación con un clon denso de 17B.
Complejidad de ingeniería: El rendimiento óptimo requiere paralelismo cuidadoso (tensor/pipeline) y frameworks como vLLM o SGLang; alojarlo ingenuamente en una sola GPU es impracticable.
Economía de tokens: Aunque el cómputo por token se reduce, los contextos muy largos siguen incrementando el I/O, el tamaño de la caché KV y la facturación en proveedores gestionados.
Seguridad y salvaguardas: Los pesos abiertos aumentan la flexibilidad pero trasladan al operador la responsabilidad del filtrado de seguridad, la monitorización y las salvaguardas de despliegue.

Casos de uso representativos

Investigación y análisis de modelos: Los pesos abiertos permiten investigación reproducible y evaluación impulsada por la comunidad.
Servicios multimodales on‑premise: Las empresas que necesitan residencia de datos pueden desplegar y ejecutar cargas de trabajo de visión+texto localmente.
RAG y flujos de documentos largos: La compatibilidad nativa con contextos largos facilita el razonamiento en una sola pasada sobre grandes corpus.
Inteligencia de código y herramientas de agente: Analizar monorepos, generar parches y ejecutar bucles de llamadas a herramientas basados en agentes en entornos controlados.
Aplicaciones multilingües: Cobertura lingüística de gran alcance para productos globales.

Cómo acceder e integrar Qwen3.5-397B-A17B

Paso 1: Regístrate para obtener la clave de API

Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Inicia sesión en tu CometAPI console. Obtén la clave de API de credenciales de acceso de la interfaz. Haz clic en “Add Token” en el token de API en el centro personal, obtén la clave del token: sk-xxxxx y envíala.

Paso 2: Envía solicitudes a la API de Qwen3.5-397B-A17B

Selecciona el “Qwen3.5-397B-A17B” endpoint para enviar la solicitud de API y establece el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para tu comodidad. Sustituye <YOUR_API_KEY> por tu clave real de CometAPI de tu cuenta. Dónde llamarlo: formato Chat.

Inserta tu pregunta o solicitud en el campo content—esto es a lo que responderá el modelo. Procesa la respuesta de la API para obtener la respuesta generada.

Paso 3: Recupera y verifica los resultados

Procesa la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.

qwen3.5-397b-a17b