ModelosPreciosEmpresa
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Empresa
Sobre nosotrosEmpresa
Recursos
Modelos de IABlogRegistro de cambiosSoporte
Términos de ServicioPolítica de Privacidad
© 2026 CometAPI · All rights reserved
Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

Entrada:$0.48/M
Salida:$2.88/M
El modelo nativo de visión-lenguaje 397B-A17B de la serie Qwen3.5 se basa en una arquitectura híbrida que integra un mecanismo de atención lineal con un modelo de mezcla de expertos dispersa, logrando una mayor eficiencia en la inferencia.
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API

Especificaciones técnicas de Qwen3.5-397B-A17B

ElementoQwen3.5-397B-A17B (con pesos abiertos (posentrenado))
Familia del modeloQwen3.5 (serie Tongyi Qwen, Alibaba)
ArquitecturaMezcla de expertos (MoE) híbrida + Gated DeltaNet; entrenamiento multimodal de fusión temprana
Parámetros totales~397 mil millones (total)
Parámetros activos (A17B)~17 mil millones activos por token (enrutamiento disperso)
Tipos de entradaTexto, Imagen, Video (fusión temprana multimodal)
Tipos de salidaTexto (chat, código, salidas de RAG), de imagen a texto, respuestas multimodales
Ventana de contexto nativa262,144 tokens (ISL nativo)
Contexto ampliableHasta ~1,010,000 tokens mediante escalado YaRN/ RoPE (dependiente de la plataforma)
Máximo de tokens de salidaDependiente del framework/servicio (los ejemplos muestran 81,920–131,072 en las guías)
IdiomasMás de 200 idiomas y dialectos
Fecha de lanzamiento16 de febrero de 2026 (lanzamiento de pesos abiertos)
LicenciaApache‑2.0 (pesos abiertos en Hugging Face / ModelScope)

¿Qué es Qwen3.5-397B-A17B

Qwen3.5-397B-A17B es el primer lanzamiento con pesos abiertos de la familia Qwen3.5 de Alibaba: un gran modelo base multimodal de mezcla de expertos, entrenado con objetivos visión‑lenguaje de fusión temprana y optimizado para flujos de trabajo orientados a agentes. El modelo expone toda la capacidad de una arquitectura de 397B parámetros mientras usa enrutamiento disperso (el sufijo “A17B”), de modo que solo ~17B parámetros están activos por token, lo que ofrece un equilibrio entre capacidad de conocimiento y eficiencia de inferencia.

Esta versión está dirigida a investigadores y equipos de ingeniería que necesitan un modelo base multimodal, abierto y desplegable, capaz de razonamiento con contextos largos, comprensión visual y aplicaciones con recuperación aumentada/orientadas a agentes.


Características principales de Qwen3.5-397B-A17B

  • MoE disperso con eficiencia de parámetros activos: Gran capacidad global (397B) con actividad por token comparable a la de un modelo denso de 17B, reduciendo los FLOPS por token mientras preserva la diversidad de conocimiento.
  • Multimodalidad nativa (fusión temprana): Entrenado para manejar texto, imágenes y video mediante una tokenización y una estrategia de codificador unificadas para el razonamiento entre modalidades.
  • Compatibilidad con contextos muy largos: Longitud de secuencia de entrada nativa de 262K tokens y rutas documentadas para ampliar hasta ~1M+ tokens mediante escalado RoPE/YARN para recuperación y canalizaciones de documentos largos.
  • Modo de pensamiento y herramientas para agentes: Compatibilidad con trazas de razonamiento internas y un patrón de ejecución orientado a agentes; ejemplos incluyen habilitar llamadas a herramientas e integración con intérprete de código.
  • Pesos abiertos y amplia compatibilidad: Publicado bajo Apache‑2.0 en Hugging Face y ModelScope, con guías de integración oficiales para Transformers, vLLM, SGLang y frameworks de la comunidad.
  • Cobertura de idiomas apta para empresas: Entrenamiento multilingüe extenso (200+ idiomas), además de instrucciones y recetas para el despliegue a escala.

Qwen3.5-397B-A17B frente a modelos seleccionados

ModeloVentana de contexto (nativa)FortalezasCompromisos típicos
Qwen3.5-397B-A17B262K (nativa)MoE multimodal, pesos abiertos, capacidad de 397B con 17B activosArtefactos de modelo grandes, requiere alojamiento distribuido para el rendimiento completo
GPT-5.2 (cerrado representativo)~400K (reportado para algunas variantes)Alta precisión de razonamiento denso en un único modeloPesos cerrados, mayor costo de inferencia a escala
Denso de estilo LLaMA 70B~128K (varía)Pila de inferencia más simple, menor VRAM para entornos densosMenor capacidad de parámetros en relación con el conocimiento global de MoE

Limitaciones conocidas y consideraciones operativas

  • Huella de memoria: El MoE disperso aún requiere almacenar archivos de pesos grandes; el alojamiento exige almacenamiento y memoria de dispositivo significativos en comparación con un clon denso de 17B.
  • Complejidad de ingeniería: El rendimiento óptimo requiere paralelismo cuidadoso (tensor/pipeline) y frameworks como vLLM o SGLang; el alojamiento ingenuo en una sola GPU es poco práctico.
  • Economía de tokens: Aunque el cómputo por token es menor, contextos muy largos aún incrementan la E/S, el tamaño de la caché KV y la facturación para proveedores gestionados.
  • Seguridad y salvaguardas: Los pesos abiertos aumentan la flexibilidad pero trasladan la responsabilidad del filtrado de seguridad, la supervisión y las salvaguardas de despliegue al operador.

Casos de uso representativos

  1. Investigación y análisis de modelos: Los pesos abiertos permiten investigación reproducible y evaluación impulsada por la comunidad.
  2. Servicios multimodales on‑premise: Las empresas que necesitan residencia de datos pueden desplegar y ejecutar cargas de trabajo de visión+texto localmente.
  3. RAG y canalizaciones de documentos largos: La compatibilidad nativa con contextos largos facilita el razonamiento de una sola pasada sobre grandes corpus.
  4. Inteligencia de código y herramientas para agentes: Analice monorepos, genere parches y ejecute bucles de llamadas a herramientas orientados a agentes en entornos controlados.
  5. Aplicaciones multilingües: Compatibilidad de idiomas de alta cobertura para productos globales.

Cómo acceder e integrar Qwen3.5-397B-A17B

Paso 1: Regístrese para obtener la clave de API

Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su consola de CometAPI. Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave del token: sk-xxxxx y envíe.

Paso 2: Envíe solicitudes a la API de Qwen3.5-397B-A17B

Seleccione el endpoint “Qwen3.5-397B-A17B” para enviar la solicitud a la API y defina el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para su comodidad. Reemplace <YOUR_API_KEY> por su clave real de CometAPI de su cuenta. Dónde llamarlo: formato de Chat.

Inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo. Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recupere y verifique los resultados

Procese la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.

Preguntas frecuentes

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Sí. Los pesos de Qwen3.5-397B-A17B se publican bajo Apache-2.0 en Hugging Face y ModelScope, y el proyecto proporciona guías de servicio para Transformers, vLLM y SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indica que el diseño de enrutamiento disperso del modelo utiliza aproximadamente 17 mil millones de parámetros activos por token (expertos activos), mientras que la capacidad global del modelo es de ~397 mil millones de parámetros.

What is the native context window and can I extend it for very long documents?

El modelo se entrega con una longitud nativa de secuencia de entrada de 262,144 tokens e incluye métodos documentados para ampliar el contexto hasta ~1,010,000 tokens mediante escalado YaRN/RoPE, según el framework de servicio.

Which input modalities does Qwen3.5-397B-A17B support?

Es un modelo unificado de visión y lenguaje entrenado con fusión temprana; las entradas compatibles incluyen texto, imágenes y tokens de video para razonamiento y generación multimodales.

How does inference efficiency compare to a 17B dense model?

El cálculo de inferencia por token es similar al de los modelos densos de clase 17B gracias al enrutamiento MoE disperso, pero los artefactos del modelo y los requisitos de memoria son mayores porque los pesos completos deben almacenarse y distribuirse entre dispositivos.

Precios para qwen3.5-397b-a17b

Explora precios competitivos para qwen3.5-397b-a17b, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo qwen3.5-397b-a17b puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$0.48/M
Salida:$2.88/M
Entrada:$0.6/M
Salida:$3.6/M
-20%

Código de ejemplo y API para qwen3.5-397b-a17b

Accede a código de muestra completo y recursos de API para qwen3.5-397b-a17b para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de qwen3.5-397b-a17b en tus proyectos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "qwen3.5-397b-a17b",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "qwen3.5-397b-a17b",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'