Em 25 de março, segundo o Qwen anúncio da equipe, o modelo Qwen2.5-VL-32B-Instruct foi oficialmente aberto, com uma escala de parâmetros 32B, e demonstrou excelente desempenho em tarefas como compreensão de imagens, raciocínio matemático e geração de texto. O modelo foi ainda mais otimizado por meio de aprendizado por reforço, e as respostas estavam mais alinhadas com as preferências humanas, superando o modelo 72B lançado anteriormente em avaliações multimodais, como MMMU e MathVista.

O que é Qwen2.5-VL-32B?
Qwen2.5-VL-32B-Instruct é a mais recente adição à série Qwen da Alibaba, ostentando 32 bilhões de parâmetros. Projetado para processar e interpretar informações visuais e textuais, este modelo se destaca em tarefas que exigem uma compreensão diferenciada de imagens e linguagem. Lançado sob a licença Apache 2.0, ele oferece aos desenvolvedores e pesquisadores a flexibilidade para integrar e adaptar o modelo para vários aplicativos.
Comparado com os modelos anteriores da série Qwen2.5-VL, o modelo 32B tem as seguintes melhorias:
- As respostas estão mais de acordo com as preferências subjetivas humanas: o estilo de saída foi ajustado para tornar as respostas mais detalhadas, o formato mais padronizado e mais alinhado às preferências humanas.
- Capacidade de raciocínio matemático: A precisão na resolução de problemas matemáticos complexos foi significativamente melhorada.
- Compreensão e raciocínio de imagem granular: Maior precisão e capacidades de análise refinadas foram demonstradas em tarefas como análise de imagens, reconhecimento de conteúdo e dedução lógica visual
Como você pode usar o Qwen2.5-VL-32B localmente?
A implantação do Qwen2.5-VL-32B localmente permite que os usuários aproveitem seus recursos sem depender de servidores externos, garantindo a privacidade dos dados e reduzindo a latência. O repositório oficial do GitHub fornece recursos abrangentes para implantação local. citeturn0search6
Configurando o ambiente
- Clonar o repositório:
git clone https://github.com/QwenLM/Qwen2.5-VL
- Navegue até o Diretório do Projeto: Mova para o diretório clonado:
cd Qwen2.5-VL
- Instalar dependências: Certifique-se de que todos os pacotes necessários estejam instalados. O repositório inclui um
requirements.txtarquivo para facilitar isso:
pip install -r requirements.txt
Executando o modelo
Após configurar o ambiente:
- Inicie o aplicativo: Execute o script principal para iniciar o aplicativo. Instruções detalhadas são fornecidas na documentação do repositório.
- Acesse a interface: Após a execução, acesse a interface do modelo por meio de um navegador da web no endereço local especificado.
Dicas de otimização
Para melhorar o desempenho e gerenciar recursos de forma eficaz:
- Quantização: Utilize o
--quantizesinalizador durante a conversão do modelo para reduzir o uso de memória. - Gerenciar comprimento de contexto: Limite os tokens de entrada para agilizar as respostas.
- Fechar aplicativos com uso intensivo de recursos: Certifique-se de que outros aplicativos intensivos sejam fechados para liberar recursos do sistema.
- Processamento em lote: Para várias imagens, processe-as em lotes para melhorar a eficiência.
Quais são os principais recursos do Qwen2.5-VL-32B?
Qwen2.5-VL-32B-Instruct apresenta vários aprimoramentos em relação aos seus predecessores:
Respostas Humanas Aprimoradas
O estilo de saída do modelo foi refinado para produzir respostas mais detalhadas e bem estruturadas, alinhando-se de perto com as preferências humanas. Essa melhoria facilita interações mais naturais e intuitivas.
Raciocínio Matemático Avançado
Avanços significativos foram feitos na capacidade do modelo de resolver problemas matemáticos complexos com precisão. Isso posiciona o Qwen2.5-VL-32B como uma ferramenta valiosa para tarefas que exigem computações numéricas sofisticadas.
Compreensão e raciocínio de imagens granulares
O modelo demonstra maior precisão na análise de imagens, reconhecimento de conteúdo e dedução lógica visual. Ele pode analisar detalhes intrincados dentro de imagens, tornando-o adepto de tarefas como detecção de objetos e compreensão de cenas.
Recursos poderosos de análise de documentos
O Qwen2.5-VL-32B se destaca na análise de todos os documentos, manipulando com eficiência documentos multilíngues e com várias cenas, incluindo aqueles com caligrafia, tabelas, gráficos, fórmulas químicas e notações musicais.
Como o Qwen2.5-VL-32B se sai em comparação com outros modelos?
Em avaliações de benchmark, o Qwen2.5-VL-32B-Instruct demonstrou desempenho excepcional:
- Tarefas multimodais: O modelo supera homólogos maiores, como o modelo 72B, em tarefas avaliadas por benchmarks como MMMU, MMMU-Pro e MathVista. citeturn0search9
- Capacidades textuais: Ele alcança resultados de última geração comparáveis a modelos como Mistral-Small-3.1-24B e Gemma-3-27B-IT, demonstrando sua capacidade em tarefas baseadas apenas em texto.
Tópicos relacionados Como acessar o Grok 3 e usá-lo
Para desenvolvedores: acesso à API
A CometAPI oferece um preço muito menor do que o preço oficial para ajudar você a integrar a qwen API (nome do modelo: qwen-max;), e você receberá $1 na sua conta após registrar e fazer login! Bem-vindo para registrar e experimentar a CometAPI.
O CometAPI atua como um hub centralizado para APIs de vários modelos de IA líderes, eliminando a necessidade de se envolver com vários provedores de API separadamente. O CometAPI integra a série de modelos Qwen 2.5. Você pode acessá-los por meio da API.
Por favor, consulte Qwen 2.5 Coder 32B Instruir API e Qwen 2.5 API Máxima para detalhes de integração. O CometAPI atualizou o mais recente API QwQ-32B.
Conclusão
Qwen2.5-VL-32B-Instruct representa um avanço significativo no campo da IA multimodal. Sua natureza de código aberto, combinada com capacidades aprimoradas em interação semelhante à humana, raciocínio matemático e compreensão de imagem, o torna uma ferramenta versátil e poderosa para desenvolvedores e pesquisadores. Ao oferecer recursos para implantação e otimização local, o Alibaba garante que este modelo seja acessível e prático para uma ampla gama de aplicações.
