未提供可译文本。请粘贴要翻译的原文，并确认目标语言（葡萄牙语）。我将严格保留结构与技术元素，仅翻译可见文本。

Mistral Large 3 é a mais nova família de modelos “de fronteira” lançada pela Mistral AI no início de dezembro de 2025. É um modelo base multimodal com pesos abertos, voltado para produção, construído em torno de um design de Mixture-of-Experts (MoE) granular e esparsa e destinado a oferecer raciocínio “de fronteira”, compreensão de contexto longo e capacidades de visão + texto, mantendo a inferência prática por meio de esparsidade e quantização moderna. O Mistral Large 3 possui 675 bilhões de parâmetros totais com ~41 bilhões de parâmetros ativos na inferência e uma janela de contexto de 256k tokens em sua configuração padrão — uma combinação projetada para impulsionar simultaneamente capacidade e escala sem forçar cada inferência a acessar todos os parâmetros.

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

Mistral Large 3 é o modelo de fronteira carro-chefe da Mistral AI na família Mistral 3 — um modelo grande, com pesos abertos, multimodal e baseado em Mixture-of-Experts (MoE), lançado sob a licença Apache-2.0. Ele foi projetado para oferecer capacidade “de fronteira” (raciocínio, programação, compreensão de contexto longo, tarefas multimodais) enquanto mantém o cálculo de inferência esparso ao ativar apenas um subconjunto dos especialistas do modelo para cada token.

Os materiais oficiais da Mistral descrevem o Large 3 como um modelo com ~675 bilhões de parâmetros totais e cerca de 40–41 bilhões de parâmetros ativos usados por passagem direta; ele também inclui um codificador de visão e foi construído para lidar com janelas de contexto muito longas (Mistral e parceiros citam até 256k tokens).

Em resumo: é um modelo MoE que concentra enorme capacidade total (para armazenar especializações diversas), mas computa apenas em um subconjunto ativo muito menor na hora da inferência — buscando oferecer desempenho de fronteira de forma mais eficiente do que um modelo denso de tamanho total comparável.

Arquitetura central: Mixture-of-Experts (MoE) granular

Em alto nível, o Mistral Large 3 substitui algumas (ou muitas) subcamadas de feed-forward de um transformer por camadas MoE. Cada camada MoE contém:

Muitos especialistas — sub-redes independentes (normalmente blocos FFN). Em conjunto, eles produzem a contagem muito grande de parâmetros totais do modelo (por exemplo, centenas de bilhões).
Um roteador / rede de gating — uma pequena rede que analisa a representação do token e decide quais especialistas devem processar aquele token. Roteadores MoE modernos normalmente escolhem apenas os top-k especialistas (gating esparso), frequentemente k=1 ou k=2, para manter o custo computacional baixo.
Ativação esparsa — para qualquer token, apenas os especialistas selecionados são executados; o restante é ignorado. É aqui que surge a eficiência: parâmetros totais armazenados >> parâmetros ativos computados por token.

A Mistral chama seu design de MoE “granular” para enfatizar que o modelo possui muitos especialistas pequenos/especializados e um esquema de roteamento otimizado para escalar em muitas GPUs e contextos longos. O resultado: capacidade representacional muito grande enquanto mantém o custo computacional por token próximo ao de um modelo denso muito menor. Parâmetros totais:

Parâmetros totais: 675 bilhões; soma de todos os parâmetros armazenados em cada especialista e no restante do transformer. Esse número indica a capacidade bruta do modelo (quanto conhecimento e especializações ele pode conter).
Parâmetros ativos: 41 bilhões. o subconjunto de parâmetros que são realmente usados/computados em uma passagem direta típica, porque o roteador ativa apenas alguns especialistas por token. Essa é a métrica que se relaciona mais diretamente ao custo computacional de inferência e ao uso de memória por requisição. Os materiais públicos da Mistral listam ~41B parâmetros ativos; algumas páginas do modelo mostram contagens ligeiramente diferentes para variantes específicas (por exemplo, 39B) — o que pode refletir versões variant/instruct ou arredondamentos.

Configuração de treinamento:

Treinado do zero usando 3000 GPUs NVIDIA H200;
Dados abrangem vários idiomas, múltiplas tarefas e múltiplas modalidades;
Suporta entrada de imagens e inferência entre idiomas.

Tabela de recursos do Mistral Large 3

Categoria	Descrição de capacidade técnica
Compreensão multimodal	Suporta entrada e análise de imagens, permitindo a compreensão de conteúdo visual durante o diálogo.
Suporte multilíngue	Suporte nativo a 10+ idiomas principais (inglês, francês, espanhol, alemão, italiano, português, holandês, chinês, japonês, coreano, árabe etc.).
Suporte a prompt de sistema	Alta aderência a instruções de sistema e prompts contextuais, adequado para fluxos de trabalho complexos.
Recursos de agente	Suporta chamadas de função nativas e saída JSON estruturada, permitindo invocação direta de ferramentas ou integração com sistemas externos.
Janela de contexto	Suporta uma janela de contexto ultralonga de 256K tokens, entre as mais extensas dos modelos open-source.
Posicionamento de desempenho	Desempenho em nível de produção com forte compreensão de contexto longo e saída estável.
Licença de código aberto	Licença Apache 2.0, livre para uso e modificação comercial.

Visão geral:

Desempenho comparável aos modelos fechados mainstream;
Desempenho destacado em tarefas multilíngues (especialmente em cenários não inglês e não chinês);
Possui capacidades de compreensão de imagens e de seguir instruções;
Oferece uma versão básica (Base) e uma versão otimizada por instruções (Instruct), com uma versão otimizada para inferência (Reasoning) chegando em breve.

Como o Mistral Large 3 se sai em benchmarks?

Benchmarks públicos iniciais e rankings mostram o Mistral Large 3 posicionando-se altamente entre modelos open-source: colocação no LMArena como #2 em modelos OSS sem raciocínio e menções a posições de topo em uma variedade de tarefas padrão (por exemplo, GPQA, MMLU e outros conjuntos de raciocínio/conhecimento geral).

![Mistral Large 3 é a mais nova família de modelos “de fronteira” lançada pela Mistral AI no início de dezembro de 2025. É um modelo base multimodal com pesos abertos, voltado para produção, construído em torno de um design de Mixture-of-Experts (MoE) granular e esparsa e destinado a oferecer raciocínio “de fronteira”, compreensão de contexto longo e capacidades de visão + texto, mantendo a inferência prática por meio de esparsidade e quantização moderna. O Mistral Large 3 possui 675 bilhões de parâmetros totais com ~41 bilhões de parâmetros ativos na inferência e uma janela de contexto de 256k tokens em sua configuração padrão — uma combinação projetada para impulsionar simultaneamente capacidade e escala sem forçar cada inferência a acessar todos os parâmetros.

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

O Mistral Large 3 adota uma abordagem de Mixture-of-Experts (MoE): em vez de ativar todos os parâmetros para cada token, o modelo roteia o processamento de tokens para um subconjunto de sub-redes especialistas. As contagens publicadas para o Large 3 são aproximadamente 41 bilhões de parâmetros ativos (os parâmetros que normalmente participam para um token) e 675 bilhões de parâmetros totais em todos os especialistas — um design esparso porém massivo que busca atingir o ponto ideal entre eficiência computacional e capacidade do modelo. O modelo também suporta uma janela de contexto extremamente longa (documentada em 256k tokens) e entradas multimodais (texto + imagem).

Arquitetura central: Mixture-of-Experts (MoE) granular

Em alto nível, o Mistral Large 3 substitui algumas (ou muitas) subcamadas de feed-forward de um transformer por camadas MoE. Cada camada MoE contém:

Muitos especialistas — sub-redes independentes (normalmente blocos FFN). Em conjunto, eles produzem a contagem muito grande de parâmetros totais do modelo (por exemplo, centenas de bilhões).
Um roteador / rede de gating — uma pequena rede que analisa a representação do token e decide quais especialistas devem processar aquele token. Roteadores MoE modernos normalmente escolhem apenas os top-k especialistas (gating esparso), frequentemente k=1 ou k=2, para manter o custo computacional baixo.
Ativação esparsa — para qualquer token, apenas os especialistas selecionados são executados; o restante é ignorado. É aqui que surge a eficiência: parâmetros totais armazenados >> parâmetros ativos computados por token.

Parâmetros totais: 675 bilhões; soma de todos os parâmetros armazenados em cada especialista e no restante do transformer. Esse número indica a capacidade bruta do modelo (quanto conhecimento e especializações ele pode conter).
Parâmetros ativos: 41 bilhões. o subconjunto de parâmetros que são realmente usados/computados em uma passagem direta típica, porque o roteador ativa apenas alguns especialistas por token. Essa é a métrica que se relaciona mais diretamente ao custo computacional de inferência e ao uso de memória por requisição. Os materiais públicos da Mistral listam ~41B parâmetros ativos; algumas páginas do modelo mostram contagens ligeiramente diferentes para variantes específicas (por exemplo, 39B) — o que pode refletir versões variant/instruct ou arredondamentos.

Configuração de treinamento:

Treinado do zero usando 3000 GPUs NVIDIA H200;
Dados abrangem vários idiomas, múltiplas tarefas e múltiplas modalidades;
Suporta entrada de imagens e inferência entre idiomas.

Tabela de recursos do Mistral Large 3

Categoria	Descrição de capacidade técnica
Compreensão multimodal	Suporta entrada e análise de imagens, permitindo a compreensão de conteúdo visual durante o diálogo.
Suporte multilíngue	Suporte nativo a 10+ idiomas principais (inglês, francês, espanhol, alemão, italiano, português, holandês, chinês, japonês, coreano, árabe etc.).
Suporte a prompt de sistema	Alta aderência a instruções de sistema e prompts contextuais, adequado para fluxos de trabalho complexos.
Recursos de agente	Suporta chamadas de função nativas e saída JSON estruturada, permitindo invocação direta de ferramentas ou integração com sistemas externos.
Janela de contexto	Suporta uma janela de contexto ultralonga de 256K tokens, entre as mais extensas dos modelos open-source.
Posicionamento de desempenho	Desempenho em nível de produção com forte compreensão de contexto longo e saída estável.
Licença de código aberto	Licença Apache 2.0, livre para uso e modificação comercial.

Visão geral:

Desempenho comparável aos modelos fechados mainstream;
Desempenho destacado em tarefas multilíngues (especialmente em cenários não inglês e não chinês);
Possui capacidades de compreensão de imagens e de seguir instruções;
Oferece uma versão básica (Base) e uma versão otimizada por instruções (Instruct), com uma versão otimizada para inferência (Reasoning) chegando em breve.

Como o Mistral Large 3 se sai em benchmarks?

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

Arquitetura central: Mixture-of-Experts (MoE) granular

Em alto nível, o Mistral Large 3 substitui algumas (ou muitas) subcamadas de feed-forward de um transformer por camadas MoE. Cada camada MoE contém:

Muitos especialistas — sub-redes independentes (normalmente blocos FFN). Em conjunto, eles produzem a contagem muito grande de parâmetros totais do modelo (por exemplo, centenas de bilhões).
Um roteador / rede de gating — uma pequena rede que analisa a representação do token e decide quais especialistas devem processar aquele token. Roteadores MoE modernos normalmente escolhem apenas os top-k especialistas (gating esparso), frequentemente k=1 ou k=2, para manter o custo computacional baixo.
Ativação esparsa — para qualquer token, apenas os especialistas selecionados são executados; o restante é ignorado. É aqui que surge a eficiência: parâmetros totais armazenados >> parâmetros ativos computados por token.

Parâmetros totais: 675 bilhões; soma de todos os parâmetros armazenados em cada especialista e no restante do transformer. Esse número indica a capacidade bruta do modelo (quanto conhecimento e especializações ele pode conter).
Parâmetros ativos: 41 bilhões. o subconjunto de parâmetros que são realmente usados/computados em uma passagem direta típica, porque o roteador ativa apenas alguns especialistas por token. Essa é a métrica que se relaciona mais diretamente ao custo computacional de inferência e ao uso de memória por requisição. Os materiais públicos da Mistral listam ~41B parâmetros ativos; algumas páginas do modelo mostram contagens ligeiramente diferentes para variantes específicas (por exemplo, 39B) — o que pode refletir versões variant/instruct ou arredondamentos.

Configuração de treinamento:

Treinado do zero usando 3000 GPUs NVIDIA H200;
Dados abrangem vários idiomas, múltiplas tarefas e múltiplas modalidades;
Suporta entrada de imagens e inferência entre idiomas.

Tabela de recursos do Mistral Large 3

Categoria	Descrição de capacidade técnica
Compreensão multimodal	Suporta entrada e análise de imagens, permitindo a compreensão de conteúdo visual durante o diálogo.
Suporte multilíngue	Suporte nativo a 10+ idiomas principais (inglês, francês, espanhol, alemão, italiano, português, holandês, chinês, japonês, coreano, árabe etc.).
Suporte a prompt de sistema	Alta aderência a instruções de sistema e prompts contextuais, adequado para fluxos de trabalho complexos.
Recursos de agente	Suporta chamadas de função nativas e saída JSON estruturada, permitindo invocação direta de ferramentas ou integração com sistemas externos.
Janela de contexto	Suporta uma janela de contexto ultralonga de 256K tokens, entre as mais extensas dos modelos open-source.
Posicionamento de desempenho	Desempenho em nível de produção com forte compreensão de contexto longo e saída estável.
Licença de código aberto	Licença Apache 2.0, livre para uso e modificação comercial.

Visão geral:

Desempenho comparável aos modelos fechados mainstream;
Desempenho destacado em tarefas multilíngues (especialmente em cenários não inglês e não chinês);
Possui capacidades de compreensão de imagens e de seguir instruções;
Oferece uma versão básica (Base) e uma versão otimizada por instruções (Instruct), com uma versão otimizada para inferência (Reasoning) chegando em breve.

Como o Mistral Large 3 se sai em benchmarks?

未提供可译文本。请粘贴要翻译的原文，并确认目标语言（葡萄牙语）。我将严格保留结构与技术元素，仅翻译可见文本。

Forças demonstradas até agora

Compreensão de documentos longos e tarefas com recuperação aumentada: A combinação de contexto longo e capacidade esparsa dá ao Mistral Large 3 vantagem em tarefas de contexto longo (QA de documentos, sumarização de grandes documentos).
Conhecimento geral e seguir instruções: Em variantes otimizadas por instruções, o Mistral Large 3 é forte em muitas tarefas de “assistente geral” e aderência ao prompt de sistema.
Energia e throughput (em hardware otimizado): A análise da NVIDIA mostra ganhos impressionantes de eficiência energética e throughput quando o Mistral Large 3 é executado em GB200 NVL72 com otimizações específicas para MoE — números que se traduzem diretamente em custo por token e escalabilidade para empresas.

Como acessar e usar o Mistral Large 3?

Acesso hospedado em nuvem (caminho rápido)

Mistral Large 3 está disponível por meio de múltiplos parceiros de nuvem e plataforma:

Hugging Face hospeda cards de modelo e artefatos de inferência (pacotes de modelo, incluindo variantes instruct e artefatos NVFP4 otimizados). Você pode chamar o modelo via Hugging Face Inference API ou baixar artefatos compatíveis.
Azure / Microsoft Foundry anunciaram disponibilidade do Mistral Large 3 para cargas de trabalho empresariais.
NVIDIA publicou runtimes acelerados e notas de otimização para as famílias GB200/H200, e parceiros como Red Hat publicaram instruções para vLLM.

Essas rotas hospedadas permitem começar rapidamente sem lidar com engenharia de runtime MoE.

Executando localmente ou na sua infraestrutura (avançado)

Executar o Mistral Large 3 localmente ou em infraestrutura privada é viável, mas não trivial:

Opções:

Artefatos Hugging Face + accelerate/transformers — podem ser usados para variantes menores ou se você tiver um farm de GPUs e ferramentas adequadas de sharding. O card do modelo lista restrições específicas de plataforma e formatos recomendados (por exemplo, NVFP4).
vLLM — um servidor de inferência otimizado para LLMs grandes e contextos longos; Red Hat e outros parceiros publicaram guias para executar o Mistral Large 3 no vLLM e obter throughput e latência eficientes.
Stacks especializados (NVIDIA Triton / NVL72 / kernels customizados) — necessários para a melhor latência/eficiência em escala; a NVIDIA publicou um blog sobre acelerar o Mistral 3 com GB200/H200 e runtimes NVL72.
Ollama / gerenciadores de VMs locais — guias da comunidade mostram configurações locais (Ollama, Docker) para experimentação; espere grandes pegadas de RAM/GPU e a necessidade de usar variantes de modelo ou checkpoints quantizados.

Exemplo: inferência via Hugging Face (python)

Este é um exemplo simples usando a Hugging Face Inference API (adequado para variantes instruídas). Substitua HF_API_KEY e MODEL pelos valores do card do modelo:

# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = {    "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>",    "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())

Observação: para contextos muito longos (dezenas de milhares de tokens), verifique as recomendações de streaming / fragmentação do provedor e o comprimento de contexto suportado pela variante do modelo.

Exemplo: iniciar um servidor vLLM (conceitual)

vLLM é um servidor de inferência de alto desempenho usado por empresas. Abaixo está um início conceitual (consulte a documentação do vLLM para flags, caminho do modelo e suporte a MoE):

# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \     --num-gpus 4 \     --max-batch-size 8 \     --max-seq-len 65536 \     --log-level info

Em seguida, use o cliente Python do vLLM ou a API HTTP para enviar requisições. Para modelos MoE, você deve garantir que a compilação e o runtime do vLLM suportem kernels de especialistas esparsos e o formato de checkpoint do modelo (NVFP4/FP8/BF16).

Práticas recomendadas práticas para implantar o Mistral Large 3

Escolha a variante e a precisão corretas

Comece com um checkpoint ajustado por instruções para fluxos de trabalho de assistente (a família de modelos inclui uma variante Instruct). Use modelos base apenas quando planejar fazer fine-tuning ou aplicar seu próprio ajuste por instruções.
Use variantes de baixa precisão otimizadas (NVFP4, FP8, BF16) quando disponíveis para seu hardware; elas oferecem grandes ganhos de eficiência com degradação mínima de qualidade se o checkpoint for produzido e validado pelo fornecedor do modelo.

Memória, sharding e hardware

Não espere executar o checkpoint de 675B parâmetros totais em uma única GPU comum — embora apenas ~41B estejam ativos por token, o checkpoint completo é enorme e requer estratégias de sharding mais aceleradores de alta memória (classe GB200/H200) ou orquestração de offload CPU+GPU.
Use paralelismo de modelo + posicionamento de especialistas: modelos MoE se beneficiam de colocar especialistas em diferentes dispositivos para equilibrar o tráfego de roteamento. Siga as orientações do fornecedor sobre atribuição de especialistas.

Engenharia de contexto longo

Fragmentar e recuperar: para muitas tarefas com documentos longos, combine um componente de recuperação com os 256k de contexto para manter latência e custo gerenciáveis — isto é, recupere fragmentos relevantes e então passe um contexto focado para o modelo.
Streaming e janela deslizante: para fluxos contínuos, mantenha uma janela deslizante e resuma o contexto mais antigo em notas condensadas para manter efetivo o “orçamento de atenção” do modelo.

Engenharia de prompts para modelos MoE

Prefira instruções explícitas: checkpoints ajustados por instruções respondem melhor a tarefas e exemplos claros. Use exemplos few-shot no prompt para saídas estruturadas complexas.
Chain-of-thought e mensagens de sistema: para tarefas de raciocínio, estruture prompts que incentivem o raciocínio passo a passo e verifiquem resultados intermediários. Mas atenção: solicitar chain-of-thought aumenta o consumo de tokens e a latência.

Conclusão

Mistral Large 3 é um marco importante no cenário de modelos com pesos abertos: um modelo MoE de 675B totais / ~41B ativos com contexto de 256k, capacidades multimodais e receitas de implantação co-otimizadas com grandes parceiros de infraestrutura. Ele oferece um perfil convincente de desempenho versus custo para empresas que podem adotar o runtime e o stack de hardware MoE, embora ainda exija avaliação cuidadosa para tarefas de raciocínio especializadas e prontidão operacional.

Para começar, explore mais modelos de IA (como as capacidades do Gemini 3 Pro) no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao oficial para ajudar na integração.

Pronto para começar?→ Inscreva-se na CometAPI hoje !

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

Arquitetura central: Mixture-of-Experts (MoE) granular

Configuração de treinamento:

Tabela de recursos do Mistral Large 3

Como o Mistral Large 3 se sai em benchmarks?

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

Arquitetura central: Mixture-of-Experts (MoE) granular

Configuração de treinamento:

Tabela de recursos do Mistral Large 3

Como o Mistral Large 3 se sai em benchmarks?

O que é o Mistral Large 3? Como funciona?

O que é o Mistral Large 3?

Arquitetura central: Mixture-of-Experts (MoE) granular

Configuração de treinamento:

Tabela de recursos do Mistral Large 3

Como o Mistral Large 3 se sai em benchmarks?

Forças demonstradas até agora

Como acessar e usar o Mistral Large 3?

Acesso hospedado em nuvem (caminho rápido)

Executando localmente ou na sua infraestrutura (avançado)

Exemplo: inferência via Hugging Face (python)

Exemplo: iniciar um servidor vLLM (conceitual)

Práticas recomendadas práticas para implantar o Mistral Large 3

Escolha a variante e a precisão corretas

Memória, sharding e hardware

Engenharia de contexto longo

Engenharia de prompts para modelos MoE

Conclusão

Leia Mais

500+ Modelos em Uma API