O Novo Rei dos Benchmarks: MLPerf Inference v6.0

A NVIDIA acabou de divulgar seus resultados mais recentes do MLPerf Inference, e os números são impressionantes. Com 291 vitórias acumuladas desde 2018 — 9x mais que todos os outros submitters combinados — a NVIDIA está mostrando sua dominância full-stack. Mas não se trata apenas de hardware bruto. A verdadeira história é como o co-design de hardware, software e modelos está reduzindo o custo dos tokens e desbloqueando novos casos de uso de IA.

O MLPerf Inference v6.0 introduziu cinco novos benchmarks mais exigentes:

  • DeepSeek-R1 Interativo: Cenário de alta interatividade com taxa mínima de tokens 5x mais rápida
  • Qwen3-VL-235B-A22B: Primeiro modelo multimodal do conjunto (visão-linguagem)
  • GPT-OSS-120B: LLM de raciocínio MoE de 120B parâmetros da OpenAI
  • WAN-2.2-T2V-A14B: Geração de texto para vídeo
  • DLRMv3: Benchmark de recomendação generativa baseado em transformer

A NVIDIA foi a única plataforma a submeter resultados em todos os novos modelos e cenários, e liderou em todos eles. Confira a análise completa no post oficial do blog da NVIDIA.

Otimização de Software: O Segredo do Ganho de 2,7x

Aqui é onde fica interessante para os desenvolvedores. O mesmo hardware NVIDIA GB300 NVL72 lançado no ano passado agora entrega 2,7x mais throughput de tokens no cenário server do DeepSeek-R1 comparado a apenas seis meses atrás. Isso é uma redução de mais de 60% no custo por token — só com software.

Isso é possível graças aos frameworks open-source TensorRT-LLM e NVIDIA Dynamo. As principais otimizações incluem:

  • Kernels fundidos mais rápidos: Menos chamadas de kernel, mais eficientes
  • Parallel de Atenção Otimizado: Melhor balanceamento de carga entre GPUs
  • Serviço desagregado: Separação das fases de prefill e decode para throughput ideal
  • Wide Expert Parallel (WideEP): Distribuição de especialistas MoE entre múltiplas GPUs
  • Multi-Token Prediction (MTP): Uso de computação ociosa para prever e verificar até 3 tokens em paralelo
  • Roteamento consciente de KV: Dynamo roteia requisições avaliando custos computacionais entre workers
# Exemplo: Código conceitual para roteamento consciente de KV (simplificado)
# Na prática, o Dynamo lida com isso de forma transparente

def rotear_requisicao(requisicao, workers):
    """Roteia requisição de inferência para o worker menos carregado"""
    custos_worker = []
    for worker in workers:
        custo = estimar_custo_computacional(requisicao, worker.utilizacao_cache_kv)
        custos_worker.append((custo, worker))
    # Escolhe o worker com menor custo estimado
    melhor_worker = min(custos_worker, key=lambda x: x[0])[1]
    return melhor_worker.inferir(requisicao)

Escalabilidade: Milhões de Tokens por Segundo

A NVIDIA não parou no desempenho de um único nó. Conectando quatro sistemas GB300 NVL72 (288 GPUs Blackwell Ultra) com InfiniBand Quantum-X800, eles alcançaram:

  • 2.494.310 tokens/segundo (Offline)
  • 1.555.110 tokens/segundo (Server)

Essa é a maior escala já submetida em qualquer benchmark do MLPerf Inference. Para fábricas de IA, isso significa servir mais usuários, gerar mais receita e reduzir custos de token em escala.

Limitações e Cuidados

Embora esses resultados sejam impressionantes, alguns pontos merecem atenção:

  • Condições de benchmark: Resultados do MLPerf são obtidos em condições controladas. A produção real pode variar.
  • Custo do hardware: GPUs Blackwell Ultra e rede InfiniBand são infraestrutura premium. Nem todo time consegue justificar o investimento.
  • Complexidade do software: Alcançar essas otimizações requer integração profunda com TensorRT-LLM e Dynamo, que têm uma curva de aprendizado.
  • Especificidade do modelo: O ganho de 2,7x é específico para o DeepSeek-R1. Ganhos em outras arquiteturas podem ser menores.

O que Vem por Aí: MLPerf Endpoints

A NVIDIA já está trabalhando com o MLCommons no MLPerf Endpoints, um novo benchmark que mede o desempenho de serviços implantados sob tráfego real de API. Isso capturará métricas como latência, throughput e custo em condições realistas — dando aos devs uma visão mais clara da prontidão para produção.

Para engenheiros de IA, a lição é clara: otimização de software é o novo hardware. As mesmas GPUs podem entregar desempenho drasticamente diferente com a stack certa. Mergulhe no TensorRT-LLM e comece a experimentar com serviço desagregado e predição multi-token.


Leitura Recomendada

NVIDIA Blackwell Ultra GPU server rack for AI inference in a data center IT Technology Image

Este conteúdo foi elaborado com o auxílio de ferramentas de IA, com base em fontes confiáveis, e revisado pela nossa equipe editorial antes da publicação. Não substitui o aconselhamento de um profissional especializado.