O Novo Rei dos Benchmarks: MLPerf Inference v6.0
A NVIDIA acabou de divulgar seus resultados mais recentes do MLPerf Inference, e os números são impressionantes. Com 291 vitórias acumuladas desde 2018 — 9x mais que todos os outros submitters combinados — a NVIDIA está mostrando sua dominância full-stack. Mas não se trata apenas de hardware bruto. A verdadeira história é como o co-design de hardware, software e modelos está reduzindo o custo dos tokens e desbloqueando novos casos de uso de IA.
O MLPerf Inference v6.0 introduziu cinco novos benchmarks mais exigentes:
- DeepSeek-R1 Interativo: Cenário de alta interatividade com taxa mínima de tokens 5x mais rápida
- Qwen3-VL-235B-A22B: Primeiro modelo multimodal do conjunto (visão-linguagem)
- GPT-OSS-120B: LLM de raciocínio MoE de 120B parâmetros da OpenAI
- WAN-2.2-T2V-A14B: Geração de texto para vídeo
- DLRMv3: Benchmark de recomendação generativa baseado em transformer
A NVIDIA foi a única plataforma a submeter resultados em todos os novos modelos e cenários, e liderou em todos eles. Confira a análise completa no post oficial do blog da NVIDIA.
Otimização de Software: O Segredo do Ganho de 2,7x
Aqui é onde fica interessante para os desenvolvedores. O mesmo hardware NVIDIA GB300 NVL72 lançado no ano passado agora entrega 2,7x mais throughput de tokens no cenário server do DeepSeek-R1 comparado a apenas seis meses atrás. Isso é uma redução de mais de 60% no custo por token — só com software.
Isso é possível graças aos frameworks open-source TensorRT-LLM e NVIDIA Dynamo. As principais otimizações incluem:
- Kernels fundidos mais rápidos: Menos chamadas de kernel, mais eficientes
- Parallel de Atenção Otimizado: Melhor balanceamento de carga entre GPUs
- Serviço desagregado: Separação das fases de prefill e decode para throughput ideal
- Wide Expert Parallel (WideEP): Distribuição de especialistas MoE entre múltiplas GPUs
- Multi-Token Prediction (MTP): Uso de computação ociosa para prever e verificar até 3 tokens em paralelo
- Roteamento consciente de KV: Dynamo roteia requisições avaliando custos computacionais entre workers
# Exemplo: Código conceitual para roteamento consciente de KV (simplificado)
# Na prática, o Dynamo lida com isso de forma transparente
def rotear_requisicao(requisicao, workers):
"""Roteia requisição de inferência para o worker menos carregado"""
custos_worker = []
for worker in workers:
custo = estimar_custo_computacional(requisicao, worker.utilizacao_cache_kv)
custos_worker.append((custo, worker))
# Escolhe o worker com menor custo estimado
melhor_worker = min(custos_worker, key=lambda x: x[0])[1]
return melhor_worker.inferir(requisicao)
Escalabilidade: Milhões de Tokens por Segundo
A NVIDIA não parou no desempenho de um único nó. Conectando quatro sistemas GB300 NVL72 (288 GPUs Blackwell Ultra) com InfiniBand Quantum-X800, eles alcançaram:
- 2.494.310 tokens/segundo (Offline)
- 1.555.110 tokens/segundo (Server)
Essa é a maior escala já submetida em qualquer benchmark do MLPerf Inference. Para fábricas de IA, isso significa servir mais usuários, gerar mais receita e reduzir custos de token em escala.
Limitações e Cuidados
Embora esses resultados sejam impressionantes, alguns pontos merecem atenção:
- Condições de benchmark: Resultados do MLPerf são obtidos em condições controladas. A produção real pode variar.
- Custo do hardware: GPUs Blackwell Ultra e rede InfiniBand são infraestrutura premium. Nem todo time consegue justificar o investimento.
- Complexidade do software: Alcançar essas otimizações requer integração profunda com TensorRT-LLM e Dynamo, que têm uma curva de aprendizado.
- Especificidade do modelo: O ganho de 2,7x é específico para o DeepSeek-R1. Ganhos em outras arquiteturas podem ser menores.
O que Vem por Aí: MLPerf Endpoints
A NVIDIA já está trabalhando com o MLCommons no MLPerf Endpoints, um novo benchmark que mede o desempenho de serviços implantados sob tráfego real de API. Isso capturará métricas como latência, throughput e custo em condições realistas — dando aos devs uma visão mais clara da prontidão para produção.
Para engenheiros de IA, a lição é clara: otimização de software é o novo hardware. As mesmas GPUs podem entregar desempenho drasticamente diferente com a stack certa. Mergulhe no TensorRT-LLM e comece a experimentar com serviço desagregado e predição multi-token.
Leitura Recomendada
- Por que o Generalista de Dados Vence na Era da IA
- NVIDIA DLSS 4.5: Mergulho Profundo em Super-Resolução e Geração Dinâmica de Quadros
