NVIDIA Quebra Recordes no MLPerf Blackwell Ultra, Ganho de 2,7x em Software e o Futuro da IA Interativa

O Novo Rei dos Benchmarks: MLPerf Inference v6.0

A NVIDIA acabou de divulgar seus resultados mais recentes do MLPerf Inference, e os números são impressionantes. Com 291 vitórias acumuladas desde 2018 — 9x mais que todos os outros submitters combinados — a NVIDIA está mostrando sua dominância full-stack. Mas não se trata apenas de hardware bruto. A verdadeira história é como o co-design de hardware, software e modelos está reduzindo o custo dos tokens e desbloqueando novos casos de uso de IA.

O MLPerf Inference v6.0 introduziu cinco novos benchmarks mais exigentes:

DeepSeek-R1 Interativo: Cenário de alta interatividade com taxa mínima de tokens 5x mais rápida
Qwen3-VL-235B-A22B: Primeiro modelo multimodal do conjunto (visão-linguagem)
GPT-OSS-120B: LLM de raciocínio MoE de 120B parâmetros da OpenAI
WAN-2.2-T2V-A14B: Geração de texto para vídeo
DLRMv3: Benchmark de recomendação generativa baseado em transformer

A NVIDIA foi a única plataforma a submeter resultados em todos os novos modelos e cenários, e liderou em todos eles. Confira a análise completa no post oficial do blog da NVIDIA.

Otimização de Software: O Segredo do Ganho de 2,7x

Aqui é onde fica interessante para os desenvolvedores. O mesmo hardware NVIDIA GB300 NVL72 lançado no ano passado agora entrega 2,7x mais throughput de tokens no cenário server do DeepSeek-R1 comparado a apenas seis meses atrás. Isso é uma redução de mais de 60% no custo por token — só com software.

Isso é possível graças aos frameworks open-source TensorRT-LLM e NVIDIA Dynamo. As principais otimizações incluem:

Kernels fundidos mais rápidos: Menos chamadas de kernel, mais eficientes
Parallel de Atenção Otimizado: Melhor balanceamento de carga entre GPUs
Serviço desagregado: Separação das fases de prefill e decode para throughput ideal
Wide Expert Parallel (WideEP): Distribuição de especialistas MoE entre múltiplas GPUs
Multi-Token Prediction (MTP): Uso de computação ociosa para prever e verificar até 3 tokens em paralelo
Roteamento consciente de KV: Dynamo roteia requisições avaliando custos computacionais entre workers

# Exemplo: Código conceitual para roteamento consciente de KV (simplificado)
# Na prática, o Dynamo lida com isso de forma transparente

def rotear_requisicao(requisicao, workers):
    """Roteia requisição de inferência para o worker menos carregado"""
    custos_worker = []
    for worker in workers:
        custo = estimar_custo_computacional(requisicao, worker.utilizacao_cache_kv)
        custos_worker.append((custo, worker))
    # Escolhe o worker com menor custo estimado
    melhor_worker = min(custos_worker, key=lambda x: x[0])[1]
    return melhor_worker.inferir(requisicao)

Escalabilidade: Milhões de Tokens por Segundo

A NVIDIA não parou no desempenho de um único nó. Conectando quatro sistemas GB300 NVL72 (288 GPUs Blackwell Ultra) com InfiniBand Quantum-X800, eles alcançaram:

2.494.310 tokens/segundo (Offline)
1.555.110 tokens/segundo (Server)

Essa é a maior escala já submetida em qualquer benchmark do MLPerf Inference. Para fábricas de IA, isso significa servir mais usuários, gerar mais receita e reduzir custos de token em escala.

Limitações e Cuidados

Embora esses resultados sejam impressionantes, alguns pontos merecem atenção:

Condições de benchmark: Resultados do MLPerf são obtidos em condições controladas. A produção real pode variar.
Custo do hardware: GPUs Blackwell Ultra e rede InfiniBand são infraestrutura premium. Nem todo time consegue justificar o investimento.
Complexidade do software: Alcançar essas otimizações requer integração profunda com TensorRT-LLM e Dynamo, que têm uma curva de aprendizado.
Especificidade do modelo: O ganho de 2,7x é específico para o DeepSeek-R1. Ganhos em outras arquiteturas podem ser menores.

O que Vem por Aí: MLPerf Endpoints

A NVIDIA já está trabalhando com o MLCommons no MLPerf Endpoints, um novo benchmark que mede o desempenho de serviços implantados sob tráfego real de API. Isso capturará métricas como latência, throughput e custo em condições realistas — dando aos devs uma visão mais clara da prontidão para produção.

Para engenheiros de IA, a lição é clara: otimização de software é o novo hardware. As mesmas GPUs podem entregar desempenho drasticamente diferente com a stack certa. Mergulhe no TensorRT-LLM e comece a experimentar com serviço desagregado e predição multi-token.

Leitura Recomendada

NVIDIA Blackwell Ultra GPU server rack for AI inference in a data center IT Technology Image

Este conteúdo foi elaborado com o auxílio de ferramentas de IA, com base em fontes confiáveis, e revisado pela nossa equipe editorial antes da publicação. Não substitui o aconselhamento de um profissional especializado.

NVIDIA Quebra Recordes no MLPerf Blackwell Ultra, Ganho de 2,7x em Software e o Futuro da IA Interativa

O Novo Rei dos Benchmarks: MLPerf Inference v6.0

Otimização de Software: O Segredo do Ganho de 2,7x

Escalabilidade: Milhões de Tokens por Segundo

Limitações e Cuidados

O que Vem por Aí: MLPerf Endpoints

Leitura Recomendada

Compartilhar

Esta postagem foi útil?
Isso ajuda muito o autor!

Assinar

Feed RSS / Atom

Alertas em Tempo Real

Comentarios 0

O Novo Rei dos Benchmarks: MLPerf Inference v6.0

Otimização de Software: O Segredo do Ganho de 2,7x

Escalabilidade: Milhões de Tokens por Segundo

Limitações e Cuidados

O que Vem por Aí: MLPerf Endpoints

Leitura Recomendada

Compartilhar

Esta postagem foi útil?Isso ajuda muito o autor!

Assinar

Feed RSS / Atom

Alertas em Tempo Real

Comentarios 0

Esta postagem foi útil?
Isso ajuda muito o autor!