El Nuevo Rey de los Benchmarks: MLPerf Inference v6.0

NVIDIA acaba de publicar sus resultados más recientes de MLPerf Inference, y los números son impresionantes. Con 291 victorias acumuladas desde 2018 — 9x más que todos los demás participantes combinados — NVIDIA está demostrando su dominio full-stack. Pero esto no es solo sobre hardware bruto. La verdadera historia es cómo el co-diseño de hardware, software y modelos está reduciendo el costo de los tokens y desbloqueando nuevos casos de uso de IA.

MLPerf Inference v6.0 introdujo cinco nuevos benchmarks más exigentes:

  • DeepSeek-R1 Interactivo: Escenario de alta interactividad con tasa mínima de tokens 5x más rápida
  • Qwen3-VL-235B-A22B: Primer modelo multimodal del conjunto (visión-lenguaje)
  • GPT-OSS-120B: LLM de razonamiento MoE de 120B parámetros de OpenAI
  • WAN-2.2-T2V-A14B: Generación de texto a video
  • DLRMv3: Benchmark de recomendación generativa basado en transformer

NVIDIA fue la única plataforma en enviar resultados en todos los modelos y escenarios nuevos, y lideró en todos. Checa el análisis completo en el post oficial del blog de NVIDIA.

Optimización de Software: El Secreto del 2.7x

Aquí es donde se pone interesante para los desarrolladores. El mismo hardware NVIDIA GB300 NVL72 lanzado el año pasado ahora entrega 2.7x más throughput de tokens en el escenario server de DeepSeek-R1 comparado con solo seis meses atrás. Eso es una reducción de más del 60% en el costo por token — solo con software.

Esto es posible gracias a los frameworks open-source TensorRT-LLM y NVIDIA Dynamo. Las optimizaciones clave incluyen:

  • Kernels fusionados más rápidos: Menos llamadas a kernel, más eficientes
  • Parallel de Atención Optimizado: Mejor balanceo de carga entre GPUs
  • Servicio desagregado: Separación de las fases de prefill y decode para throughput óptimo
  • Wide Expert Parallel (WideEP): Distribución de expertos MoE entre múltiples GPUs
  • Multi-Token Prediction (MTP): Uso de cómputo ocioso para predecir y verificar hasta 3 tokens en paralelo
  • Enrutamiento consciente de KV: Dynamo enruta peticiones evaluando costos computacionales entre workers
# Ejemplo: Código conceptual para enrutamiento consciente de KV (simplificado)
# En la práctica, Dynamo maneja esto de forma transparente

def enrutar_peticion(peticion, workers):
    """Enruta petición de inferencia al worker menos cargado"""
    costos_worker = []
    for worker in workers:
        costo = estimar_costo_computacional(peticion, worker.utilizacion_cache_kv)
        costos_worker.append((costo, worker))
    # Elige el worker con menor costo estimado
    mejor_worker = min(costos_worker, key=lambda x: x[0])[1]
    return mejor_worker.inferir(peticion)

Escalabilidad: Millones de Tokens por Segundo

NVIDIA no se detuvo en el rendimiento de un solo nodo. Conectando cuatro sistemas GB300 NVL72 (288 GPUs Blackwell Ultra) con InfiniBand Quantum-X800, lograron:

  • 2,494,310 tokens/segundo (Offline)
  • 1,555,110 tokens/segundo (Server)

Esta es la escala más grande jamás enviada en cualquier benchmark de MLPerf Inference. Para las fábricas de IA, esto significa servir a más usuarios, generar más ingresos y reducir costos de token a escala.

Limitaciones y Precauciones

Aunque estos resultados son impresionantes, hay que tener en cuenta:

  • Condiciones del benchmark: Los resultados de MLPerf se obtienen en condiciones controladas. La producción real puede variar.
  • Costo del hardware: Las GPUs Blackwell Ultra y la red InfiniBand son infraestructura premium. No todos los equipos pueden justificar la inversión.
  • Complejidad del software: Lograr estas optimizaciones requiere integración profunda con TensorRT-LLM y Dynamo, que tienen una curva de aprendizaje.
  • Especificidad del modelo: La ganancia de 2.7x es específica para DeepSeek-R1. Las ganancias en otras arquitecturas pueden ser menores.

¿Qué Sigue? MLPerf Endpoints

NVIDIA ya está trabajando con MLCommons en MLPerf Endpoints, un nuevo benchmark que mide el rendimiento de servicios desplegados bajo tráfico real de API. Esto capturará métricas como latencia, throughput y costo en condiciones realistas — dando a los devs una visión más clara de la preparación para producción.

Para los ingenieros de IA, la lección es clara: la optimización de software es el nuevo hardware. Las mismas GPUs pueden entregar rendimiento drásticamente diferente con el stack correcto. Sumérgete en TensorRT-LLM y empieza a experimentar con servicio desagregado y predicción multi-token.


Lectura Recomendada

NVIDIA Blackwell Ultra GPU server rack for AI inference in a data center Programming Illustration

Este contenido fue redactado con la asistencia de herramientas de IA, basándose en fuentes confiables, y fue revisado por nuestro equipo editorial antes de su publicación. No reemplaza el asesoramiento de un profesional especializado.