NVIDIA, MLPerf Inference v6.0에서 또 한 번 독주하다

AI 추론 성능의 국제 표준 벤치마크인 MLPerf Inference v6.0 결과가 공개됐습니다. 이번 라운드에서 NVIDIA는 Blackwell Ultra GPU를 앞세워 총 291회의 누적 우승을 기록하며, 다른 모든 제출처를 합친 것보다 9배 많은 성과를 냈습니다. 단순한 칩 스펙 비교를 넘어, 실제 AI 팩토리의 수익과 직결되는 토큰당 비용(Token Cost) 최적화에 초점을 맞춘 결과라는 점에서 주목할 만합니다.

이번 v6.0에서는 DeepSeek-R1 Interactive, Qwen3-VL(비전-언어 모델), WAN-2.2(텍스트-비디오), DLRMv3(추천 시스템) 등 새로운 벤치마크가 추가됐습니다. NVIDIA는 새로 추가된 모든 모델과 시나리오에서 유일하게 결과를 제출했고, 전 분야에서 최고 성능을 달성했습니다.

근거자료: NVIDIA MLPerf Inference v6.0 블로그

NVIDIA Blackwell Ultra GPU server rack for AI inference in data center Coding Session Visual

핵심 성능: Blackwell Ultra GPU의 압도적 토큰 처리량

이번 벤치마크에서 가장 눈에 띄는 점은 GB300 NVL72(Blackwell Ultra 기반) 시스템의 성능 향상입니다. 특히 DeepSeek-R1 모델에서 서버 시나리오 기준, 단 6개월 만에 2.77배의 성능 향상을 이뤘습니다.

| 벤치마크 | GB300 NVL72 v5.1 | GB300 NVL72 v6.0 | 성능 향상 ||---|---|---|---|| DeepSeek-R1 (서버) | 2,907 tokens/sec/gpu | 8,064 tokens/sec/gpu | 2.77x || DeepSeek-R1 (오프라인) | 5,842 tokens/sec/gpu | 9,821 tokens/sec/gpu | 1.68x || Llama 3.1 405B (서버) | 170 tokens/sec/gpu | 259 tokens/sec/gpu | 1.52x || Llama 3.1 405B (오프라인) | 224 tokens/sec/gpu | 271 tokens/sec/gpu | 1.21x |이러한 성능 향상은 TensorRT-LLM 소프트웨어 스택의 최적화 덕분입니다. 주요 개선점은 다음과 같습니다.

  • 고성능 커널 & 커널 퓨전: 더 적은 수의 고성능 커널로 연산을 통합
  • 최적화된 어텐션 데이터 병렬 처리: 컨텍스트 요청을 Rank 간에 더 효율적으로 분배
  • Disaggregated Serving (NVIDIA Dynamo): 프리필(Prefill)과 디코드(Decode) 단계를 분리해 각각 최적화
  • Wide Expert Parallel (WideEP): MoE 모델의 전문가 가중치 로딩 병목을 다중 GPU에 분산
  • Multi-Token Prediction (MTP): 유휴 컴퓨팅 자원을 활용해 최대 3개의 추가 토큰을 병렬 예측

이러한 소프트웨어 최적화는 동일한 하드웨어에서도 토큰당 생산 비용을 60% 이상 절감할 수 있음을 보여줍니다. AI 팩토리 운영자 입장에서는 같은 전력과 인프라로 더 많은 사용자에게 서비스를 제공할 수 있다는 뜻이죠.

MLPerf Inference benchmark chart showing token throughput for DeepSeek-R1 and Llama models Technical Structure Concept

스케일 아웃: Quantum-X800 InfiniBand로 초당 수백만 토큰 처리

NVIDIA는 이번 라운드에서 4x GB300 NVL72 시스템을 Quantum-X800 InfiniBand 네트워크로 연결한 구성을 처음으로 제출했습니다. 288개의 Blackwell Ultra GPU를 활용한 이 구성은 MLPerf Inference 역사상 가장 큰 규모의 단일 벤치마크 제출입니다.

| DeepSeek-R1 | 4x GB300 NVL72 | 토큰/초 ||---|---|---|| 오프라인 | 2,494,310 || 서버 | 1,555,110 |이 결과는 단일 GPU 성능뿐 아니라, 네트워크를 통한 확장성이 AI 추론의 새로운 패러다임임을 시사합니다. 특히 대규모 MoE(Mixture-of-Experts) 모델의 경우, 전문가 가중치를 여러 노드에 분산 배치함으로써 메모리 병목을 해결하고 처리량을 극대화할 수 있습니다.

한국 개발 생태계에서의 적용 맥락

국내 클라우드 네이티브 환경에서도 이와 유사한 접근이 가능합니다. 예를 들어, Kubernetes 기반의 GPU 클러스터에서 NVIDIA Dynamo의 Disaggregated Serving을 활용하면, 프리필 노드와 디코드 노드를 분리해 오토스케일링할 수 있습니다. 다만 국내 SI/클라우드 환경에서는 네트워크 대역폭GPU 간 통신 지연(Latency) 이 병목이 될 수 있으므로, InfiniBand나 RoCE( RDMA over Converged Ethernet) 같은 고성능 네트워크 도입을 고려해야 합니다.

이 기술의 한계 또는 주의사항

  • 비용 문제: Blackwell Ultra GPU와 Quantum-X800 인프라는 초기 도입 비용이 매우 높습니다. 국내 중소 규모 AI 기업에게는 부담스러울 수 있습니다.
  • 소프트웨어 종속성: TensorRT-LLM과 Dynamo는 NVIDIA 생태계에 최적화되어 있어, AMD나 Intel GPU로의 이전이 어렵습니다.
  • 벤치마크 vs 실무: MLPerf 결과는 특정 조건에서 측정된 최적값입니다. 실제 서비스 환경에서는 모델 구조, 배치 사이즈, 컨텍스트 길이 등에 따라 성능이 크게 달라질 수 있습니다.

함께 보면 좋은 글:

NVIDIA Quantum-X800 InfiniBand network switch connecting multiple GPU nodes for scale-out inference System Abstract Visual

결론: AI 추론의 미래, '엔드포인트'로 가는 길

MLPerf Inference v6.0은 단순한 성능 경쟁을 넘어, AI 추론의 방향성을 제시합니다. NVIDIA는 칩 레벨의 성능뿐 아니라, 소프트웨어 스택의 지속적 최적화스케일 아웃 네트워크를 통해 AI 팩토리의 총소유비용(TCO)을 낮추는 데 집중하고 있습니다.

또한 NVIDIA는 MLCommons와 함께 MLPerf Endpoints라는 새로운 벤치마크를 준비 중입니다. 이는 실제 API 트래픽 상황에서 배포된 서비스의 성능을 측정하는 것으로, 칩 레벨 벤치마크가 놓칠 수 있는 실제 운영 환경의 성능을 반영할 예정입니다.

다음 단계 학습 방향

  1. TensorRT-LLM 직접 사용해보기: NVIDIA의 오픈소스 추론 서빙 프레임워크를 직접 설치하고, 자신의 모델을 최적화해보세요.
  2. NVIDIA Dynamo 아키텍처 이해: Disaggregated Serving과 KV-aware Routing의 개념을 깊이 이해하면, 대규모 추론 시스템 설계에 큰 도움이 됩니다.
  3. MLPerf 벤치마크 직접 실행: MLCommons의 공식 가이드를 따라 자신의 GPU 환경에서 벤치마크를 실행해보면, 성능 측정의 미세한 차이를 체감할 수 있습니다.

AI 추론은 더 이상 단순한 모델 실행이 아닌, 전체 시스템 최적화의 영역으로 진화하고 있습니다. 이번 MLPerf 결과는 그 변화의 속도와 방향을 명확히 보여줍니다.

본 콘텐츠는 신뢰할 수 있는 출처를 바탕으로 AI 도구를 활용하여 초안이 작성되었으며, 편집자의 검토를 거쳐 발행되었습니다. 전문가의 조언을 대체하지 않습니다.