NVIDIA、MLPerf Inference v6.0でまたも圧勝

AI推論性能の国際標準ベンチマーク MLPerf Inference v6.0 の結果が公開されました。今回のラウンドでNVIDIAはBlackwell Ultra GPUを擁し、累計291回の優勝を達成。これは他の全サブミッターを合計した数の9倍に相当します。単なるチップスペックの比較を超え、実際のAIファクトリーの収益に直結する トークンあたりのコスト(Token Cost) 最適化に焦点を当てた結果である点が注目に値します。

今回のv6.0では DeepSeek-R1 InteractiveQwen3-VL(ビジョン言語モデル)、WAN-2.2(テキスト→動画生成)、DLRMv3(レコメンデーションシステム)といった新しいベンチマークが追加されました。NVIDIAは新しく追加されたすべてのモデルとシナリオにおいて唯一結果を提出し、全分野で最高性能を達成しました。

根拠資料: NVIDIA MLPerf Inference v6.0 ブログ

NVIDIA Blackwell Ultra GPU server rack for AI inference in data center Technical Structure Concept

核心性能:Blackwell Ultra GPUの圧倒的トークン処理量

今回のベンチマークで最も目を引くのは、GB300 NVL72(Blackwell Ultraベース)システムの性能向上です。特にDeepSeek-R1モデルのサーバーシナリオにおいて、わずか6ヶ月で 2.77倍 の性能向上を達成しました。

| ベンチマーク | GB300 NVL72 v5.1 | GB300 NVL72 v6.0 | 性能向上率 ||---|---|---|---|| DeepSeek-R1(サーバー) | 2,907 tokens/sec/gpu | 8,064 tokens/sec/gpu | 2.77x || DeepSeek-R1(オフライン) | 5,842 tokens/sec/gpu | 9,821 tokens/sec/gpu | 1.68x || Llama 3.1 405B(サーバー) | 170 tokens/sec/gpu | 259 tokens/sec/gpu | 1.52x || Llama 3.1 405B(オフライン) | 224 tokens/sec/gpu | 271 tokens/sec/gpu | 1.21x |この性能向上は TensorRT-LLM ソフトウェアスタックの最適化によるものです。主な改善点は以下の通りです。

  • 高性能カーネル&カーネルフュージョン: より少ない数の高性能カーネルで演算を統合
  • 最適化されたアテンションデータ並列処理: コンテキストリクエストをRank間でより効率的に分散
  • Disaggregated Serving(NVIDIA Dynamo): プリフィルとデコードのフェーズを分離し、それぞれ最適化
  • Wide Expert Parallel(WideEP): MoEモデルのエキスパート重み読み込みボトルネックを複数GPUに分散
  • Multi-Token Prediction(MTP): アイドル状態のコンピューティングリソースを活用し、最大3つの追加トークンを並列予測

これらのソフトウェア最適化により、同一ハードウェアでもトークンあたりの生産コストを 60%以上削減 できることが示されました。AIファクトリー運営者にとっては、同じ電力とインフラでより多くのユーザーにサービスを提供できることを意味します。

MLPerf Inference benchmark chart showing token throughput for DeepSeek-R1 and Llama models Algorithm Concept Visual

スケールアウト:Quantum-X800 InfiniBandで毎秒数百万トークン処理

NVIDIAは今回のラウンドで 4x GB300 NVL72 システムを Quantum-X800 InfiniBand ネットワークで接続した構成を初めて提出しました。288基のBlackwell Ultra GPUを活用したこの構成は、MLPerf Inference史上最大規模の単一ベンチマーク提出です。

| DeepSeek-R1 | 4x GB300 NVL72 | トークン/秒 ||---|---|---|| オフライン | 2,494,310 || サーバー | 1,555,110 |この結果は、単一GPU性能だけでなく、ネットワークによるスケーラビリティがAI推論の新しいパラダイムであることを示しています。特に大規模MoEモデルの場合、エキスパート重みを複数ノードに分散配置することでメモリボトルネックを解消し、スループットを最大化できます。

日本開発エコシステムでの適用コンテキスト

国内のクラウドネイティブ環境でも、これと同様のアプローチが可能です。例えば、KubernetesベースのGPUクラスターでNVIDIA DynamoのDisaggregated Servingを活用すれば、プリフィルノードとデコードノードを分離してオートスケーリングできます。ただし、日本のデータセンター環境では ネットワーク帯域幅GPU間通信レイテンシ がボトルネックになり得るため、InfiniBandやRoCE(RDMA over Converged Ethernet)のような高性能ネットワークの導入を検討する必要があります。

本技術の限界または注意点

  • コスト問題: Blackwell Ultra GPUとQuantum-X800インフラは初期導入コストが非常に高い。国内の中小規模AI企業には負担が大きい可能性があります。
  • ソフトウェア依存性: TensorRT-LLMとDynamoはNVIDIAエコシステムに最適化されており、AMDやIntel GPUへの移行が困難です。
  • ベンチマークと実務の乖離: MLPerfの結果は特定条件下で測定された最適値です。実際のサービス環境では、モデル構造、バッチサイズ、コンテキスト長などによって性能が大きく変わる可能性があります。

合わせて読みたい記事:

NVIDIA Quantum-X800 InfiniBand network switch connecting multiple GPU nodes for scale-out inference Software Concept Art

まとめ:AI推論の未来、'エンドポイント'への道

MLPerf Inference v6.0は単なる性能競争を超え、AI推論の方向性を示しています。NVIDIAはチップレベルの性能だけでなく、ソフトウェアスタックの継続的最適化スケールアウトネットワークを通じて、AIファクトリーの総所有コスト(TCO)を下げることに注力しています。

またNVIDIAはMLCommonsとともに MLPerf Endpoints という新しいベンチマークを準備中です。これは実際のAPIトラフィック状況下でデプロイされたサービスの性能を測定するもので、チップレベルのベンチマークでは捉えきれない 実運用環境での性能 を反映する予定です。

次のステップとしての学習方向

  1. TensorRT-LLMを実際に使ってみる: NVIDIAのオープンソース推論サービングフレームワークを実際にインストールし、自身のモデルを最適化してみてください。
  2. NVIDIA Dynamoアーキテクチャの理解: Disaggregated ServingとKV-aware Routingの概念を深く理解すると、大規模推論システム設計に大いに役立ちます。
  3. MLPerfベンチマークを自分で実行: MLCommonsの公式ガイドに従って自身のGPU環境でベンチマークを実行すれば、性能測定の微細な違いを体感できます。

AI推論はもはや単なるモデル実行ではなく、システム全体最適化の領域へと進化しています。今回のMLPerf結果は、その変化の速度と方向性を明確に示しています。

本コンテンツは、信頼性の高い情報源をもとにAIツールを活用して作成され、編集者によるレビューを経て公開されています。専門家によるアドバイスの代替となるものではありません。