マルチモーダルAIの新たな基準、Nemotron 3 Nano Omni
2025年4月、NVIDIAは Nemotron 3 Nano Omni を公開しました。このモデルは従来のVision-Language Model (VLM) の枠を超え、テキスト・画像・音声・動画を同時に理解・推論できる オムニモーダルモデル です。
特筆すべきは オープンソース で公開されている点です。BF16、FP8、NVFP4チェックポイントがHugging Faceから即座にダウンロード可能で、学習コードやデータパイプラインも併せて公開されています。研究者もエンジニアも自由に活用できます。(根拠資料: NVIDIA公式ブログ)
このモデルがターゲットとするのは以下の5つのワークロードです:
- 実世界の文書分析 – 100ページ超の契約書、テクニカルレポート、規制文書など、レイアウト・表・図を統合理解
- 自動音声認識 (ASR) – 多様な話者、アクセント、背景ノイズ下での高品質文字起こし
- 長時間音声-動画理解 – スクリーンキャプチャ+ナレーション、会議動画、チュートリアルなど、音声と映像の組み合わせ推論
- エージェント型コンピュータ操作 (Agentic Computer Use) – GUI画面を認識し、クリック・スクロールなどの操作を自動化
- 汎用マルチモーダル推論 – 複数モダリティの情報を統合した多段階推論
日本市場においても、例えば 100ページ超の有価証券報告書から重要指標を自動抽出 したり、会議動画の発表スライドと音声を同時解析して要約を生成 するといったユースケースが想定されます。ドキュメント処理の自動化を検討中のエンジニアには見逃せないモデルです。

アーキテクチャと主要技術革新
Nemotron 3 Nano Omniは 統一エンコーダ-プロジェクタ-デコーダ 構造を採用しています。
主要コンポーネント
| コンポーネント | 詳細 |
|---|---|
| 言語バックボーン | Nemotron 3 Nano 30B-A3B (ハイブリッド Mamba-Transformer-MoE) |
| ビジョンエンコーダ | C-RADIOv4-H |
| オーディオエンコーダ | Parakeet-TDT-0.6B-v2 |
| プロジェクタ | 各エンコーダに2層MLP(軽量) |
主要技術的特徴
-
ハイブリッド Mamba-Transformer-MoE バックボーン
- 23のMamba状態空間レイヤー:長いコンテキストを効率的に処理
- 23のMoEレイヤー:128エキスパート、top-6ルーティング、共有エキスパート
- 6のGrouped-Query Attentionレイヤー:グローバルな相互作用を維持
- 長いマルチモーダルコンテキストでも推論性能を保持
-
動的解像度処理
- 従来のタイル戦略から ネイティブアスペクト比ベースの動的解像度 に移行
- 画像あたり最小1,024、最大13,312のビジュアルパッチを割り当て
- 正方形換算で512×512~1840×1840の解像度に対応
- OCR文書、金融テーブル、GUIスクリーンショットなどの高解像度入力に必須
-
Conv3D時空間圧縮
- 連続する2フレームを チューブレット(tubelet) に融合
- ビジョントークン数を半減しメモリ効率を向上
- 同じトークン予算で2倍のフレーム数を処理可能
-
EVS (Efficient Video Sampling)
- 推論時に冗長な動画トークンを削除する機能
- 最初のフレームは保持、以降のフレームは変化のある「動的」トークンのみ維持
- Conv3Dと組み合わせて 優れた圧縮率 を達成
-
ネイティブ音声入力
- テキスト文字起こしを経由せず音声を直接処理
- 16kHzサンプリング、最大1,200秒(20分)の入力をサポート
- LLMコンテキスト長としては5時間以上の処理が可能
-
強化学習によるアライメント
- テキストRL:ツール呼び出し、コード生成、多段階計画などを検証可能な環境で学習
- オムニRL:画像・動画・音声・テキストを統合したマルチモーダルRL
- 無回答訓練 (unanswerable case):証拠不十分な場合は「回答不可」と出力するよう学習
Qiitaコミュニティでも議論されているように、このモデルを日本で活用する際は 日本語文書処理へのファインチューニング が鍵になります。特に日本語OCRとレイアウト解析の品質は、英語と比較してまだ課題があります。公開されている学習コードとデータパイプラインは、そのための良い出発点となるでしょう。

ベンチマーク性能:Qwen3-Omniとの比較分析
Nemotron 3 Nano Omniは、同クラスのオープンソースオムニモデル Qwen3-Omni 30B-A3B と直接比較可能なベンチマーク結果を公開しています。
| タスク | ベンチマーク | Nemotron 3 Nano Omni | Qwen3-Omni 30B-A3B |
|---|---|---|---|
| 文書理解 | OCRBenchV2-En | 65.8 | - |
| MMLongBench-Doc | 57.5 | 49.5 | |
| CharXiv推論 | 63.6 | 61.1 | |
| GUI | ScreenSpot-Pro | 57.8 | 59.7 |
| OSWorld | 47.4 | 29.0 | |
| 動画理解 | Video-MME | 72.2 | 70.5 |
| 動画+音声 | WorldSense | 55.4 | 54.0 |
| DailyOmni | 74.1 | 73.6 | |
| 音声対話 | VoiceBench | 89.4 | 88.8 |
| ASR | HF Open ASR (低いほど良) | 5.95 | 6.55 |
主要な考察
- 文書理解で圧倒的優位:MMLongBench-Docで8ポイント差、CharXivでも優位。長文書の推論能力が卓越しています。
- GUIエージェント性能:OSWorldで47.4 vs 29.0と大きな差を示し、実際のコンピュータ操作エージェントとしての可能性を実証。
- 効率性:マルチ文書処理で 7.4倍、動画処理で 9.2倍 高いシステムスループットを記録。
注意点
- ScreenSpot-ProではQwen3-Omniに僅差で劣ります。GUI要素の正確な位置特定には改善の余地があります。
- モデルサイズが30Bと大きく、軽量モデル(7B級)と比較して推論コストが高くなります。NVFP4量子化バージョンを活用することでメモリ使用量を削減できます。
- 日本語サポートは公式ドキュメントで明示されていません。実際の適用には日本語文書・音声に対する追加ファインチューニングが必要になる可能性があります。

実務適用例とまとめ
Nemotron 3 Nano Omniは単なるモデル発表に留まらず、実際の業務に即適用可能なレベルの性能 を示しています。
代表的な活用例
1. 長文書分析(100ページ以上)
- 財務レポートから数値を抽出し計算する作業を単一プロンプトで処理
- 例:「100ページの年次報告書から研究開発費と売上高を抽出し、研究開発費比率を計算してください」
2. 動画+音声の同時分析
- チュートリアル動画で特定のタイミングの画面とナレーションを同時理解
- 例:「発表者が『マルチタスク学習』について説明しているとき、画面にどのスライドが表示されているか教えてください」
3. GUIエージェント
- Webブラウザで特定情報を探すため、クリック・スクロール・入力を自動実行
- 例:「バージニアDMVのWebサイトで運転免許の資格要件を探してください」(実際のデモで検証済み)
あわせて読みたい
次のステップ
- Hugging Faceからモデルをダウンロード:BF16、FP8、NVFP4チェックポイントを取得してテストしてみましょう。
- Megatron-Bridgeのサンプルを実行:NVIDIA NeMo GitHubリポジトリの推論サンプルを試してみてください。
- ファインチューニングを検討:日本語文書・音声データでLoRAファインチューニングを試す価値があります。公開された学習コードとデータパイプラインが強力な助けとなります。
- コスト最適化:NVFP4量子化バージョンを使用するとメモリ使用量が4分の1に削減され、実務導入のハードルが下がります。
Nemotron 3 Nano Omniは マルチモーダルAIの民主化 を牽引する重要なマイルストーンです。特に文書処理とGUI自動化の分野で実務適用の可能性が高いため、興味のある方は今すぐチェックポイントをダウンロードして実験されることをお勧めします。