멀티모달 AI의 새로운 기준, Nemotron 3 Nano Omni
2025년 4월, NVIDIA는 Nemotron 3 Nano Omni를 공개했습니다. 이 모델은 기존의 비전-언어 모델(VLM)을 넘어, 텍스트·이미지·오디오·비디오를 동시에 이해하고 추론할 수 있는 옴니모달(omni-modal) 모델입니다.
특히 주목할 점은 오픈소스로 공개되었다는 것. BF16, FP8, NVFP4 체크포인트를 허깅페이스에서 바로 다운로드할 수 있고, 학습 코드와 데이터 파이프라인까지 함께 공개되어 연구자와 엔지니어 모두 자유롭게 활용할 수 있습니다. (근거자료: NVIDIA 공식 블로그)
이 모델의 핵심 타겟은 다섯 가지 워크로드입니다:
- 실제 문서 분석 – 100페이지가 넘는 계약서, 기술 보고서, 규정 문서 등 레이아웃과 표, 그림을 함께 이해
- 자동 음성 인식(ASR) – 다양한 화자, 억양, 배경 소음에서 고품질 전사
- 장기 오디오-비디오 이해 – 스크린 캡처+내레이션, 회의 영상, 튜토리얼 등 음성과 영상의 조합 추론
- 에이전트 컴퓨터 사용(Agentic Computer Use) – GUI 화면을 보고 클릭, 스크롤 등 작업 자동화
- 일반 멀티모달 추론 – 여러 양식의 정보를 종합해 다단계 추론 수행
국내 환경에서도 이 모델은 유용합니다. 예를 들어, 금융권의 100페이지 분량 사업보고서에서 핵심 지표를 자동 추출하거나, 회의 영상에서 발표자 슬라이드와 음성을 동시에 분석해 요약문을 만드는 식의 활용이 가능합니다. SI 프로젝트에서 문서 처리 자동화를 고민 중이라면 주목할 만합니다.

아키텍처와 주요 기술 혁신
Nemotron 3 Nano Omni는 통합 인코더-프로젝터-디코더 구조를 채택했습니다.
핵심 구성 요소
| 구성 요소 | 상세 |
|---|---|
| 언어 백본 | Nemotron 3 Nano 30B-A3B (하이브리드 Mamba-Transformer-MoE) |
| 비전 인코더 | C-RADIOv4-H |
| 오디오 인코더 | Parakeet-TDT-0.6B-v2 |
| 프로젝터 | 각 인코더당 2-layer MLP (경량) |
주요 기술적 특징
-
하이브리드 Mamba-Transformer-MoE 백본
- 23개의 Mamba 상태공간 레이어: 긴 컨텍스트 효율적 처리
- 23개의 MoE 레이어: 128개 전문가, top-6 라우팅, 공유 전문가 포함
- 6개의 Grouped-Query Attention 레이어: 글로벌 상호작용 보존
- 이 설계 덕분에 긴 멀티모달 컨텍스트에서도 추론 성능 유지
-
동적 해상도 처리
- 기존 타일링 전략 대신 네이티브 종횡비 기반 동적 해상도 사용
- 이미지당 최소 1,024개에서 최대 13,312개의 시각 패치 할당
- 정사각형 기준 512×512 ~ 1840×1840 해상도 대응
- OCR 문서, 금융 테이블, GUI 스크린샷 등 고해상도 입력에 필수적
-
Conv3D 시공간 압축
- 연속된 두 프레임을 **튜블릿(tubelet)**으로 융합
- 비전 토큰 수를 절반으로 줄여 메모리 효율 향상
- 같은 토큰 예산으로 2배 더 많은 프레임 처리 가능
-
EVS(Efficient Video Sampling)
- 추론 시 중복 비디오 토큰을 제거하는 기능
- 첫 프레임은 보존, 이후 프레임은 변화가 있는 '동적' 토큰만 유지
- Conv3D와 결합해 우수한 압축률 달성
-
네이티브 오디오 입력
- 텍스트 전사 없이 오디오를 직접 처리
- 16kHz 샘플링, 최대 1,200초(20분) 입력 지원
- LLM 컨텍스트 길이로는 5시간 이상 처리 가능
-
강화학습 기반 정렬
- 텍스트 RL: 도구 호출, 코드 작성, 다단계 계획 등 검증 가능한 환경에서 학습
- 옴니 RL: 이미지, 비디오, 오디오, 텍스트를 통합한 멀티모달 RL
- 무응답 훈련(unanswerable case): 증거가 부족하면 추측 대신 '답변 불가'를 출력하도록 학습
이러한 구조는 한국 개발자에게 특히 유용합니다. 예를 들어, 대용량 PDF에서 표와 그래프를 함께 이해해야 하는 문서 처리 파이프라인을 구축할 때, 동적 해상도와 긴 컨텍스트 처리 능력이 큰 강점이 됩니다. 다만, 30B 파라미터 모델이므로 **로컬 GPU 메모리(최소 24GB VRAM 권장)**를 고려해야 합니다.

벤치마크 성능: Qwen3-Omni와의 비교 분석
Nemotron 3 Nano Omni는 동급 오픈소스 옴니 모델인 Qwen3-Omni 30B-A3B와 직접 비교 가능한 벤치마크 결과를 공개했습니다.
| 태스크 | 벤치마크 | Nemotron 3 Nano Omni | Qwen3-Omni 30B-A3B |
|---|---|---|---|
| 문서 이해 | OCRBenchV2-En | 65.8 | - |
| MMLongBench-Doc | 57.5 | 49.5 | |
| CharXiv 추론 | 63.6 | 61.1 | |
| GUI | ScreenSpot-Pro | 57.8 | 59.7 |
| OSWorld | 47.4 | 29.0 | |
| 비디오 이해 | Video-MME | 72.2 | 70.5 |
| 비디오+오디오 | WorldSense | 55.4 | 54.0 |
| DailyOmni | 74.1 | 73.6 | |
| 음성 상호작용 | VoiceBench | 89.4 | 88.8 |
| ASR | HF Open ASR (↓) | 5.95 | 6.55 |
핵심 인사이트
- 문서 이해 분야에서 압도적: MMLongBench-Doc에서 8점 차이, CharXiv에서도 우위. 긴 문서 추론 능력이 탁월합니다.
- GUI 에이전트 성능: OSWorld에서 47.4 vs 29.0으로 큰 차이를 보이며, 실제 컴퓨터 사용 에이전트로서의 가능성을 입증했습니다.
- 효율성: 멀티 문서 처리 시 7.4배, 비디오 처리 시 9.2배 높은 시스템 처리량을 기록했습니다.
주의사항
- ScreenSpot-Pro에서는 Qwen3-Omni에 소폭 밀립니다. GUI 요소의 정확한 위치 파악은 아직 개선 여지가 있습니다.
- 모델 크기가 30B로, 경량 모델(7B급)에 비해 추론 비용이 높습니다. NVFP4 양자화 버전을 활용하면 메모리 사용량을 줄일 수 있습니다.
- 한국어 지원 여부는 아직 공식 문서에 명시되지 않았습니다. 실제 적용 시 한국어 문서/음성에 대한 추가 파인튜닝이 필요할 수 있습니다.

실무 적용 예시와 마무리
Nemotron 3 Nano Omni는 단순한 모델 출시를 넘어, 실제 업무에 바로 적용 가능한 수준의 성능을 보여줍니다.
대표적인 활용 예시
1. 장기 문서 분석 (100페이지 이상)
- 금융 보고서에서 수치를 추출하고 계산하는 작업을 단일 프롬프트로 처리
- 예: "100페이지 분량의 연례 보고서에서 R&D 비용과 매출을 추출하고, R&D 비용 비율을 계산해줘"
2. 비디오 + 오디오 동시 분석
- 튜토리얼 영상에서 특정 시점의 화면과 내레이션을 동시에 이해
- 예: "발표자가 '멀티태스크 학습'에 대해 설명할 때 화면에 어떤 슬라이드가 나오는지 알려줘"
3. GUI 에이전트
- 웹 브라우저에서 특정 정보를 찾기 위해 클릭, 스크롤, 입력을 자동 수행
- 예: "버지니아 DMV 웹사이트에서 운전면허 자격 요건을 찾아줘" (실제 데모에서 검증됨)
함께 보면 좋은 글
다음 단계 학습 방향
- 허깅페이스 모델 다운로드: BF16, FP8, NVFP4 체크포인트를 직접 다운로드해 테스트해보세요.
- Megatron-Bridge 예제 실행: NVIDIA NeMo 깃허브에서 제공하는 추론 예제를 따라해보세요.
- 파인튜닝 고려: 한국어 문서/음성 데이터로 LoRA 파인튜닝을 시도해보세요. 공개된 학습 코드와 데이터 파이프라인이 큰 도움이 됩니다.
- 비용 최적화: NVFP4 양자화 버전을 사용하면 메모리 사용량을 4분의 1로 줄일 수 있어, 실무 도입 장벽이 낮아집니다.
Nemotron 3 Nano Omni는 멀티모달 AI의 대중화를 이끌 중요한 이정표입니다. 특히 문서 처리와 GUI 자동화 분야에서 실무 적용 가능성이 높으니, 관심 있으신 분들은 지금 바로 체크포인트를 내려받아 실험해보시길 추천드립니다 😊