들어가며: 쿠버네티스, 이제는 AI 인프라의 표준이 되다

쿠버네티스가 단순한 컨테이너 오케스트레이터를 넘어 AI/ML 워크로드의 사실상 표준 플랫폼으로 진화하고 있습니다. 마이크로소프트는 KubeCon + CloudNativeCon Europe 2026에서 이러한 흐름을 가속화하는 여러 업데이트를 발표했습니다.

특히 눈여겨볼 점은 단순히 'GPU 지원 추가' 수준이 아니라, 운영 성숙도(Operational Maturity) 라는 개념을 AI 인프라에 접목하려는 시도입니다. 쿠버네티스가 컨테이너 운영의 표준 패턴을 정립했듯이, 이제는 GPU 기반 AI 워크로드에도 동일한 수준의 안정성과 재현성을 부여하려는 움직임이죠.

이번 글에서는 다음 4가지 핵심 영역으로 나누어 변화를 분석합니다.

참고: 이 글은 마이크로소프트 오픈소스 블로그의 공식 발표를 기반으로 작성되었습니다.


1. GPU 워크로드를 위한 쿠버네티스: DRA와 스케줄링 혁신

Dynamic Resource Allocation (DRA) GA 달성

GPU 같은 특수 하드웨어를 쿠버네티스에서 '일반 리소스'처럼 다루는 것이 가능해졌습니다. DRA(Dynamic Resource Allocation)가 GA(General Availability)에 도달하면서, 이제는 GPU 메모리, 네트워크 대역폭까지도 파드 스케줄링 시점에 동적으로 할당할 수 있습니다.

# DRA를 사용한 GPU 요청 예시 (Kubernetes 1.36+)
apiVersion: v1
kind: Pod
metadata:
  name: gpu-inference-pod
spec:
  containers:
  - name: inference
    image: my-inference-model:latest
    resources:
      claims:
      - name: gpu-mem-16gb
  resourceClaims:
  - name: gpu-mem-16gb
    source:
      resourceClaimTemplateName: nvidia-gpu-16gb

Workload Aware Scheduling

Kubernetes 1.36에 도입된 Workload Aware Scheduling은 DRA 지원을 KubeRay와 통합하여, Ray 클러스터에서도 GPU 리소스를 지능적으로 할당받을 수 있게 합니다. 특히 훈련(Training)과 추론(Inference) 워크로드가 혼재된 환경에서 리소스 경합을 최소화하는 데 효과적입니다.

DRANet: GPU-NIC 토폴로지 인식 네트워크

DRANet은 GPU와 네트워크 인터페이스 카드(NIC) 간의 물리적 연결 토폴로지를 고려하여 네트워크 리소스를 할당합니다. Azure RDMA NIC와의 호환성을 확보하여, 분산 훈련 성능에 직접적인 영향을 주는 GPU-to-NIC 정렬 문제를 해결했습니다.


2. AI 워크로드 운영을 위한 새로운 오픈소스 프로젝트

AI Runway: 쿠버네티스 몰라도 AI 모델 배포 가능

AI Runway는 추론(Inference) 워크로드를 위한 공통 Kubernetes API를 제공하는 신규 오픈소스 프로젝트입니다. 플랫폼 팀은 중앙에서 모델 배포를 관리하고, 개발자는 Kubernetes 지식 없이도 웹 UI를 통해 모델을 배포할 수 있습니다.

주요 기능:

  • HuggingFace 모델 자동 탐색
  • GPU 메모리 적합성 표시 (Fit Indicator)
  • 실시간 비용 추정
  • NVIDIA Dynamo, KubeRay, llm-d, KAITO 등 다양한 런타임 지원

HolmesGPT: 에이전틱 트러블슈팅

HolmesGPT가 CNCF Sandbox 프로젝트로 승인되었습니다. 자연어로 문제를 설명하면 에이전트가 쿠버네티스 클러스터를 진단하고 해결 방안을 제시합니다. 운영자의 인지 부하를 줄이는 데 초점을 맞췄습니다.

Dalec: 보안에 강한 컨테이너 이미지 빌드

Dalec은 선언적 스펙을 통해 시스템 패키지를 빌드하고 최소한의 컨테이너 이미지를 생성합니다. SBOM 생성과 빌드 시점 증명(Provenance Attestation)을 지원하여, AI 워크로드의 공급망 보안(Supply Chain Security)을 강화합니다.


3. AKS 네트워킹 & 보안: IP 중심에서 아이덴티티 중심으로

Azure Kubernetes Application Network

기존의 IP 기반 네트워크 보안은 분산 환경에서 취약점이 많았습니다. 새로운 Application Network는 mTLS, 애플리케이션 인식 권한 부여, 상세 트래픽 텔레메트리를 제공합니다. 사이드카 없이도 서비스 메시 수준의 보안을 구현할 수 있습니다.

Cilium mTLS + WireGuard

Cilium에 대한 대규모 기여를 통해 사이드카리스 mTLS(ztunnel)가 가능해졌습니다. 노드 간 트래픽은 WireGuard로 암호화하고, 파드 간 통신은 X.509 인증서 + SPIRE 기반 mTLS로 보호합니다.

기능기존 방식AKS 업데이트 후
트래픽 암호화Istio 사이드카 필요Cilium mTLS (사이드카리스)
네트워크 정책IP 기반 (관리 어려움)애플리케이션 아이덴티티 기반
멀티클러스터 연결커스텀 파이프라인Managed Cilium Cluster Mesh
GPU 텔레메트리수동 Exporter 설정Managed Prometheus/Grafana 통합

Pod CIDR 확장 & HTTP 프록시 제어

Pod CIDR 확장을 통해 클러스터 재구축 없이 IP 범위를 늘릴 수 있습니다. 또한 HTTP 프록시 환경 변수를 노드/파드 레벨에서 비활성화할 수 있어, 보안 정책 준수가 훨씬 유연해졌습니다.


4. 운영 효율성: 블루-그린 업그레이드와 멀티클러스터

Blue-Green Agent Pool 업그레이드

기존에는 노드 풀 업그레이드가 'in-place' 방식이라 롤백이 어려웠습니다. 이제는 블루-그린 전략으로 새 구성의 에이전트 풀을 먼저 생성하고, 트래픽을 전환한 후 문제가 있으면 즉시 롤백할 수 있습니다.

# Blue-Green 업그레이드 CLI 예시
az aks nodepool upgrade \
  --resource-group myRG \
  --cluster-name myAKS \
  --name gpupool \
  --kubernetes-version 1.36 \
  --max-surge 100%  # 새 풀을 기존 풀 크기만큼 먼저 생성

AKS Desktop: 로컬 개발 환경의 혁신

AKS Desktop이 GA가 되면서, 개발자는 로컬 PC에서 프로덕션과 동일한 AKS 환경을 실행할 수 있습니다. Minikube나 Kind와 달리, 실제 AKS 구성과 완전히 동일한 설정을 사용하므로 '로컬에서는 되는데 프로덕션에서는 안 되는' 문제를 원천 차단합니다.

Elastic SAN: 상태 저장 워크로드의 스토리지 단순화

여러 클러스터가 하나의 Elastic SAN 풀을 공유하여 스토리지를 소비합니다. 각 워크로드별로 디스크를 프로비저닝할 필요가 없어, 용량 계획과 운영 오버헤드가 대폭 감소합니다.


국내 클라우드 환경에서의 적용 맥락

국내 기업들이 AKS를 도입할 때 몇 가지 고려할 점이 있습니다.

  1. GPU 할당량 문제: 한국 리전의 GPU 인스턴스 할당량은 여전히 제한적입니다. DRA 도입으로 GPU 사용 효율은 높아지겠지만, 사전에 할당량 증가 요청이 필요할 수 있습니다.
  2. 멀티클러스터 운영: 국내 SI/PI 환경에서는 여러 고객사별로 클러스터를 분리 운영하는 경우가 많습니다. Fleet Manager의 Cilium Cluster Mesh는 이러한 멀티테넌트 환경에서 서비스 디스커버리를 통합하는 데 유용합니다.
  3. 네트워크 보안 규제: 금융권 등에서는 mTLS와 같은 애플리케이션 레벨 암호화가 필수입니다. Cilium mTLS의 사이드카리스 접근법은 기존 서비스 메시 도입이 부담스러웠던 조직에 좋은 대안이 될 수 있습니다.

이 기술의 한계 또는 주의사항

  • DRA는 아직 생태계가 성숙 중: 일부 GPU 벤더의 드라이버가 DRA를 완전히 지원하지 않을 수 있습니다. 도입 전에 호환성 체크가 필요합니다.
  • Cilium Cluster Mesh의 네트워크 지연: 멀티 리전 간 클러스터 메시는 네트워크 레이턴시가 발생할 수 있습니다. 지연에 민감한 실시간 추론 워크로드는 단일 리전 배포를 고려해야 합니다.
  • AI Runway의 초기 단계: 신규 오픈소스 프로젝트이므로, 프로덕션 적용 전 충분한 테스트와 커뮤니티 피드백 확인이 필요합니다.

다음 단계 학습 방향

  1. DRA 실습: Kubernetes 1.36 이상 클러스터에서 DRA를 설정하고 GPU 파드를 스케줄링해보세요.
  2. Cilium mTLS 구성: AKS에서 Cilium을 데이터플레인으로 사용하고 mTLS를 활성화하는 방법을 학습하세요.
  3. AI Runway 기여: 오픈소스 프로젝트에 참여하여 추론 워크로드 운영 경험을 쌓아보세요.

함께 보면 좋은 글


KubeCon EU 2026에서 발표된 이번 업데이트는 쿠버네티스가 AI 인프라의 표준으로 자리잡는 중요한 전환점을 보여줍니다. 특히 GPU 스케줄링, 네트워크 보안, 운영 자동화 세 영역에서의 변화는 실무에 바로 적용할 수 있는 실용적인 개선입니다. 지금부터 하나씩 테스트해보고, 다음 프로젝트에 적용해보시길 추천드립니다 😊

Microsoft Azure Kubernetes Service dashboard showing multi-cluster management and AI workload deployment System Abstract Visual

본 콘텐츠는 신뢰할 수 있는 출처를 바탕으로 AI 도구를 활용하여 초안이 작성되었으며, 편집자의 검토를 거쳐 발행되었습니다. 전문가의 조언을 대체하지 않습니다.