ServiceWatch Agent 설치하기

사용자는 GPU Server에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.

참고
ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 각 서비스로부터 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.

ServiceWatch Agent

GPU Server에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.

구분상세 설명
Prometheus Exporter특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
  • 서버의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음.
    • GPU Server에서 OS 지표 수집을 위해서 Virtual Server와 마찬가지로 Node Exporter를 사용할 수 있으며 자세한 내용은 Virtual Server > ServiceWatch Agent 참고
Open Telemetry Collector분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
  • ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함.
표. Prometheus Exporter와 Open Telemetry Collector 설명
주의

GPU Server에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.

  • Kubernetes Engine이 구성되어 있는 GPU Server에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.

GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)

GPU Server의 지표를 수집하기 위한 Prometheus Exporter를 아래의 순서에 따라 설치합니다.

NVDIA Driver 설치 확인

  • 설치되어 있는 NVDIA Driver를 확인합니다.
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    535.183.06
    driver_version
    535.183.06
    ...
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치

참고
NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.
안내
아래 설치 명령어는 인터넷이 사용 가능한 환경에서 가능합니다. 만약 인터넷이 안되는 환경이라면, https://developer.download.nvidia.com/compute/cuda/repos/ 에서 libnvdia-nscq를 다운로드받아 업로드해야 합니다.
  1. cuda-keyring를 설치합니다.

    배경색 변경
    wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb
    wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb
    코드블록. NSCQ library 다운로드 명령어
    배경색 변경
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    apt update
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    apt update
    코드블록. NSCQ library 설치 명령어
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    
    535.183.06
    driver_version
    535.183.06
    ...
    
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

  2. libnvidia-nscq를 설치합니다.

    배경색 변경
    apt-cache policy libnvidia-nscq-535
    apt-cache policy libnvidia-nscq-535
    코드블록. NSCQ library apt-cache 명령어
    배경색 변경
    libnvidia-nscq-535:
      Installed: (none)
      Candidate: 535.247.01-1
      Version table:
         535.247.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.216.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.01-1 600
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.54.03-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvidia-nscq-535:
      Installed: (none)
      Candidate: 535.247.01-1
      Version table:
         535.247.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.216.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.01-1 600
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.54.03-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NSCQ library apt-cache 명령어 결과
    배경색 변경
    apt install libnvidia-nscq-535=535.183.06-1
    apt install libnvidia-nscq-535=535.183.06-1
    코드블록. NSCQ library 설치 명령어

안내

NVDIA Driver의 버전과 같은 버전으로 설치해야 합니다.

  • 예시) driver version: 535.183.06, libnvdia-nscq version: 535.183.06-1

NVSwitch Device Monitoring API(NVSDM) Library 설치

참고
Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.
  • NVSDM library 설치합니다.
    배경색 변경
    apt-cache policy libnvsdm
    apt-cache policy libnvsdm
    코드블록. NVSDM library apt-cache 명령어
    배경색 변경
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NVSDM library apt-cache 명령어 결과
    배경색 변경
    apt install libnvsdm=580.105.08-1
    apt install libnvsdm=580.105.08-1
    코드블록. NVSDM library 설치

NVIDIA DCGM 설치 (for Ubuntu)

아래의 순서에 따라 DCGM Exporter를 설치합니다.

  1. DCGM(datacenter-gpu-manager) 설치
  2. datacenter-gpu-manager-exporter 설치
  3. DCGM 서비스 활성화 및 시작

DCGM(datacenter-gpu-manager) 설치

NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.

  1. CUDA 버전을 확인합니다.
    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어
  2. datacenter-gpu-manager-cuda를 설치합니다.
    배경색 변경
    apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    코드블록. datacenter-gpu-manager-cuda 설치 명령어

datacenter-gpu-manager-exporter 설치

NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.

  1. datacenter-gpu-manager-exporter를 설치합니다.
    배경색 변경
    apt install datacenter-gpu-manager-exporter
    apt install datacenter-gpu-manager-exporter
    코드블록. datacenter-gpu-manager-exporter 설치 명령어
  2. DCGM Exporter 설정 파일을 확인합니다.
    배경색 변경
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 명령어
    배경색 변경
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시
  3. DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.
    배경색 변경
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    코드블록. datacenter-gpu-manager-exporter metric 설정 예시
참고
GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집은 제거하거나 비활성화해야 과도한 요금이 부과되지 않습니다.

DCGM 서비스 활성화 및 시작

  1. nvdia-dcgm 서비스 활성화 및 시작작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm
    systemctl enable --now nvidia-dcgm
    코드블록. nvdia-dcgm 서비스 활성화 및 시작작 명령어

  2. nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm-exporter
    systemctl enable --now nvidia-dcgm-exporter
    코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내
DCGM Exporter 설정을 완료하였다면, ServiceWatch에서 제공하는 Open Telemetry Collector를 설치하여 SerivceWatch Agent 설정을 완료하셔야 합니다.
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.

GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL)

ServiceWatch Agent를 GPU Server의 지표를 수집하기 위해 아래의 순서에 따라 설치합니다.

NVDIA Driver 설치 확인 (for RHEL)

  1. 설치되어 있는 NVDIA Driver를 확인합니다.
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    
    535.183.06
    driver_version
    535.183.06
    ...
    
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치 (for RHEL)

참고

NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.

  • RHEL의 경우 libnvdia-nscq가 설치되어 있는지 확인 후 설치합니다.
안내
아래 설치 명령어는 인터넷이 사용 가능한 환경에서 가능합니다. 만약 인터넷이 안되는 환경이라면, https://developer.download.nvidia.com/compute/cuda/repos/ 에서 libnvdia-nscq를 다운로드 받아 업로드해야 합니다.
  1. libnvdia-nscq 패키지 확인합니다.

    배경색 변경
    rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64
    rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64
    코드블록. NSCQ library 패키지 확인

  2. DNF에 CUDA Repository를 추가합니다.

    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가

  3. NVDIA Driver 상태 초기화

    배경색 변경
    dnf module reset nvidia-driver
    dnf module reset nvidia-driver
    코드블록. NVIDIA Driver DNF 모듈의 상태 초기화
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Disabling module profiles:
    nvidia-driver/default
    nvidia-driver/fm
    Resetting modules:
    nvidia-driver
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Disabling module profiles:
    nvidia-driver/default
    nvidia-driver/fm
    Resetting modules:
    nvidia-driver
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 결과 예시

  4. NVDIA Driver 모듈을 활성화합니다.

    배경색 변경
    dnf module enable nvidia-driver:535-open
    dnf module enable nvidia-driver:535-open
    코드블록. NVDIA Driver 모듈 활성화
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Enabling module streams:
    nvidia-driver 535-open
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Enabling module streams:
    nvidia-driver 535-open
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    코드블록. NVDIA Driver 모듈 활성화 결과 예시

  5. libnvdia-nscq 모듈 목록을 확인합니다.

    배경색 변경
    dnf list libnvidia-nscq-535 --showduplicates
    dnf list libnvidia-nscq-535 --showduplicates
    코드블록. libnvdia-nscq 모듈 목록 확인

  6. libnvdia-nscq를 설치합니다.

    배경색 변경
    dnf install libnvidia-nscq-535-535.183.06-1
    dnf install libnvidia-nscq-535-535.183.06-1
    코드블록. libnvdia-nscq 설치 명령어

NVSwitch Device Monitoring API(NVSDM) Library 설치 (for RHEL)

참고
Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.
  1. NVSDM library 모듈 목록을 확인합니다.

    배경색 변경
    dnf list libnvsdm --showduplicates
    dnf list libnvsdm --showduplicates
    코드블록. NVSDM library 모듈 목록 확인
    배경색 변경
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NVSDM library 모듈 목록 확인 결과 예시

  2. libnvsdm 설치합니다.

    배경색 변경
    dnf install libnvsdm-580.105.08-1
    dnf install libnvsdm-580.105.08-1
    코드블록. NVSDM library 설치
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
    Dependencies resolved.
    =========================================================================
    Package Architecture Version Repository Size
    =========================================================================
    Installing:
    libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
    Installing dependencies:
    infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
    libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k
    
    Transaction Summary
    =========================================================================
    Install 3 Packages
    
    Total download size: 1.0 M
    Installed size: 3.2 M
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
    Dependencies resolved.
    =========================================================================
    Package Architecture Version Repository Size
    =========================================================================
    Installing:
    libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
    Installing dependencies:
    infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
    libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k
    
    Transaction Summary
    =========================================================================
    Install 3 Packages
    
    Total download size: 1.0 M
    Installed size: 3.2 M
    Is this ok [y/N]: y
    코드블록. NVSDM library 설치 명령어 결과 예시

NVIDIA DCGM 설치 (for RHEL)

아래의 순서에 따라 Node Exporter를 설치합니다.

  1. DCGM(datacenter-gpu-manager) 설치
  2. datacenter-gpu-manager-exporter 설치
  3. DCGM 서비스 활성화 및 시작

DCGM(datacenter-gpu-manager) 설치 (for RHEL)

NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.

  1. DNF에 CUDA Repository를 추가합니다.
    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가
  2. CUDA 버전을 확인합니다.
    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어
  3. datacenter-gpu-manager-cuda 모듈 목록을 확인합니다.
    배경색 변경
    dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates
    dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates
    코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64
    코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 결과 예시
  4. datacenter-gpu-manager-cuda 설치합니다.
    배경색 변경
    dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    코드블록. datacenter-gpu-manager-cuda 설치
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ===================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ===================================================================================================
    Installing:
     datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
    Installing dependencies:
     datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
    Installing weak dependencies:
     datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
     datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M
    
    Transaction Summary
    ====================================================================================================
    Install  4 Packages
    ...
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ===================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ===================================================================================================
    Installing:
     datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
    Installing dependencies:
     datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
    Installing weak dependencies:
     datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
     datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M
    
    Transaction Summary
    ====================================================================================================
    Install  4 Packages
    ...
    Is this ok [y/N]: y
    코드블록. datacenter-gpu-manager-cuda 설치 결과 예시

datacenter-gpu-manager-exporter 설치 (for RHEL)

NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.

  1. DNF에 CUDA Repository를 추가합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)

    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가

  2. CUDA 버전을 확인합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)

    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어

  3. datacenter-gpu-manager-exporter 모듈 목록을 확인합니다.

    배경색 변경
    dnf list datacenter-gpu-manager-exporter --showduplicates
    dnf list datacenter-gpu-manager-exporter --showduplicates
    코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64
    코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 결과 예시

  4. datacenter-gpu-manager-cuda 설치합니다. dcgm-exporter 4.5.X 는 glibc 2.34 이상을 요구하지만, RHEL9 에서 glibc 2.34는 제공하므로 버전을 4.1.3-1 로 지정하여 설치합니다.

    배경색 변경
    dnf install datacenter-gpu-manager-exporter-4.1.3-1
    dnf install datacenter-gpu-manager-exporter-4.1.3-1
    코드블록. datacenter-gpu-manager-cuda 설치
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ====================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ====================================================================================================
    Installing:
     datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M
    
    ...
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ====================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ====================================================================================================
    Installing:
     datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M
    
    ...
    Is this ok [y/N]: y
    코드블록. datacenter-gpu-manager-cuda 설치 결과 예시
    배경색 변경
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    코드블록. datacenter-gpu-manager-exporter 설정 파일
    배경색 변경
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시

  5. DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.

    배경색 변경
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    코드블록. datacenter-gpu-manager-exporter metric 설정 예시

참고
GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집은 제거하거나 비활성화해야 과도한 요금이 부과되지 않습니다.

DCGM 서비스 활성화 및 시작 (for RHEL)

  1. nvdia-dcgm 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm
    systemctl enable --now nvidia-dcgm
    코드블록. nvdia-dcgm 서비스 활성화 및 시작 명령어

  2. nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm-exporter
    systemctl enable --now nvidia-dcgm-exporter
    코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내
DCGM Exporter 설정을 완료하였다면, ServiceWatch에서 제공하는 Open Telemetry Collector를 설치하여 SerivceWatch Agent 설정을 완료하셔야 합니다.
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.

DCGM Exporter 지표

DCGM Exporter 주요 지표

DCGM Exporter에서 제공하는 지표 중, 주요 GPU 지표는 아래와 같습니다.

CategoryDCGM FieldPrometheus Metric TypeSummary
ClocksDCGM_FI_DEV_SM_CLOCKgaugeSM clock frequency (in MHz)
ClocksDCGM_FI_DEV_MEM_CLOCKgaugeMemory clock frequency (in MHz)
TemperatureDCGM_FI_DEV_GPU_TEMPgaugeGPU temperature (in C)
PowerDCGM_FI_DEV_POWER_USAGEgaugePower draw (in W)
UtilizationDCGM_FI_DEV_GPU_UTILgaugeGPU utilization (in %)
UtilizationDCGM_FI_DEV_MEM_COPY_UTILgaugeMemory utilization (in %)
Memory UsageDCGM_FI_DEV_FB_FREEgaugeFrame buffer memory free (in MiB)
Memory UsageDCGM_FI_DEV_FB_USEDgaugeFrame buffer memory used (in MiB)
NvlinkDCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL(8 GPU only)counterTotal number of NVLink bandwidth counters for all lanes
표. DCGM Exporter가 제공하는 GPU 주요 지표

DCGM Exporter 지표 수집 설정

DCGM Exporter의 기본 설정되어 있는 지표는 DCGM Exporter > 기본 지표를 참고하세요.

  • 기본 설정 외에 추가로 설정할 지표는 default-counters.csv에서 #를 제거합니다.
  • 기본 설정된 지표 중 수집을 원하지 않는 지표는 #를 추가하거나 해당 항목을 삭제합니다.
배경색 변경
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...
코드블록. default-counters.csv 설정 예시
GPU Server에서 NVSwitch 사용하기
Release Note