ServiceWatch Agent 설치하기
사용자는 GPU Server에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.
ServiceWatch Agent
GPU Server에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.
| 구분 | 상세 설명 | |
|---|---|---|
| Prometheus Exporter | 특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
| |
| Open Telemetry Collector | 분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
|
GPU Server에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.
- Kubernetes Engine이 구성되어 있는 GPU Server에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)
GPU Server의 지표를 수집하기 위한 Prometheus Exporter를 아래의 순서에 따라 설치합니다.
NVDIA Driver 설치 확인
- 설치되어 있는 NVDIA Driver를 확인합니다.배경색 변경
nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시
NVSwitch Configuration and Query (NSCQ) Library 설치
cuda-keyring를 설치합니다.
배경색 변경wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.debwget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb코드블록. NSCQ library 다운로드 명령어 배경색 변경sudo dpkg -i cuda-keyring_1.1-1_all.deb apt updatesudo dpkg -i cuda-keyring_1.1-1_all.deb apt update코드블록. NSCQ library 설치 명령어 배경색 변경nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시 libnvidia-nscq를 설치합니다.
배경색 변경apt-cache policy libnvidia-nscq-535apt-cache policy libnvidia-nscq-535코드블록. NSCQ library apt-cache 명령어 배경색 변경libnvidia-nscq-535: Installed: (none) Candidate: 535.247.01-1 Version table: 535.247.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.216.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.06-1 600 # Driver 와 일치 하는 버전으로 설치 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.01-1 600 ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.54.03-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvidia-nscq-535: Installed: (none) Candidate: 535.247.01-1 Version table: 535.247.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.216.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.06-1 600 # Driver 와 일치 하는 버전으로 설치 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.01-1 600 ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.54.03-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NSCQ library apt-cache 명령어 결과 배경색 변경apt install libnvidia-nscq-535=535.183.06-1apt install libnvidia-nscq-535=535.183.06-1코드블록. NSCQ library 설치 명령어
NVDIA Driver의 버전과 같은 버전으로 설치해야 합니다.
- 예시) driver version: 535.183.06, libnvdia-nscq version: 535.183.06-1
NVSwitch Device Monitoring API(NVSDM) Library 설치
- NVSDM library 설치합니다.배경색 변경
apt-cache policy libnvsdmapt-cache policy libnvsdm코드블록. NVSDM library apt-cache 명령어 배경색 변경libnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NVSDM library apt-cache 명령어 결과 배경색 변경apt install libnvsdm=580.105.08-1apt install libnvsdm=580.105.08-1코드블록. NVSDM library 설치
NVIDIA DCGM 설치 (for Ubuntu)
아래의 순서에 따라 DCGM Exporter를 설치합니다.
DCGM(datacenter-gpu-manager) 설치
NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.
- CUDA 버전을 확인합니다.배경색 변경
nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 - datacenter-gpu-manager-cuda를 설치합니다.배경색 변경
apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}코드블록. datacenter-gpu-manager-cuda 설치 명령어
datacenter-gpu-manager-exporter 설치
NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.
- datacenter-gpu-manager-exporter를 설치합니다.배경색 변경
apt install datacenter-gpu-manager-exporterapt install datacenter-gpu-manager-exporter코드블록. datacenter-gpu-manager-exporter 설치 명령어 - DCGM Exporter 설정 파일을 확인합니다.배경색 변경
cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStartcat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 명령어 배경색 변경ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csvExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시 - DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은
#을 제거하고, 불필요한 메트릭은#을 추가합니다.배경색 변경vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...코드블록. datacenter-gpu-manager-exporter metric 설정 예시
DCGM 서비스 활성화 및 시작
nvdia-dcgm 서비스 활성화 및 시작작합니다.
배경색 변경systemctl enable --now nvidia-dcgmsystemctl enable --now nvidia-dcgm코드블록. nvdia-dcgm 서비스 활성화 및 시작작 명령어 nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgm-exportersystemctl enable --now nvidia-dcgm-exporter코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.
GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL)
ServiceWatch Agent를 GPU Server의 지표를 수집하기 위해 아래의 순서에 따라 설치합니다.
NVDIA Driver 설치 확인 (for RHEL)
- 설치되어 있는 NVDIA Driver를 확인합니다.배경색 변경
nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시
NVSwitch Configuration and Query (NSCQ) Library 설치 (for RHEL)
NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.
- RHEL의 경우 libnvdia-nscq가 설치되어 있는지 확인 후 설치합니다.
libnvdia-nscq 패키지 확인합니다.
배경색 변경rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64코드블록. NSCQ library 패키지 확인 DNF에 CUDA Repository를 추가합니다.
배경색 변경dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 NVDIA Driver 상태 초기화
배경색 변경dnf module reset nvidia-driverdnf module reset nvidia-driver코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Disabling module profiles: nvidia-driver/default nvidia-driver/fm Resetting modules: nvidia-driver Transaction Summary ============================================= Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Disabling module profiles: nvidia-driver/default nvidia-driver/fm Resetting modules: nvidia-driver Transaction Summary ============================================= Is this ok [y/N]: y코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 결과 예시 NVDIA Driver 모듈을 활성화합니다.
배경색 변경dnf module enable nvidia-driver:535-opendnf module enable nvidia-driver:535-open코드블록. NVDIA Driver 모듈 활성화 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Enabling module streams: nvidia-driver 535-open Transaction Summary ============================================= Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Enabling module streams: nvidia-driver 535-open Transaction Summary ============================================= Is this ok [y/N]: y코드블록. NVDIA Driver 모듈 활성화 결과 예시 libnvdia-nscq 모듈 목록을 확인합니다.
배경색 변경dnf list libnvidia-nscq-535 --showduplicatesdnf list libnvidia-nscq-535 --showduplicates코드블록. libnvdia-nscq 모듈 목록 확인 libnvdia-nscq를 설치합니다.
배경색 변경dnf install libnvidia-nscq-535-535.183.06-1dnf install libnvidia-nscq-535-535.183.06-1코드블록. libnvdia-nscq 설치 명령어
NVSwitch Device Monitoring API(NVSDM) Library 설치 (for RHEL)
NVSDM library 모듈 목록을 확인합니다.
배경색 변경dnf list libnvsdm --showduplicatesdnf list libnvsdm --showduplicates코드블록. NVSDM library 모듈 목록 확인 배경색 변경libnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NVSDM library 모듈 목록 확인 결과 예시 libnvsdm 설치합니다.
배경색 변경dnf install libnvsdm-580.105.08-1dnf install libnvsdm-580.105.08-1코드블록. NVSDM library 설치 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST. Dependencies resolved. ========================================================================= Package Architecture Version Repository Size ========================================================================= Installing: libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k Installing dependencies: infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k Transaction Summary ========================================================================= Install 3 Packages Total download size: 1.0 M Installed size: 3.2 M Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST. Dependencies resolved. ========================================================================= Package Architecture Version Repository Size ========================================================================= Installing: libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k Installing dependencies: infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k Transaction Summary ========================================================================= Install 3 Packages Total download size: 1.0 M Installed size: 3.2 M Is this ok [y/N]: y코드블록. NVSDM library 설치 명령어 결과 예시
NVIDIA DCGM 설치 (for RHEL)
아래의 순서에 따라 Node Exporter를 설치합니다.
DCGM(datacenter-gpu-manager) 설치 (for RHEL)
NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.
- DNF에 CUDA Repository를 추가합니다.배경색 변경
dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 - CUDA 버전을 확인합니다.배경색 변경
nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 - datacenter-gpu-manager-cuda 모듈 목록을 확인합니다.배경색 변경
dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicatesdnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-4-cuda12.x86_64 1:4.0.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-2 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.2-1 cuda-rhel8-x86_64Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-4-cuda12.x86_64 1:4.0.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-2 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.2-1 cuda-rhel8-x86_64코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 결과 예시 - datacenter-gpu-manager-cuda 설치합니다.배경색 변경
dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}코드블록. datacenter-gpu-manager-cuda 설치 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. =================================================================================================== Package Architecture Version Repository Size =================================================================================================== Installing: datacenter-gpu-manager-4-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 554 M Installing dependencies: datacenter-gpu-manager-4-core x86_64 1:4.4.2-1 cuda-rhel8-x86_64 9.9 M Installing weak dependencies: datacenter-gpu-manager-4-proprietary x86_64 1:4.4.2-1 cuda-rhel8-x86_64 5.3 M datacenter-gpu-manager-4-proprietary-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 289 M Transaction Summary ==================================================================================================== Install 4 Packages ... Is this ok [y/N]: yUpdating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. =================================================================================================== Package Architecture Version Repository Size =================================================================================================== Installing: datacenter-gpu-manager-4-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 554 M Installing dependencies: datacenter-gpu-manager-4-core x86_64 1:4.4.2-1 cuda-rhel8-x86_64 9.9 M Installing weak dependencies: datacenter-gpu-manager-4-proprietary x86_64 1:4.4.2-1 cuda-rhel8-x86_64 5.3 M datacenter-gpu-manager-4-proprietary-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 289 M Transaction Summary ==================================================================================================== Install 4 Packages ... Is this ok [y/N]: y코드블록. datacenter-gpu-manager-cuda 설치 결과 예시
datacenter-gpu-manager-exporter 설치 (for RHEL)
NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.
DNF에 CUDA Repository를 추가합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)
배경색 변경dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 CUDA 버전을 확인합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)
배경색 변경nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 datacenter-gpu-manager-exporter 모듈 목록을 확인합니다.
배경색 변경dnf list datacenter-gpu-manager-exporter --showduplicatesdnf list datacenter-gpu-manager-exporter --showduplicates코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-exporter.x86_64 4.0.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.6.0-1 cuda-rhel8-x86_64Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-exporter.x86_64 4.0.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.6.0-1 cuda-rhel8-x86_64코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 결과 예시 datacenter-gpu-manager-cuda 설치합니다. dcgm-exporter 4.5.X 는 glibc 2.34 이상을 요구하지만, RHEL9 에서 glibc 2.34는 제공하므로 버전을 4.1.3-1 로 지정하여 설치합니다.
배경색 변경dnf install datacenter-gpu-manager-exporter-4.1.3-1dnf install datacenter-gpu-manager-exporter-4.1.3-1코드블록. datacenter-gpu-manager-cuda 설치 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. ==================================================================================================== Package Architecture Version Repository Size ==================================================================================================== Installing: datacenter-gpu-manager-exporter x86_64 4.1.3-1 cuda-rhel8-x86_64 26 M ... Is this ok [y/N]: yUpdating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. ==================================================================================================== Package Architecture Version Repository Size ==================================================================================================== Installing: datacenter-gpu-manager-exporter x86_64 4.1.3-1 cuda-rhel8-x86_64 26 M ... Is this ok [y/N]: y코드블록. datacenter-gpu-manager-cuda 설치 결과 예시 배경색 변경cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStartcat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart코드블록. datacenter-gpu-manager-exporter 설정 파일 배경색 변경ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csvExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시 DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은
#을 제거하고, 불필요한 메트릭은#을 추가합니다.배경색 변경vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...코드블록. datacenter-gpu-manager-exporter metric 설정 예시
DCGM 서비스 활성화 및 시작 (for RHEL)
nvdia-dcgm 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgmsystemctl enable --now nvidia-dcgm코드블록. nvdia-dcgm 서비스 활성화 및 시작 명령어 nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgm-exportersystemctl enable --now nvidia-dcgm-exporter코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.
DCGM Exporter 지표
DCGM Exporter 주요 지표
DCGM Exporter에서 제공하는 지표 중, 주요 GPU 지표는 아래와 같습니다.
| Category | DCGM Field | Prometheus Metric Type | Summary | |
|---|---|---|---|---|
| Clocks | DCGM_FI_DEV_SM_CLOCK | gauge | SM clock frequency (in MHz) | |
| Clocks | DCGM_FI_DEV_MEM_CLOCK | gauge | Memory clock frequency (in MHz) | |
| Temperature | DCGM_FI_DEV_GPU_TEMP | gauge | GPU temperature (in C) | |
| Power | DCGM_FI_DEV_POWER_USAGE | gauge | Power draw (in W) | |
| Utilization | DCGM_FI_DEV_GPU_UTIL | gauge | GPU utilization (in %) | |
| Utilization | DCGM_FI_DEV_MEM_COPY_UTIL | gauge | Memory utilization (in %) | |
| Memory Usage | DCGM_FI_DEV_FB_FREE | gauge | Frame buffer memory free (in MiB) | |
| Memory Usage | DCGM_FI_DEV_FB_USED | gauge | Frame buffer memory used (in MiB) | |
| Nvlink | DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL(8 GPU only) | counter | Total number of NVLink bandwidth counters for all lanes |
DCGM Exporter 지표 수집 설정
DCGM Exporter의 기본 설정되어 있는 지표는 DCGM Exporter > 기본 지표를 참고하세요.
- 기본 설정 외에 추가로 설정할 지표는 default-counters.csv에서
#를 제거합니다. - 기본 설정된 지표 중 수집을 원하지 않는 지표는
#를 추가하거나 해당 항목을 삭제합니다.
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message
# Clocks
DCGM_FI_DEV_SM_CLOCK, gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).
# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP, gauge, GPU temperature (in C).
# Power
DCGM_FI_DEV_POWER_USAGE, gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).
# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES, counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES, counter, Total number of bytes received through PCIe RX via NVML.
...# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message
# Clocks
DCGM_FI_DEV_SM_CLOCK, gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).
# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP, gauge, GPU temperature (in C).
# Power
DCGM_FI_DEV_POWER_USAGE, gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).
# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES, counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES, counter, Total number of bytes received through PCIe RX via NVML.
...