ServiceWatch Agent 설치하기
사용자는 GPU Server에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.
ServiceWatch Agent
GPU Server에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.
| 구분 | 상세 설명 | |
|---|---|---|
| Prometheus Exporter | 특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
| |
| Open Telemetry Collector | 분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
|
GPU Server에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.
- Kubernetes Engine이 구성되어 있는 GPU Server에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
ServiceWatch Agent 활용을 위한 사전 설정
ServiceWatch Agent를 활용하기 위해서 ServiceWatch Agent를 위한 사전 환경 설정을 참고하여 사전 설정을 준비해주세요.
GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)
GPU Server의 지표를 수집하기 위한 Prometheus Exporter를 아래의 순서에 따라 설치합니다.
NVDIA Driver 설치 확인
- 설치되어 있는 NVDIA Driver를 확인합니다.배경색 변경
nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시
NVSwitch Configuration and Query (NSCQ) Library 설치
cuda-keyring를 설치합니다.
배경색 변경wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.debwget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb코드블록. NSCQ library 다운로드 명령어 배경색 변경sudo dpkg -i cuda-keyring_1.1-1_all.deb apt updatesudo dpkg -i cuda-keyring_1.1-1_all.deb apt update코드블록. NSCQ library 설치 명령어 배경색 변경nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시 libnvidia-nscq를 설치합니다.
배경색 변경apt-cache policy libnvidia-nscq-535apt-cache policy libnvidia-nscq-535코드블록. NSCQ library apt-cache 명령어 배경색 변경libnvidia-nscq-535: Installed: (none) Candidate: 535.247.01-1 Version table: 535.247.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.216.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.06-1 600 # Driver 와 일치 하는 버전으로 설치 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.01-1 600 ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.54.03-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvidia-nscq-535: Installed: (none) Candidate: 535.247.01-1 Version table: 535.247.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.216.01-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.06-1 600 # Driver 와 일치 하는 버전으로 설치 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.183.01-1 600 ... 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 535.54.03-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NSCQ library apt-cache 명령어 결과 배경색 변경apt install libnvidia-nscq-535=535.183.06-1apt install libnvidia-nscq-535=535.183.06-1코드블록. NSCQ library 설치 명령어
NVDIA Driver의 버전과 같은 버전으로 설치해야 합니다.
- 예시) driver version: 535.183.06, libnvdia-nscq version: 535.183.06-1
NVSwitch Device Monitoring API(NVSDM) Library 설치
- NVSDM library 설치합니다.배경색 변경
apt-cache policy libnvsdmapt-cache policy libnvsdm코드블록. NVSDM library apt-cache 명령어 배경색 변경libnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NVSDM library apt-cache 명령어 결과 배경색 변경apt install libnvsdm=580.105.08-1apt install libnvsdm=580.105.08-1코드블록. NVSDM library 설치
NVIDIA DCGM 설치 (for Ubuntu)
아래의 순서에 따라 DCGM Exporter를 설치합니다.
DCGM(datacenter-gpu-manager) 설치
NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.
- CUDA 버전을 확인합니다.배경색 변경
nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 - datacenter-gpu-manager-cuda를 설치합니다.배경색 변경
apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}코드블록. datacenter-gpu-manager-cuda 설치 명령어
datacenter-gpu-manager-exporter 설치
NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.
- datacenter-gpu-manager-exporter를 설치합니다.배경색 변경
apt install datacenter-gpu-manager-exporterapt install datacenter-gpu-manager-exporter코드블록. datacenter-gpu-manager-exporter 설치 명령어 - DCGM Exporter 설정 파일을 확인합니다.배경색 변경
cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStartcat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 명령어 배경색 변경ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csvExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시 - DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은
#을 제거하고, 불필요한 메트릭은#을 추가합니다.배경색 변경vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...코드블록. datacenter-gpu-manager-exporter metric 설정 예시
DCGM 서비스 활성화 및 시작
nvdia-dcgm 서비스 활성화 및 시작작합니다.
배경색 변경systemctl enable --now nvidia-dcgmsystemctl enable --now nvidia-dcgm코드블록. nvdia-dcgm 서비스 활성화 및 시작작 명령어 nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgm-exportersystemctl enable --now nvidia-dcgm-exporter코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.
GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL)
ServiceWatch Agent를 GPU Server의 지표를 수집하기 위해 아래의 순서에 따라 설치합니다.
NVDIA Driver 설치 확인 (for RHEL)
- 설치되어 있는 NVDIA Driver를 확인합니다.배경색 변경
nvidia-smi --query-gpu driver_version --format csvnvidia-smi --query-gpu driver_version --format csv코드블록. NVDIA Driver 버전 확인 명령어 배경색 변경driver_version 535.183.06 ... 535.183.06driver_version 535.183.06 ... 535.183.06코드블록. NVDIA Driver 버전 확인 예시
NVSwitch Configuration and Query (NSCQ) Library 설치 (for RHEL)
NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.
- RHEL의 경우 libnvdia-nscq가 설치되어 있는지 확인 후 설치합니다.
libnvdia-nscq 패키지 확인합니다.
배경색 변경rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64코드블록. NSCQ library 패키지 확인 DNF에 CUDA Repository를 추가합니다.
배경색 변경dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 NVDIA Driver 상태 초기화
배경색 변경dnf module reset nvidia-driverdnf module reset nvidia-driver코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Disabling module profiles: nvidia-driver/default nvidia-driver/fm Resetting modules: nvidia-driver Transaction Summary ============================================= Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Disabling module profiles: nvidia-driver/default nvidia-driver/fm Resetting modules: nvidia-driver Transaction Summary ============================================= Is this ok [y/N]: y코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 결과 예시 NVDIA Driver 모듈을 활성화합니다.
배경색 변경dnf module enable nvidia-driver:535-opendnf module enable nvidia-driver:535-open코드블록. NVDIA Driver 모듈 활성화 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Enabling module streams: nvidia-driver 535-open Transaction Summary ============================================= Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST. Dependencies resolved. ============================================= Package Architecture Version Repository Size ============================================= Enabling module streams: nvidia-driver 535-open Transaction Summary ============================================= Is this ok [y/N]: y코드블록. NVDIA Driver 모듈 활성화 결과 예시 libnvdia-nscq 모듈 목록을 확인합니다.
배경색 변경dnf list libnvidia-nscq-535 --showduplicatesdnf list libnvidia-nscq-535 --showduplicates코드블록. libnvdia-nscq 모듈 목록 확인 libnvdia-nscq를 설치합니다.
배경색 변경dnf install libnvidia-nscq-535-535.183.06-1dnf install libnvidia-nscq-535-535.183.06-1코드블록. libnvdia-nscq 설치 명령어
NVSwitch Device Monitoring API(NVSDM) Library 설치 (for RHEL)
NVSDM library 모듈 목록을 확인합니다.
배경색 변경dnf list libnvsdm --showduplicatesdnf list libnvsdm --showduplicates코드블록. NVSDM library 모듈 목록 확인 배경색 변경libnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packageslibnvsdm: Installed: (none) Candidate: 580.105.08-1 Version table: 580.105.08-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.95.05-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.82.07-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages 580.65.06-1 600 600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64 Packages코드블록. NVSDM library 모듈 목록 확인 결과 예시 libnvsdm 설치합니다.
배경색 변경dnf install libnvsdm-580.105.08-1dnf install libnvsdm-580.105.08-1코드블록. NVSDM library 설치 배경색 변경Updating Subscription Management repositories. Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST. Dependencies resolved. ========================================================================= Package Architecture Version Repository Size ========================================================================= Installing: libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k Installing dependencies: infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k Transaction Summary ========================================================================= Install 3 Packages Total download size: 1.0 M Installed size: 3.2 M Is this ok [y/N]: yUpdating Subscription Management repositories. Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST. Dependencies resolved. ========================================================================= Package Architecture Version Repository Size ========================================================================= Installing: libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k Installing dependencies: infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k Transaction Summary ========================================================================= Install 3 Packages Total download size: 1.0 M Installed size: 3.2 M Is this ok [y/N]: y코드블록. NVSDM library 설치 명령어 결과 예시
NVIDIA DCGM 설치 (for RHEL)
아래의 순서에 따라 Node Exporter를 설치합니다.
DCGM(datacenter-gpu-manager) 설치 (for RHEL)
NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.
- DNF에 CUDA Repository를 추가합니다.배경색 변경
dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 - CUDA 버전을 확인합니다.배경색 변경
nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 - datacenter-gpu-manager-cuda 모듈 목록을 확인합니다.배경색 변경
dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicatesdnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-4-cuda12.x86_64 1:4.0.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-2 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.2-1 cuda-rhel8-x86_64Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-4-cuda12.x86_64 1:4.0.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.2.3-2 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.3.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-4-cuda12.x86_64 1:4.4.2-1 cuda-rhel8-x86_64코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 결과 예시 - datacenter-gpu-manager-cuda 설치합니다.배경색 변경
dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}코드블록. datacenter-gpu-manager-cuda 설치 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. =================================================================================================== Package Architecture Version Repository Size =================================================================================================== Installing: datacenter-gpu-manager-4-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 554 M Installing dependencies: datacenter-gpu-manager-4-core x86_64 1:4.4.2-1 cuda-rhel8-x86_64 9.9 M Installing weak dependencies: datacenter-gpu-manager-4-proprietary x86_64 1:4.4.2-1 cuda-rhel8-x86_64 5.3 M datacenter-gpu-manager-4-proprietary-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 289 M Transaction Summary ==================================================================================================== Install 4 Packages ... Is this ok [y/N]: yUpdating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. =================================================================================================== Package Architecture Version Repository Size =================================================================================================== Installing: datacenter-gpu-manager-4-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 554 M Installing dependencies: datacenter-gpu-manager-4-core x86_64 1:4.4.2-1 cuda-rhel8-x86_64 9.9 M Installing weak dependencies: datacenter-gpu-manager-4-proprietary x86_64 1:4.4.2-1 cuda-rhel8-x86_64 5.3 M datacenter-gpu-manager-4-proprietary-cuda12 x86_64 1:4.4.2-1 cuda-rhel8-x86_64 289 M Transaction Summary ==================================================================================================== Install 4 Packages ... Is this ok [y/N]: y코드블록. datacenter-gpu-manager-cuda 설치 결과 예시
datacenter-gpu-manager-exporter 설치 (for RHEL)
NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.
DNF에 CUDA Repository를 추가합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)
배경색 변경dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repodnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo코드블록. DNF Repository 추가 CUDA 버전을 확인합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)
배경색 변경nvidia-smi | grep CUDAnvidia-smi | grep CUDA코드블록. CUDA 버전 확인 배경색 변경| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 || NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |코드블록. CUDA 버전 확인 결과 예시 배경색 변경CUDA_VERSION=12CUDA_VERSION=12코드블록. CUDA 버전 설정 명령어 datacenter-gpu-manager-exporter 모듈 목록을 확인합니다.
배경색 변경dnf list datacenter-gpu-manager-exporter --showduplicatesdnf list datacenter-gpu-manager-exporter --showduplicates코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-exporter.x86_64 4.0.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.6.0-1 cuda-rhel8-x86_64Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST. Available Packages datacenter-gpu-manager-exporter.x86_64 4.0.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.1.3-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.0-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.1-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.5.2-1 cuda-rhel8-x86_64 datacenter-gpu-manager-exporter.x86_64 4.6.0-1 cuda-rhel8-x86_64코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 결과 예시 datacenter-gpu-manager-cuda 설치합니다. dcgm-exporter 4.5.X 는 glibc 2.34 이상을 요구하지만, RHEL9 에서 glibc 2.34는 제공하므로 버전을 4.1.3-1 로 지정하여 설치합니다.
배경색 변경dnf install datacenter-gpu-manager-exporter-4.1.3-1dnf install datacenter-gpu-manager-exporter-4.1.3-1코드블록. datacenter-gpu-manager-cuda 설치 배경색 변경Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. ==================================================================================================== Package Architecture Version Repository Size ==================================================================================================== Installing: datacenter-gpu-manager-exporter x86_64 4.1.3-1 cuda-rhel8-x86_64 26 M ... Is this ok [y/N]: yUpdating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST. Dependencies resolved. ==================================================================================================== Package Architecture Version Repository Size ==================================================================================================== Installing: datacenter-gpu-manager-exporter x86_64 4.1.3-1 cuda-rhel8-x86_64 26 M ... Is this ok [y/N]: y코드블록. datacenter-gpu-manager-cuda 설치 결과 예시 배경색 변경cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStartcat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart코드블록. datacenter-gpu-manager-exporter 설정 파일 배경색 변경ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csvExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시 DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은
#을 제거하고, 불필요한 메트릭은#을 추가합니다.배경색 변경vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...vi /etc/dcgm-exporter/default-counters.csv ## Example ## ... DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active. DCGM_FI_PROF_DRAM_ACTIVE, gauge, Ratio of cycles the device memory interface is active sending or receiving data. # DCGM_FI_PROF_PIPE_FP64_ACTIVE, gauge, Ratio of cycles the fp64 pipes are active. # DCGM_FI_PROF_PIPE_FP32_ACTIVE, gauge, Ratio of cycles the fp32 pipes are active. ...코드블록. datacenter-gpu-manager-exporter metric 설정 예시
DCGM 서비스 활성화 및 시작 (for RHEL)
nvdia-dcgm 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgmsystemctl enable --now nvidia-dcgm코드블록. nvdia-dcgm 서비스 활성화 및 시작 명령어 nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경systemctl enable --now nvidia-dcgm-exportersystemctl enable --now nvidia-dcgm-exporter코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.
DCGM Exporter 지표
DCGM Exporter 주요 지표
DCGM Exporter에서 제공하는 지표 중, 주요 GPU 지표는 아래와 같습니다.
| Category | DCGM Field | Prometheus Metric Type | Summary | |
|---|---|---|---|---|
| Clocks | DCGM_FI_DEV_SM_CLOCK | gauge | SM clock frequency (in MHz) | |
| Clocks | DCGM_FI_DEV_MEM_CLOCK | gauge | Memory clock frequency (in MHz) | |
| Temperature | DCGM_FI_DEV_GPU_TEMP | gauge | GPU temperature (in C) | |
| Power | DCGM_FI_DEV_POWER_USAGE | gauge | Power draw (in W) | |
| Utilization | DCGM_FI_DEV_GPU_UTIL | gauge | GPU utilization (in %) | |
| Utilization | DCGM_FI_DEV_MEM_COPY_UTIL | gauge | Memory utilization (in %) | |
| Memory Usage | DCGM_FI_DEV_FB_FREE | gauge | Frame buffer memory free (in MiB) | |
| Memory Usage | DCGM_FI_DEV_FB_USED | gauge | Frame buffer memory used (in MiB) | |
| Nvlink | DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL(8 GPU only) | counter | Total number of NVLink bandwidth counters for all lanes |
DCGM Exporter 지표 수집 설정
DCGM Exporter의 기본 설정되어 있는 지표는 DCGM Exporter > 기본 지표를 참고하세요.
- 기본 설정 외에 추가로 설정할 지표는 default-counters.csv에서
#를 제거합니다. - 기본 설정된 지표 중 수집을 원하지 않는 지표는
#를 추가하거나 해당 항목을 삭제합니다.
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message
# Clocks
DCGM_FI_DEV_SM_CLOCK, gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).
# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP, gauge, GPU temperature (in C).
# Power
DCGM_FI_DEV_POWER_USAGE, gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).
# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES, counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES, counter, Total number of bytes received through PCIe RX via NVML.
...# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message
# Clocks
DCGM_FI_DEV_SM_CLOCK, gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).
# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP, gauge, GPU temperature (in C).
# Power
DCGM_FI_DEV_POWER_USAGE, gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).
# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES, counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES, counter, Total number of bytes received through PCIe RX via NVML.
...