이 섹션의 다중 페이지 출력 화면임. 여기를 클릭하여 프린트.

Overview

1: 서버 타입
2: 모니터링 지표

서비스 개요

Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.

제공 기능

Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.

자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.

구성 요소

Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.

GPU(H100)

GPU(Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.

다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.

구분	H100 Type
상품 제공 방식	Bare Metal
GPU Architecture	NNVIDIA Hopper
GPU Memory	80GB
GPU Transistors	80 billion 4N TSMC
GPU Tensor Performance(FP16기준)	989.4 TFLOPs, 1,978.9 TFLOPs*
GPU Memory Bandwidth	3,352 GB/sec HBM3
GPU CUDA Cores	16,896 Cores
GPU Tensor Cores	528(4th Generation)
NVLink 성능	NVLink 4
총 NVLink 대역폭	900 GB/s
NVLink Signaling Rate	25 Gbps (x18)
NVSwitch 성능	NVSwitch 3
NVSwitch GPU간 대역폭	900 GB/s
총 NVSwitch 집계 대역폭	7.2TB/s

With Sparsity

표. GPU Type 사양

OS 및 GPU 드라이버 버전

Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.

OS	OS 버전	GPU 드라이버버전
Ubuntu	22.04	535.86.10, 535.183.06

표. Multi-node GPU Cluster OS 및 GPU 드라이버 버전

서버 타입

Multi-node GPU Cluster에서 제공하는 서버 타입은 다음과 같습니다. Multi-node GPU Cluster에서 제공하는 서버 타입에 대한 자세한 설명은 Multi-node GPU Cluster 서버 타입을 참고하세요.

g2c96h8_metal

구분	예시	상세 설명
서버 세대	g2	제공하는 서버 세대 g2: g는 GPU 서버를 의미하고, 2는 세대를 의미
CPU	c96	Core 개수 c96: 할당 Core는 물리 코어
GPU	h8	GPU 종류 및 수량 h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미

표. Multi-node GPU Cluster 서버 타입 형식

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.

서비스 카테고리	서비스	상세 설명
Networking	VPC	클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스

표. Multi-node GPU Cluster 선행 서비스

1 - 서버 타입

Multi-node GPU Cluster 서버 타입

Multi-node GPU Cluster는 제공하는 GPU Type에 따라 구분되며, GPU Node를 생성할 때 선택하는 서버 타입에 따라 Multi-node GPU Cluster에 사용되는 GPU가 결정됩니다. Multi-node GPU Cluster에서 실행하려는 애플리케이션의 사양에 따라 서버 타입을 선택해주세요.

Multi-node GPU Cluster에서 지원하는 서버 타입은 다음 형식과 같습니다.

g2c96h8_metal

구분	예시	상세 설명
서버 세대	g2	제공하는 서버 세대 g2 g는 GPU 서버 사양을 의미 2은 세대를 의미
CPU	c96	Core 개수 c96: 할당 Core는 물리 코어
GPU	h8	GPU 종류 및 수량 h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미

표. Multi-node GPU Cluster 서버 타입 형식

g2 서버 타입

g2 서버 타입은 NVIDIA H100 Tensor Core GPU를 사용하는 GPU Bare Metal Serve로 대규모 고성능 AI 연산에 적합합니다.

최대 8개의 NVIDIA H100 Tensor Core GPU 제공
GPU 당 16,896개의 CUDA 코어와 528 Tensor 코어 탑재
최대 96개의 vCPU 및 1,920 GB의 메모리를 지원
최대 100 Gbps의 네트워킹 속도
900GB/s GPU와 NVIDIA NVSwitch P2P 통신

서버 타입	GPU	GPU Memory	CPU(Core)	Memory	Disk	GPU P2P
g2c96h8_metal	H100	640 GB	96 vCore	2 TB	SSD(OS) 960 GB * 2, NVMeSSD 3.84 TB * 4	900GB/s NVSwitch

표. Multi-node GPU Cluster 서버 타입 사양 > H100 서버 타입

2 - 모니터링 지표

Multi-node GPU Cluster 모니터링 지표

아래 표는 Cloud Monitoring을 통해 확인할 수 있는 Multi-node GPU Cluster의 모니터링 지표를 나타냅니다.

안내

Multi-node GPU Cluster 는 사용자가 직접 가이드를 통해 Agent를 설치해야 모니터링 지표를 조회할 수 있습니다. 안정적인 서비스를 사용하기에 앞서 Agent 를 반드시 설치해주세요. Agent 설치 방법 및 자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.

Multi-node GPU Cluster [Cluster]

성능 항목	상세 설명	단위
Memory Total [Basic]	사용할 수 있는 메모리의 bytes	bytes
Memory Used [Basic]	현재 사용되는 메모리의 bytes	bytes
Memory Swap In [Basic]	교체된 메모리의 bytes	bytes
Memory Swap Out [Basic]	교체된 메모리의 bytes	bytes
Memory Free [Basic]	사용하지 않은 메모리의 bytes	bytes
Disk Read Bytes [Basic]	읽기 bytes	bytes
Disk Read Requests [Basic]	읽기 요청 수	cnt
Disk Write Bytes [Basic]	쓰기bytes	bytes
Disk Write Requests [Basic]	쓰기 요청 수	cnt
CPU Usage [Basic]	1분간 평균 시스템 CPU 사용률	%
Instance State [Basic]	Instance 상태	state
Network In Bytes [Basic]	수신 bytes	bytes
Network In Dropped [Basic]	수신 패킷 드롭	cnt
Network In Packets [Basic]	수신 패킷 수	cnt
Network Out Bytes [Basic]	송신 bytes	bytes
Network Out Dropped [Basic]	송신 패킷 드롭	cnt
Network Out Packets [Basic]	송신 패킷 수	cnt

표. Multi-node GPU Cluster [Cluster] 모니터링 지표(기본 제공)

성능 항목	상세 설명	단위
Cluster GPU Count	Cluster 내 GPU Count SUM 클러스터 내 노드 GPU Count의 Sum값: 같은 GPU CLUSTER 내 노드끼리 각 노드의 GPU Count 의 합계 계산	cnt
Cluster GPU Count In Use	Cluster 내 Job이 수행중인 GPU 수 클러스터 내 Process에서 사용중인 GPU 수: 같은 GPU CLUSTER 내 노드들의 nvidia-smi 결과의 하단 ‘Processes:’ 정보를 파싱하여 프로세스가 물고있는 GPU 갯수 합계	cnt
Cluster GPU Usage	Cluster 내 GPU Utilization AVG 클러스터 내 노드 GPU utilization Average값 : 같은 GPU CLUSTER 내 노드끼리 각 노드의 GPU utilization 값 평균 계산	%
Cluster GPU Memory Usage [Avg]	Cluster 내 GPU Memory Uti. AVG 클러스터 내 노드 Memory utilization Average값: 같은 GPU CLUSTER 내 노드끼리 각 노드의 Memory utilization 값 평균 계산	%

표. Multi-node GPU Cluster [Cluster] 추가 모니터링 지표(Agent 설치 필요)

Multi-node GPU Cluster [Node]

성능 항목	상세 설명	단위
Memory Total [Basic]	사용할 수 있는 메모리의 bytes	bytes
Memory Used [Basic]	현재 사용되는 메모리의 bytes	bytes
Memory Swap In [Basic]	교체된 메모리의 bytes	bytes
Memory Swap Out [Basic]	교체된 메모리의 bytes	bytes
Memory Free [Basic]	사용하지 않은 메모리의 bytes	bytes
Disk Read Bytes [Basic]	읽기 bytes	bytes
Disk Read Requests [Basic]	읽기 요청 수	cnt
Disk Write Bytes [Basic]	쓰기bytes	bytes
Disk Write Requests [Basic]	쓰기 요청 수	cnt
CPU Usage [Basic]	1분간 평균 시스템 CPU 사용률	%
Instance State [Basic]	Instance 상태	state
Network In Bytes [Basic]	수신 bytes	bytes
Network In Dropped [Basic]	수신 패킷 드롭	cnt
Network In Packets [Basic]	수신 패킷 수	cnt
Network Out Bytes [Basic]	송신 bytes	bytes
Network Out Dropped [Basic]	송신 패킷 드롭	cnt
Network Out Packets [Basic]	송신 패킷 수	cnt

표. Multi-node GPU Cluster [Node] 모니터링 지표(기본 제공)

성능 항목	상세 설명	단위
GPU Count	gpu 개수	cnt
GPU Temperature	gpu 온도	℃
GPU Usage	utilization	%
GPU Usage [Avg]	GPU 전체 평균 사용율(%)	%
GPU Power Cap	GPU의 최대 전력 용량	W
GPU Power Usage	GPU의 현재 전력 사용량	W
GPU Memory Usage [Avg]	GPU Memory Uti. AVG	%
GPU Count in use	Node 내 Job이 수행중인 GPU 수	cnt
Execution Status for nvidia-smi	nvidia-smi 명령어 실행결과	status
Core Usage [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)	%
Core Usage [System]	커널 공간에서 소요된 CPU 시간의 비율	%
Core Usage [User]	사용자 공간에서 소요된 CPU 시간의 비율	%
CPU Cores	호스트에 있는 CPU 코어의 수입니다. 정규화되지 않은 비율의 최대 값은 코어의 100%입니다. 정규화되지 않은 비율에는 이 값이 이미 반영되어 있으며 최대 값은 코어의 100%입니다.	cnt
CPU Usage [Active]	Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%)	%
CPU Usage [Idle]	유휴 상태로 소요된 CPU 시간의 비율입니다.	%
CPU Usage [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.	%
CPU Usage [System]	커널에서 사용한 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%)	%
CPU Usage [User]	사용자 영역에서 사용한 CPU 시간의 백분율. (core 4개 모두를 100% 사용하는 경우 400%)	%
CPU Usage/Core [Active]	Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)	%
CPU Usage/Core [Idle]	유휴 상태로 소요된 CPU 시간의 비율입니다.	%
CPU Usage/Core [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.	%
CPU Usage/Core [System]	커널에서 사용한 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)	%
CPU Usage/Core [User]	사용자 영역에서 사용한 CPU 시간의 백분율. (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)	%
Disk CPU Usage [IO Request]	장치에 대한 입출력 요청이 실행된 CPU 시간의 비율입니다(장치의 대역폭 활용도). 이 값이 100%에 가까우면 장치 포화 상태가 됩니다.	%
Disk Queue Size [Avg]	장치에 대해 실행된 요청의 평균 대기열 길이입니다.	num
Disk Read Bytes	장치에서 읽는 초당 바이트 수입니다.	bytes
Disk Read Bytes [Delta Avg]	개별 disk들의 system.diskio.read.bytes_delta의 평균	bytes
Disk Read Bytes [Delta Max]	개별 disk들의 system.diskio.read.bytes_delta의 최대	bytes
Disk Read Bytes [Delta Min]	개별 disk들의 system.diskio.read.bytes_delta의 최소	bytes
Disk Read Bytes [Delta Sum]	개별 disk들의 system.diskio.read.bytes_delta의 합	bytes
Disk Read Bytes [Delta]	개별 disk의 system.diskio.read.bytes 값의 delta	bytes
Disk Read Bytes [Success]	성공적으로 읽은 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 읽어들인 섹터 수에 512를 곱한 값	bytes
Disk Read Requests	1초동안 디스크 디바이스의 읽기 요청 수	cnt
Disk Read Requests [Delta Avg]	개별 disk들의 system.diskio.read.count_delta의 평균	cnt
Disk Read Requests [Delta Max]	개별 disk들의 system.diskio.read.count_delta의 최대	cnt
Disk Read Requests [Delta Min]	개별 disk들의 system.diskio.read.count_delta의 최소	cnt
Disk Read Requests [Delta Sum]	개별 disk들의 system.diskio.read.count_delta의 합	cnt
Disk Read Requests [Success Delta]	개별 disk의 system.diskio.read.count 의 delta	cnt
Disk Read Requests [Success]	성공적으로 완료된 총 읽기 수	cnt
Disk Request Size [Avg]	장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다.	num
Disk Service Time [Avg]	장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다.	ms
Disk Wait Time [Avg]	지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다.	ms
Disk Wait Time [Read]	디스크 평균 대기 시간	ms
Disk Wait Time [Write]	디스크 평균 대기 시간	ms
Disk Write Bytes [Delta Avg]	개별 disk들의 system.diskio.write.bytes_delta의 평균	bytes
Disk Write Bytes [Delta Max]	개별 disk들의 system.diskio.write.bytes_delta의 최대	bytes
Disk Write Bytes [Delta Min]	개별 disk들의 system.diskio.write.bytes_delta의 최소	bytes
Disk Write Bytes [Delta Sum]	개별 disk들의 system.diskio.write.bytes_delta의 합	bytes
Disk Write Bytes [Delta]	개별 disk의 system.diskio.write.bytes 값의 delta	bytes
Disk Write Bytes [Success]	성공적으로 쓰여진 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 쓰여진 섹터 수에 512를 곱한 값	bytes
Disk Write Requests	1초동안 디스크 디바이스의 쓰기 요청 수	cnt
Disk Write Requests [Delta Avg]	개별 disk들의 system.diskio.write.count_delta의 평균	cnt
Disk Write Requests [Delta Max]	개별 disk들의 system.diskio.write.count_delta의 최대	cnt
Disk Write Requests [Delta Min]	개별 disk들의 system.diskio.write.count_delta의 최소	cnt
Disk Write Requests [Delta Sum]	개별 disk들의 system.diskio.write.count_delta의 합	cnt
Disk Write Requests [Success Delta]	개별 disk의 system.diskio.write.count 의 delta	cnt
Disk Write Requests [Success]	성공적으로 완료된 총 쓰기 수	cnt
Disk Writes Bytes	장치에 쓰는 초당 바이트 수입니다.	bytes
Filesystem Hang Check	filesystem(local/NFS) hang 체크 (정상:1, 비정상:0)	status
Filesystem Nodes	파일 시스템의 총 파일 노드 수입니다.	cnt
Filesystem Nodes [Free]	파일 시스템의 총 가용 파일 노드 수입니다.	cnt
Filesystem Size [Available]	권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)입니다.	bytes
Filesystem Size [Free]	사용 가능한 디스크 공간 (bytes)	bytes
Filesystem Size [Total]	총 디스크 공간 (bytes)	bytes
Filesystem Usage	사용한 디스크 공간 백분율	%
Filesystem Usage [Avg]	개별 filesystem.used.pct들의 평균	%
Filesystem Usage [Inode]	inode 사용률	%
Filesystem Usage [Max]	개별 filesystem.used.pct 중에 max	%
Filesystem Usage [Min]	개별 filesystem.used.pct 중에 min	%
Filesystem Usage [Total]	-	%
Filesystem Used	사용한 디스크 공간 (bytes)	bytes
Filesystem Used [Inode]	inode 사용량	bytes
Memory Free	사용 가능한 총 메모리 양 (bytes). 시스템 캐시 및 버퍼에서 사용하는 메모리는 포함하지 않음 (system.memory.actual.free 참조).	bytes
Memory Free [Actual]	실제 사용가능한 memory (bytes). OS 에 따라 계산방식이 다르며, Linux 에서는 /proc/ meminfo 에서 MemAvailable 이거나 meminfo 를 사용할 수 없는 경우에는 사용 가능한 메모리와 캐시 및 버퍼에서 계산함. OSX 에서는 사용가능한 메모리와 비활성 메모리의 합계. Windows 에서는 system.memory.free 와 같은 값.	bytes
Memory Free [Swap]	사용가능한 swap memory.	bytes
Memory Total	총 memory	bytes
Memory Total [Swap]	총 swap memory.	bytes
Memory Usage	사용한 memory의 백분율 ((Memory Total - Memory Free) / Memory Total) * 100 Memory Free: 현재 사용 가능한 여유 메모리의 용량	%
Memory Usage [Actual]	실제 사용된 memory의 백분율 ((Memory Total - Mememory Available) / Memory Total) * 100 또는 ((Memory Total - (Memmory Free + Buffers + Cached) / MemTotal) * 100 Memory Free: 현재 사용 가능한 여유 메모리의 용량 Buffers: 버퍼에 사용된 메모리의 용량 Cached: 페이지 캐시에 사용된 메모리의 용량	%
Memory Usage [Cache Swap]	cache 된 swap 사용률	%
Memory Usage [Swap]	사용한 swap memory의 백분율	%
Memory Used	사용한 memory	bytes
Memory Used [Actual]	실제 사용된 memory (bytes). 총 memory 에서 사용된 memory 를 뺀 값. 사용가능 메모리는 OS 마다 다르게 계산됨 (system.actual.free 참조)	bytes
Memory Used [Swap]	사용한 swap memory.	bytes
Collisions	네트워크 충돌	cnt
Network In Bytes	수신된 byte 수	bytes
Network In Bytes [Delta Avg]	개별 network들의 system.network.in.bytes_delta의 평균	bytes
Network In Bytes [Delta Max]	개별 network들의 system.network.in.bytes_delta의 최대	bytes
Network In Bytes [Delta Min]	개별 network들의 system.network.in.bytes_delta의 최소	bytes
Network In Bytes [Delta Sum]	개별 network 들의 system.network.in.bytes_delta의 합	bytes
Network In Bytes [Delta]	수신된 byte 수의 delta	bytes
Network In Dropped	들어온 packet 중 삭제된 패킷의 수	cnt
Network In Errors	수신 중의 error 수	cnt
Network In Packets	수신된 packet 수	cnt
Network In Packets [Delta Avg]	개별 network들의 system.network.in.packets_delta의 평균	cnt
Network In Packets [Delta Max]	개별 network들의 system.network.in.packets_delta의 최대	cnt
Network In Packets [Delta Min]	개별 network들의 system.network.in.packets_delta의 최소	cnt
Network In Packets [Delta Sum]	개별 network들의 system.network.in.packets_delta의 합	cnt
Network In Packets [Delta]	수신된 packet 수의 delta	cnt
Network Out Bytes	송신된 byte 수	bytes
Network Out Bytes [Delta Avg]	개별 network들의 system.network.out.bytes_delta의 평균	bytes
Network Out Bytes [Delta Max]	개별 network들의 system.network.out.bytes_delta의 최대	bytes
Network Out Bytes [Delta Min]	개별 network들의 system.network.out.bytes_delta의 최소	bytes
Network Out Bytes [Delta Sum]	개별 network들의 system.network.out.bytes_delta의 합	bytes
Network Out Bytes [Delta]	송신된 byte 수의 delta	bytes
Network Out Dropped	나가는 packet 중 삭제된 packet 수. 이 값은 운영체제에서 보고되지 않으므로 Darwin 과 BSD에서 항상 0임	cnt
Network Out Errors	송신 중의 error 수	cnt
Network Out Packets	송신된 packet 수	cnt
Network Out Packets [Delta Avg]	개별 network들의 system.network.out.packets_delta의 평균	cnt
Network Out Packets [Delta Max]	개별 network들의 system.network.out.packets_delta의 최대	cnt
Network Out Packets [Delta Min]	개별 network들의 system.network.out.packets_delta의 최소	cnt
Network Out Packets [Delta Sum]	개별 network들의 system.network.out.packets_delta의 합	cnt
Network Out Packets [Delta]	송신된 packet 수의 delta	cnt
Open Connections [TCP]	열려 있는 모든 TCP 연결	cnt
Open Connections [UDP]	열려 있는 모든 UDP 연결	cnt
Port Usage	접속가능한 port 사용률	%
SYN Sent Sockets	SYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시)	cnt
Kernel PID Max	kernel.pid_max 값	cnt
Kernel Thread Max	kernel.threads-max 값	cnt
Process CPU Usage	마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율. 이 값은 Unix 시스템에서 top 명령으로 표시되는 프로세스의 %CPU 값과 유사	%
Process CPU Usage/Core	마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율. 코어 수로 정규화되며 0~100% 사이의 값	%
Process Memory Usage	main memory (RAM) 에서 프로세스가 차지하는 비율	%
Process Memory Used	Resident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양. Windows 에서는 current working set 사이즈	bytes
Process PID	프로세스 pid	PID
Process PPID	부모 프로세스의 pid	PID
Processes [Dead]	dead processes 수	cnt
Processes [Idle]	idle processes 수	cnt
Processes [Running]	running processes 수	cnt
Processes [Sleeping]	sleeping processes 수	cnt
Processes [Stopped]	stopped processes 수	cnt
Processes [Total]	총 processes 수	cnt
Processes [Unknown]	상태를 검색할 수 없거나 알 수 없는 processes 수	cnt
Processes [Zombie]	좀비 processes 수	cnt
Running Process Usage	process 사용률	%
Running Processes	running processes 수	cnt
Running Thread Usage	thread 사용률	%
Running Threads	running processes 에서 실행중인 thread 수 총합	cnt
Instance Status	인스턴스 상태	state
Context Switches	context switch 수 (초당)	cnt
Load/Core [1 min]	마지막 1 분 동안의 로드를 코어 수로 나눈 값	cnt
Load/Core [15 min]	마지막 15 분 동안의 로드를 코어 수로 나눈 값	cnt
Load/Core [5 min]	마지막 5 분 동안의 로드를 코어 수로 나눈 값	cnt
Multipaths [Active]	외장 스토리지 연결 path status = active 카운트	cnt
Multipaths [Failed]	외장 스토리지 연결 path status = failed 카운트	cnt
Multipaths [Faulty]	외장 스토리지 연결 path status = faulty 카운트	cnt
NTP Offset	last sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이)	num
Run Queue Length	실행 대기열 길이	num
Uptime	OS 가동시간(uptime). (milliseconds)	ms
Context Switchies	CPU context switch 수 (초당)	cnt
Disk Read Bytes [Sec]	windows logical 디스크에서 1초동안 읽어들인 바이트 수	cnt
Disk Read Time [Avg]	데이터 읽기 평균 시간 (초)	sec
Disk Transfer Time [Avg]	디스크 average wait time	sec
Disk Usage	디스크 사용률	%
Disk Write Bytes [Sec]	windows logical 디스크에서 1초동안 쓰여진 바이트 수	cnt
Disk Write Time [Avg]	데이터 쓰기 평균 시간 (초)	sec
Pagingfile Usage	paging file 사용률	%
Pool Used [Non Paged]	커널 메모리 중 Nonpaged Pool 사용량	bytes
Pool Used [Paged]	커널 메모리 중 Paged Pool 사용량	bytes
Process [Running]	현재 동작 중인 프로세스 수	cnt
Threads [Running]	현재 동작 중인 thread 수	cnt
Threads [Waiting]	프로세서 시간을 기다리는 thread 수	cnt

표. Multi-node GPU Cluster [Node] 추가 모니터링 지표 (Agent 설치 필요)