Overview

서비스 개요

Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.

제공 기능

Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.

  • 자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
  • 네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
  • 스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
  • 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
  • 모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.

구성 요소

Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.

GPU(H100)

GPU(Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.

다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.

구분H100 Type
상품 제공 방식Bare Metal
GPU ArchitectureNNVIDIA Hopper
GPU Memory80GB
GPU Transistors80 billion 4N TSMC
GPU Tensor Performance(FP16기준)989.4 TFLOPs, 1,978.9 TFLOPs*
GPU Memory Bandwidth3,352 GB/sec HBM3
GPU CUDA Cores16,896 Cores
GPU Tensor Cores528(4th Generation)
NVLink 성능NVLink 4
총 NVLink 대역폭900 GB/s
NVLink Signaling Rate25 Gbps (x18)
NVSwitch 성능NVSwitch 3
NVSwitch GPU간 대역폭900 GB/s
총 NVSwitch 집계 대역폭7.2TB/s
  • With Sparsity
표. GPU Type 사양

OS 및 GPU 드라이버 버전

Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.

OSOS 버전GPU 드라이버버전
Ubuntu22.04535.86.10, 535.183.06
표. Multi-node GPU Cluster OS 및 GPU 드라이버 버전

서버 타입

Multi-node GPU Cluster에서 제공하는 서버 타입은 다음과 같습니다. Multi-node GPU Cluster에서 제공하는 서버 타입에 대한 자세한 설명은 Multi-node GPU Cluster 서버 타입을 참고하세요.

g2c96h8_metal
구분예시상세 설명
서버 세대g2제공하는 서버 세대
  • g2: g는 GPU 서버를 의미하고, 2는 세대를 의미
CPUc96Core 개수
  • c96: 할당 Core는 물리 코어
GPUh8GPU 종류 및 수량
  • h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미
표. Multi-node GPU Cluster 서버 타입 형식

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.

서비스 카테고리서비스상세 설명
NetworkingVPC클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
표. Multi-node GPU Cluster 선행 서비스

1 - 서버 타입

Multi-node GPU Cluster 서버 타입

Multi-node GPU Cluster는 제공하는 GPU Type에 따라 구분되며, GPU Node를 생성할 때 선택하는 서버 타입에 따라 Multi-node GPU Cluster에 사용되는 GPU가 결정됩니다. Multi-node GPU Cluster에서 실행하려는 애플리케이션의 사양에 따라 서버 타입을 선택해주세요.

Multi-node GPU Cluster에서 지원하는 서버 타입은 다음 형식과 같습니다.

g2c96h8_metal
구분예시상세 설명
서버 세대g2제공하는 서버 세대
  • g2
    • g는 GPU 서버 사양을 의미
    • 2은 세대를 의미
CPUc96Core 개수
  • c96: 할당 Core는 물리 코어
GPUh8GPU 종류 및 수량
  • h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미
표. Multi-node GPU Cluster 서버 타입 형식

g2 서버 타입

g2 서버 타입은 NVIDIA H100 Tensor Core GPU를 사용하는 GPU Bare Metal Serve로 대규모 고성능 AI 연산에 적합합니다.

  • 최대 8개의 NVIDIA H100 Tensor Core GPU 제공
  • GPU 당 16,896개의 CUDA 코어와 528 Tensor 코어 탑재
  • 최대 96개의 vCPU 및 1,920 GB의 메모리를 지원
  • 최대 100 Gbps의 네트워킹 속도
  • 900GB/s GPU와 NVIDIA NVSwitch P2P 통신
서버 타입GPUGPU MemoryCPU(Core)MemoryDiskGPU P2P
g2c96h8_metalH100640 GB96 vCore2 TBSSD(OS) 960 GB * 2, NVMeSSD 3.84 TB * 4900GB/s NVSwitch
표. Multi-node GPU Cluster 서버 타입 사양 > H100 서버 타입

2 - 모니터링 지표

Multi-node GPU Cluster 모니터링 지표

아래 표는 Cloud Monitoring을 통해 확인할 수 있는 Multi-node GPU Cluster의 모니터링 지표를 나타냅니다.

안내
Multi-node GPU Cluster 는 사용자가 직접 가이드를 통해 Agent를 설치해야 모니터링 지표를 조회할 수 있습니다. 안정적인 서비스를 사용하기에 앞서 Agent 를 반드시 설치해주세요. Agent 설치 방법 및 자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.

Multi-node GPU Cluster [Cluster]

성능 항목상세 설명단위
Memory Total [Basic]사용할 수 있는 메모리의 bytesbytes
Memory Used [Basic]현재 사용되는 메모리의 bytesbytes
Memory Swap In [Basic]교체된 메모리의 bytesbytes
Memory Swap Out [Basic]교체된 메모리의 bytesbytes
Memory Free [Basic]사용하지 않은 메모리의 bytesbytes
Disk Read Bytes [Basic]읽기 bytesbytes
Disk Read Requests [Basic]읽기 요청 수cnt
Disk Write Bytes [Basic]쓰기bytesbytes
Disk Write Requests [Basic]쓰기 요청 수cnt
CPU Usage [Basic]1분간 평균 시스템 CPU 사용률%
Instance State [Basic]Instance 상태state
Network In Bytes [Basic]수신 bytesbytes
Network In Dropped [Basic]수신 패킷 드롭cnt
Network In Packets [Basic]수신 패킷 수cnt
Network Out Bytes [Basic]송신 bytesbytes
Network Out Dropped [Basic]송신 패킷 드롭cnt
Network Out Packets [Basic]송신 패킷 수cnt
표. Multi-node GPU Cluster [Cluster] 모니터링 지표(기본 제공)
성능 항목상세 설명단위
Cluster GPU CountCluster 내 GPU Count SUM
  • 클러스터 내 노드 GPU Count의 Sum값: 같은 GPU CLUSTER 내 노드끼리 각 노드의 GPU Count 의 합계 계산
cnt
Cluster GPU Count In UseCluster 내 Job이 수행중인 GPU 수
  • 클러스터 내 Process에서 사용중인 GPU 수: 같은 GPU CLUSTER 내 노드들의 nvidia-smi 결과의 하단 ‘Processes:’ 정보를 파싱하여 프로세스가 물고있는 GPU 갯수 합계
cnt
Cluster GPU UsageCluster 내 GPU Utilization AVG
  • 클러스터 내 노드 GPU utilization Average값 : 같은 GPU CLUSTER 내 노드끼리 각 노드의 GPU utilization 값 평균 계산
%
Cluster GPU Memory Usage [Avg]Cluster 내 GPU Memory Uti. AVG
  • 클러스터 내 노드 Memory utilization Average값: 같은 GPU CLUSTER 내 노드끼리 각 노드의 Memory utilization 값 평균 계산
%
표. Multi-node GPU Cluster [Cluster] 추가 모니터링 지표(Agent 설치 필요)

Multi-node GPU Cluster [Node]

성능 항목상세 설명단위
Memory Total [Basic]사용할 수 있는 메모리의 bytesbytes
Memory Used [Basic]현재 사용되는 메모리의 bytesbytes
Memory Swap In [Basic]교체된 메모리의 bytesbytes
Memory Swap Out [Basic]교체된 메모리의 bytesbytes
Memory Free [Basic]사용하지 않은 메모리의 bytesbytes
Disk Read Bytes [Basic]읽기 bytesbytes
Disk Read Requests [Basic]읽기 요청 수cnt
Disk Write Bytes [Basic]쓰기bytesbytes
Disk Write Requests [Basic]쓰기 요청 수cnt
CPU Usage [Basic]1분간 평균 시스템 CPU 사용률%
Instance State [Basic]Instance 상태state
Network In Bytes [Basic]수신 bytesbytes
Network In Dropped [Basic]수신 패킷 드롭cnt
Network In Packets [Basic]수신 패킷 수cnt
Network Out Bytes [Basic]송신 bytesbytes
Network Out Dropped [Basic]송신 패킷 드롭cnt
Network Out Packets [Basic]송신 패킷 수cnt
표. Multi-node GPU Cluster [Node] 모니터링 지표(기본 제공)
성능 항목상세 설명단위
GPU Countgpu 개수cnt
GPU Temperaturegpu 온도
GPU Usageutilization%
GPU Usage [Avg]GPU 전체 평균 사용율(%)%
GPU Power CapGPU의 최대 전력 용량W
GPU Power UsageGPU의 현재 전력 사용량W
GPU Memory Usage [Avg]GPU Memory Uti. AVG%
GPU Count in useNode 내 Job이 수행중인 GPU 수cnt
Execution Status for nvidia-sminvidia-smi 명령어 실행결과status
Core Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)%
Core Usage [System]커널 공간에서 소요된 CPU 시간의 비율%
Core Usage [User]사용자 공간에서 소요된 CPU 시간의 비율%
CPU Cores호스트에 있는 CPU 코어의 수입니다. 정규화되지 않은 비율의 최대 값은 코어의 100%*입니다. 정규화되지 않은 비율에는 이 값이 이미 반영되어 있으며 최대 값은 코어의 100%*입니다.cnt
CPU Usage [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%)%
CPU Usage [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage [System]커널에서 사용한 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%)%
CPU Usage [User]사용자 영역에서 사용한 CPU 시간의 백분율. (core 4개 모두를 100% 사용하는 경우 400%)%
CPU Usage/Core [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)%
CPU Usage/Core [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage/Core [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage/Core [System]커널에서 사용한 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)%
CPU Usage/Core [User]사용자 영역에서 사용한 CPU 시간의 백분율. (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%)%
Disk CPU Usage [IO Request]장치에 대한 입출력 요청이 실행된 CPU 시간의 비율입니다(장치의 대역폭 활용도). 이 값이 100%에 가까우면 장치 포화 상태가 됩니다.%
Disk Queue Size [Avg]장치에 대해 실행된 요청의 평균 대기열 길이입니다.num
Disk Read Bytes장치에서 읽는 초당 바이트 수입니다.bytes
Disk Read Bytes [Delta Avg]개별 disk들의 system.diskio.read.bytes_delta의 평균bytes
Disk Read Bytes [Delta Max]개별 disk들의 system.diskio.read.bytes_delta의 최대bytes
Disk Read Bytes [Delta Min]개별 disk들의 system.diskio.read.bytes_delta의 최소bytes
Disk Read Bytes [Delta Sum]개별 disk들의 system.diskio.read.bytes_delta의 합bytes
Disk Read Bytes [Delta]개별 disk의 system.diskio.read.bytes 값의 deltabytes
Disk Read Bytes [Success]성공적으로 읽은 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 읽어들인 섹터 수에 512를 곱한 값bytes
Disk Read Requests1초동안 디스크 디바이스의 읽기 요청 수cnt
Disk Read Requests [Delta Avg]개별 disk들의 system.diskio.read.count_delta의 평균cnt
Disk Read Requests [Delta Max]개별 disk들의 system.diskio.read.count_delta의 최대cnt
Disk Read Requests [Delta Min]개별 disk들의 system.diskio.read.count_delta의 최소cnt
Disk Read Requests [Delta Sum]개별 disk들의 system.diskio.read.count_delta의 합cnt
Disk Read Requests [Success Delta]개별 disk의 system.diskio.read.count 의 deltacnt
Disk Read Requests [Success]성공적으로 완료된 총 읽기 수cnt
Disk Request Size [Avg]장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다.num
Disk Service Time [Avg]장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다.ms
Disk Wait Time [Avg]지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다.ms
Disk Wait Time [Read]디스크 평균 대기 시간ms
Disk Wait Time [Write]디스크 평균 대기 시간ms
Disk Write Bytes [Delta Avg]개별 disk들의 system.diskio.write.bytes_delta의 평균bytes
Disk Write Bytes [Delta Max]개별 disk들의 system.diskio.write.bytes_delta의 최대bytes
Disk Write Bytes [Delta Min]개별 disk들의 system.diskio.write.bytes_delta의 최소bytes
Disk Write Bytes [Delta Sum]개별 disk들의 system.diskio.write.bytes_delta의 합bytes
Disk Write Bytes [Delta]개별 disk의 system.diskio.write.bytes 값의 deltabytes
Disk Write Bytes [Success]성공적으로 쓰여진 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 쓰여진 섹터 수에 512를 곱한 값bytes
Disk Write Requests1초동안 디스크 디바이스의 쓰기 요청 수cnt
Disk Write Requests [Delta Avg]개별 disk들의 system.diskio.write.count_delta의 평균cnt
Disk Write Requests [Delta Max]개별 disk들의 system.diskio.write.count_delta의 최대cnt
Disk Write Requests [Delta Min]개별 disk들의 system.diskio.write.count_delta의 최소cnt
Disk Write Requests [Delta Sum]개별 disk들의 system.diskio.write.count_delta의 합cnt
Disk Write Requests [Success Delta]개별 disk의 system.diskio.write.count 의 deltacnt
Disk Write Requests [Success]성공적으로 완료된 총 쓰기 수cnt
Disk Writes Bytes장치에 쓰는 초당 바이트 수입니다.bytes
Filesystem Hang Checkfilesystem(local/NFS) hang 체크 (정상:1, 비정상:0)status
Filesystem Nodes파일 시스템의 총 파일 노드 수입니다.cnt
Filesystem Nodes [Free]파일 시스템의 총 가용 파일 노드 수입니다.cnt
Filesystem Size [Available]권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)입니다.bytes
Filesystem Size [Free]사용 가능한 디스크 공간 (bytes)bytes
Filesystem Size [Total]총 디스크 공간 (bytes)bytes
Filesystem Usage사용한 디스크 공간 백분율%
Filesystem Usage [Avg]개별 filesystem.used.pct들의 평균%
Filesystem Usage [Inode]inode 사용률%
Filesystem Usage [Max]개별 filesystem.used.pct 중에 max%
Filesystem Usage [Min]개별 filesystem.used.pct 중에 min%
Filesystem Usage [Total]-%
Filesystem Used사용한 디스크 공간 (bytes)bytes
Filesystem Used [Inode]inode 사용량bytes
Memory Free사용 가능한 총 메모리 양 (bytes). 시스템 캐시 및 버퍼에서 사용하는 메모리는 포함하지 않음 (system.memory.actual.free 참조).bytes
Memory Free [Actual]실제 사용가능한 memory (bytes). OS 에 따라 계산방식이 다르며, Linux 에서는 /proc/ meminfo 에서 MemAvailable 이거나 meminfo 를 사용할 수 없는 경우에는 사용 가능한 메모리와 캐시 및 버퍼에서 계산함. OSX 에서는 사용가능한 메모리와 비활성 메모리의 합계. Windows 에서는 system.memory.free 와 같은 값.bytes
Memory Free [Swap]사용가능한 swap memory.bytes
Memory Total총 memorybytes
Memory Total [Swap]총 swap memory.bytes
Memory Usage사용한 memory의 백분율
  • ((Memory Total - Memory Free) / Memory Total) * 100
  • Memory Free: 현재 사용 가능한 여유 메모리의 용량
%
Memory Usage [Actual]실제 사용된 memory의 백분율
  • ((Memory Total - Mememory Available) / Memory Total) * 100 또는 ((Memory Total - (Memmory Free + Buffers + Cached) / MemTotal) * 100
  • Memory Free: 현재 사용 가능한 여유 메모리의 용량
  • Buffers: 버퍼에 사용된 메모리의 용량
  • Cached: 페이지 캐시에 사용된 메모리의 용량
%
Memory Usage [Cache Swap]cache 된 swap 사용률%
Memory Usage [Swap]사용한 swap memory의 백분율%
Memory Used사용한 memorybytes
Memory Used [Actual]실제 사용된 memory (bytes). 총 memory 에서 사용된 memory 를 뺀 값. 사용가능 메모리는 OS 마다 다르게 계산됨 (system.actual.free 참조)bytes
Memory Used [Swap]사용한 swap memory.bytes
Collisions네트워크 충돌cnt
Network In Bytes수신된 byte 수bytes
Network In Bytes [Delta Avg]개별 network들의 system.network.in.bytes_delta의 평균bytes
Network In Bytes [Delta Max]개별 network들의 system.network.in.bytes_delta의 최대bytes
Network In Bytes [Delta Min]개별 network들의 system.network.in.bytes_delta의 최소bytes
Network In Bytes [Delta Sum]개별 network 들의 system.network.in.bytes_delta의 합bytes
Network In Bytes [Delta]수신된 byte 수의 deltabytes
Network In Dropped들어온 packet 중 삭제된 패킷의 수cnt
Network In Errors수신 중의 error 수cnt
Network In Packets수신된 packet 수cnt
Network In Packets [Delta Avg]개별 network들의 system.network.in.packets_delta의 평균cnt
Network In Packets [Delta Max]개별 network들의 system.network.in.packets_delta의 최대cnt
Network In Packets [Delta Min]개별 network들의 system.network.in.packets_delta의 최소cnt
Network In Packets [Delta Sum]개별 network들의 system.network.in.packets_delta의 합cnt
Network In Packets [Delta]수신된 packet 수의 deltacnt
Network Out Bytes송신된 byte 수bytes
Network Out Bytes [Delta Avg]개별 network들의 system.network.out.bytes_delta의 평균bytes
Network Out Bytes [Delta Max]개별 network들의 system.network.out.bytes_delta의 최대bytes
Network Out Bytes [Delta Min]개별 network들의 system.network.out.bytes_delta의 최소bytes
Network Out Bytes [Delta Sum]개별 network들의 system.network.out.bytes_delta의 합bytes
Network Out Bytes [Delta]송신된 byte 수의 deltabytes
Network Out Dropped나가는 packet 중 삭제된 packet 수. 이 값은 운영체제에서 보고되지 않으므로 Darwin 과 BSD에서 항상 0임cnt
Network Out Errors송신 중의 error 수cnt
Network Out Packets송신된 packet 수cnt
Network Out Packets [Delta Avg]개별 network들의 system.network.out.packets_delta의 평균cnt
Network Out Packets [Delta Max]개별 network들의 system.network.out.packets_delta의 최대cnt
Network Out Packets [Delta Min]개별 network들의 system.network.out.packets_delta의 최소cnt
Network Out Packets [Delta Sum]개별 network들의 system.network.out.packets_delta의 합cnt
Network Out Packets [Delta]송신된 packet 수의 deltacnt
Open Connections [TCP]열려 있는 모든 TCP 연결cnt
Open Connections [UDP]열려 있는 모든 UDP 연결cnt
Port Usage접속가능한 port 사용률%
SYN Sent SocketsSYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시)cnt
Kernel PID Maxkernel.pid_max 값cnt
Kernel Thread Maxkernel.threads-max 값cnt
Process CPU Usage마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율. 이 값은 Unix 시스템에서 top 명령으로 표시되는 프로세스의 %CPU 값과 유사%
Process CPU Usage/Core마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율. 코어 수로 정규화되며 0~100% 사이의 값%
Process Memory Usagemain memory (RAM) 에서 프로세스가 차지하는 비율%
Process Memory UsedResident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양. Windows 에서는 current working set 사이즈bytes
Process PID프로세스 pidPID
Process PPID부모 프로세스의 pidPID
Processes [Dead]dead processes 수cnt
Processes [Idle]idle processes 수cnt
Processes [Running]running processes 수cnt
Processes [Sleeping]sleeping processes 수cnt
Processes [Stopped]stopped processes 수cnt
Processes [Total]총 processes 수cnt
Processes [Unknown]상태를 검색할 수 없거나 알 수 없는 processes 수cnt
Processes [Zombie]좀비 processes 수cnt
Running Process Usageprocess 사용률%
Running Processesrunning processes 수cnt
Running Thread Usagethread 사용률%
Running Threadsrunning processes 에서 실행중인 thread 수 총합cnt
Instance Status인스턴스 상태state
Context Switchescontext switch 수 (초당)cnt
Load/Core [1 min]마지막 1 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [15 min]마지막 15 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [5 min]마지막 5 분 동안의 로드를 코어 수로 나눈 값cnt
Multipaths [Active]외장 스토리지 연결 path status = active 카운트cnt
Multipaths [Failed]외장 스토리지 연결 path status = failed 카운트cnt
Multipaths [Faulty]외장 스토리지 연결 path status = faulty 카운트cnt
NTP Offsetlast sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이)num
Run Queue Length실행 대기열 길이num
UptimeOS 가동시간(uptime). (milliseconds)ms
Context SwitchiesCPU context switch 수 (초당)cnt
Disk Read Bytes [Sec]windows logical 디스크에서 1초동안 읽어들인 바이트 수cnt
Disk Read Time [Avg]데이터 읽기 평균 시간 (초)sec
Disk Transfer Time [Avg]디스크 average wait timesec
Disk Usage디스크 사용률%
Disk Write Bytes [Sec]windows logical 디스크에서 1초동안 쓰여진 바이트 수cnt
Disk Write Time [Avg]데이터 쓰기 평균 시간 (초)sec
Pagingfile Usagepaging file 사용률%
Pool Used [Non Paged]커널 메모리 중 Nonpaged Pool 사용량bytes
Pool Used [Paged]커널 메모리 중 Paged Pool 사용량bytes
Process [Running]현재 동작 중인 프로세스 수cnt
Threads [Running]현재 동작 중인 thread 수cnt
Threads [Waiting]프로세서 시간을 기다리는 thread 수cnt
표. Multi-node GPU Cluster [Node] 추가 모니터링 지표 (Agent 설치 필요)