모니터링 지표
Multi-node GPU Cluster 모니터링 지표
아래 표는 Cloud Monitoring을 통해 확인할 수 있는 Multi-node GPU Cluster의 모니터링 지표를 나타냅니다.
안내
Multi-node GPU Cluster 는 사용자가 직접 가이드를 통해 Agent를 설치해야 모니터링 지표를 조회할 수 있습니다. 안정적인 서비스를 사용하기에 앞서 Agent 를 반드시 설치해주세요. Agent 설치 방법 및 자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.
Multi-node GPU Cluster [Cluster]
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Memory Total [Basic] | 사용할 수 있는 메모리의 bytes | bytes |
| Memory Used [Basic] | 현재 사용되는 메모리의 bytes | bytes |
| Memory Swap In [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Swap Out [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Free [Basic] | 사용하지 않은 메모리의 bytes | bytes |
| Disk Read Bytes [Basic] | 읽기 bytes | bytes |
| Disk Read Requests [Basic] | 읽기 요청 수 | cnt |
| Disk Write Bytes [Basic] | 쓰기bytes | bytes |
| Disk Write Requests [Basic] | 쓰기 요청 수 | cnt |
| CPU Usage [Basic] | 1분간 평균 시스템 CPU 사용률 | % |
| Instance State [Basic] | Instance 상태 | state |
| Network In Bytes [Basic] | 수신 bytes | bytes |
| Network In Dropped [Basic] | 수신 패킷 드롭 | cnt |
| Network In Packets [Basic] | 수신 패킷 수 | cnt |
| Network Out Bytes [Basic] | 송신 bytes | bytes |
| Network Out Dropped [Basic] | 송신 패킷 드롭 | cnt |
| Network Out Packets [Basic] | 송신 패킷 수 | cnt |
표. Multi-node GPU Cluster [Cluster] 모니터링 지표(기본 제공)
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Cluster GPU Count | Cluster 내 GPU Count SUM
| cnt |
| Cluster GPU Count In Use | Cluster 내 Job이 수행중인 GPU 수
| cnt |
| Cluster GPU Usage | Cluster 내 GPU Utilization AVG
| % |
| Cluster GPU Memory Usage [Avg] | Cluster 내 GPU Memory Uti. AVG
| % |
표. Multi-node GPU Cluster [Cluster] 추가 모니터링 지표(Agent 설치 필요)
Multi-node GPU Cluster [Node]
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Memory Total [Basic] | 사용할 수 있는 메모리의 bytes | bytes |
| Memory Used [Basic] | 현재 사용되는 메모리의 bytes | bytes |
| Memory Swap In [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Swap Out [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Free [Basic] | 사용하지 않은 메모리의 bytes | bytes |
| Disk Read Bytes [Basic] | 읽기 bytes | bytes |
| Disk Read Requests [Basic] | 읽기 요청 수 | cnt |
| Disk Write Bytes [Basic] | 쓰기bytes | bytes |
| Disk Write Requests [Basic] | 쓰기 요청 수 | cnt |
| CPU Usage [Basic] | 1분간 평균 시스템 CPU 사용률 | % |
| Instance State [Basic] | Instance 상태 | state |
| Network In Bytes [Basic] | 수신 bytes | bytes |
| Network In Dropped [Basic] | 수신 패킷 드롭 | cnt |
| Network In Packets [Basic] | 수신 패킷 수 | cnt |
| Network Out Bytes [Basic] | 송신 bytes | bytes |
| Network Out Dropped [Basic] | 송신 패킷 드롭 | cnt |
| Network Out Packets [Basic] | 송신 패킷 수 | cnt |
표. Multi-node GPU Cluster [Node] 모니터링 지표(기본 제공)
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| GPU Count | gpu 개수 | cnt |
| GPU Temperature | gpu 온도 | ℃ |
| GPU Usage | utilization | % |
| GPU Usage [Avg] | GPU 전체 평균 사용율(%) | % |
| GPU Power Cap | GPU의 최대 전력 용량 | W |
| GPU Power Usage | GPU의 현재 전력 사용량 | W |
| GPU Memory Usage [Avg] | GPU Memory Uti. AVG | % |
| GPU Count in use | Node 내 Job이 수행중인 GPU 수 | cnt |
| Execution Status for nvidia-smi | nvidia-smi 명령어 실행결과 | status |
| Core Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기) | % |
| Core Usage [System] | 커널 공간에서 소요된 CPU 시간의 비율 | % |
| Core Usage [User] | 사용자 공간에서 소요된 CPU 시간의 비율 | % |
| CPU Cores | 호스트에 있는 CPU 코어의 수입니다. 정규화되지 않은 비율의 최대 값은 코어의 100%*입니다. 정규화되지 않은 비율에는 이 값이 이미 반영되어 있으며 최대 값은 코어의 100%*입니다. | cnt |
| CPU Usage [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%) | % |
| CPU Usage [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage [System] | 커널에서 사용한 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%) | % |
| CPU Usage [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. (core 4개 모두를 100% 사용하는 경우 400%) | % |
| CPU Usage/Core [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| CPU Usage/Core [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage/Core [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage/Core [System] | 커널에서 사용한 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| CPU Usage/Core [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| Disk CPU Usage [IO Request] | 장치에 대한 입출력 요청이 실행된 CPU 시간의 비율입니다(장치의 대역폭 활용도). 이 값이 100%에 가까우면 장치 포화 상태가 됩니다. | % |
| Disk Queue Size [Avg] | 장치에 대해 실행된 요청의 평균 대기열 길이입니다. | num |
| Disk Read Bytes | 장치에서 읽는 초당 바이트 수입니다. | bytes |
| Disk Read Bytes [Delta Avg] | 개별 disk들의 system.diskio.read.bytes_delta의 평균 | bytes |
| Disk Read Bytes [Delta Max] | 개별 disk들의 system.diskio.read.bytes_delta의 최대 | bytes |
| Disk Read Bytes [Delta Min] | 개별 disk들의 system.diskio.read.bytes_delta의 최소 | bytes |
| Disk Read Bytes [Delta Sum] | 개별 disk들의 system.diskio.read.bytes_delta의 합 | bytes |
| Disk Read Bytes [Delta] | 개별 disk의 system.diskio.read.bytes 값의 delta | bytes |
| Disk Read Bytes [Success] | 성공적으로 읽은 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 읽어들인 섹터 수에 512를 곱한 값 | bytes |
| Disk Read Requests | 1초동안 디스크 디바이스의 읽기 요청 수 | cnt |
| Disk Read Requests [Delta Avg] | 개별 disk들의 system.diskio.read.count_delta의 평균 | cnt |
| Disk Read Requests [Delta Max] | 개별 disk들의 system.diskio.read.count_delta의 최대 | cnt |
| Disk Read Requests [Delta Min] | 개별 disk들의 system.diskio.read.count_delta의 최소 | cnt |
| Disk Read Requests [Delta Sum] | 개별 disk들의 system.diskio.read.count_delta의 합 | cnt |
| Disk Read Requests [Success Delta] | 개별 disk의 system.diskio.read.count 의 delta | cnt |
| Disk Read Requests [Success] | 성공적으로 완료된 총 읽기 수 | cnt |
| Disk Request Size [Avg] | 장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다. | num |
| Disk Service Time [Avg] | 장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다. | ms |
| Disk Wait Time [Avg] | 지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다. | ms |
| Disk Wait Time [Read] | 디스크 평균 대기 시간 | ms |
| Disk Wait Time [Write] | 디스크 평균 대기 시간 | ms |
| Disk Write Bytes [Delta Avg] | 개별 disk들의 system.diskio.write.bytes_delta의 평균 | bytes |
| Disk Write Bytes [Delta Max] | 개별 disk들의 system.diskio.write.bytes_delta의 최대 | bytes |
| Disk Write Bytes [Delta Min] | 개별 disk들의 system.diskio.write.bytes_delta의 최소 | bytes |
| Disk Write Bytes [Delta Sum] | 개별 disk들의 system.diskio.write.bytes_delta의 합 | bytes |
| Disk Write Bytes [Delta] | 개별 disk의 system.diskio.write.bytes 값의 delta | bytes |
| Disk Write Bytes [Success] | 성공적으로 쓰여진 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 쓰여진 섹터 수에 512를 곱한 값 | bytes |
| Disk Write Requests | 1초동안 디스크 디바이스의 쓰기 요청 수 | cnt |
| Disk Write Requests [Delta Avg] | 개별 disk들의 system.diskio.write.count_delta의 평균 | cnt |
| Disk Write Requests [Delta Max] | 개별 disk들의 system.diskio.write.count_delta의 최대 | cnt |
| Disk Write Requests [Delta Min] | 개별 disk들의 system.diskio.write.count_delta의 최소 | cnt |
| Disk Write Requests [Delta Sum] | 개별 disk들의 system.diskio.write.count_delta의 합 | cnt |
| Disk Write Requests [Success Delta] | 개별 disk의 system.diskio.write.count 의 delta | cnt |
| Disk Write Requests [Success] | 성공적으로 완료된 총 쓰기 수 | cnt |
| Disk Writes Bytes | 장치에 쓰는 초당 바이트 수입니다. | bytes |
| Filesystem Hang Check | filesystem(local/NFS) hang 체크 (정상:1, 비정상:0) | status |
| Filesystem Nodes | 파일 시스템의 총 파일 노드 수입니다. | cnt |
| Filesystem Nodes [Free] | 파일 시스템의 총 가용 파일 노드 수입니다. | cnt |
| Filesystem Size [Available] | 권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)입니다. | bytes |
| Filesystem Size [Free] | 사용 가능한 디스크 공간 (bytes) | bytes |
| Filesystem Size [Total] | 총 디스크 공간 (bytes) | bytes |
| Filesystem Usage | 사용한 디스크 공간 백분율 | % |
| Filesystem Usage [Avg] | 개별 filesystem.used.pct들의 평균 | % |
| Filesystem Usage [Inode] | inode 사용률 | % |
| Filesystem Usage [Max] | 개별 filesystem.used.pct 중에 max | % |
| Filesystem Usage [Min] | 개별 filesystem.used.pct 중에 min | % |
| Filesystem Usage [Total] | - | % |
| Filesystem Used | 사용한 디스크 공간 (bytes) | bytes |
| Filesystem Used [Inode] | inode 사용량 | bytes |
| Memory Free | 사용 가능한 총 메모리 양 (bytes). 시스템 캐시 및 버퍼에서 사용하는 메모리는 포함하지 않음 (system.memory.actual.free 참조). | bytes |
| Memory Free [Actual] | 실제 사용가능한 memory (bytes). OS 에 따라 계산방식이 다르며, Linux 에서는 /proc/ meminfo 에서 MemAvailable 이거나 meminfo 를 사용할 수 없는 경우에는 사용 가능한 메모리와 캐시 및 버퍼에서 계산함. OSX 에서는 사용가능한 메모리와 비활성 메모리의 합계. Windows 에서는 system.memory.free 와 같은 값. | bytes |
| Memory Free [Swap] | 사용가능한 swap memory. | bytes |
| Memory Total | 총 memory | bytes |
| Memory Total [Swap] | 총 swap memory. | bytes |
| Memory Usage | 사용한 memory의 백분율
| % |
| Memory Usage [Actual] | 실제 사용된 memory의 백분율
| % |
| Memory Usage [Cache Swap] | cache 된 swap 사용률 | % |
| Memory Usage [Swap] | 사용한 swap memory의 백분율 | % |
| Memory Used | 사용한 memory | bytes |
| Memory Used [Actual] | 실제 사용된 memory (bytes). 총 memory 에서 사용된 memory 를 뺀 값. 사용가능 메모리는 OS 마다 다르게 계산됨 (system.actual.free 참조) | bytes |
| Memory Used [Swap] | 사용한 swap memory. | bytes |
| Collisions | 네트워크 충돌 | cnt |
| Network In Bytes | 수신된 byte 수 | bytes |
| Network In Bytes [Delta Avg] | 개별 network들의 system.network.in.bytes_delta의 평균 | bytes |
| Network In Bytes [Delta Max] | 개별 network들의 system.network.in.bytes_delta의 최대 | bytes |
| Network In Bytes [Delta Min] | 개별 network들의 system.network.in.bytes_delta의 최소 | bytes |
| Network In Bytes [Delta Sum] | 개별 network 들의 system.network.in.bytes_delta의 합 | bytes |
| Network In Bytes [Delta] | 수신된 byte 수의 delta | bytes |
| Network In Dropped | 들어온 packet 중 삭제된 패킷의 수 | cnt |
| Network In Errors | 수신 중의 error 수 | cnt |
| Network In Packets | 수신된 packet 수 | cnt |
| Network In Packets [Delta Avg] | 개별 network들의 system.network.in.packets_delta의 평균 | cnt |
| Network In Packets [Delta Max] | 개별 network들의 system.network.in.packets_delta의 최대 | cnt |
| Network In Packets [Delta Min] | 개별 network들의 system.network.in.packets_delta의 최소 | cnt |
| Network In Packets [Delta Sum] | 개별 network들의 system.network.in.packets_delta의 합 | cnt |
| Network In Packets [Delta] | 수신된 packet 수의 delta | cnt |
| Network Out Bytes | 송신된 byte 수 | bytes |
| Network Out Bytes [Delta Avg] | 개별 network들의 system.network.out.bytes_delta의 평균 | bytes |
| Network Out Bytes [Delta Max] | 개별 network들의 system.network.out.bytes_delta의 최대 | bytes |
| Network Out Bytes [Delta Min] | 개별 network들의 system.network.out.bytes_delta의 최소 | bytes |
| Network Out Bytes [Delta Sum] | 개별 network들의 system.network.out.bytes_delta의 합 | bytes |
| Network Out Bytes [Delta] | 송신된 byte 수의 delta | bytes |
| Network Out Dropped | 나가는 packet 중 삭제된 packet 수. 이 값은 운영체제에서 보고되지 않으므로 Darwin 과 BSD에서 항상 0임 | cnt |
| Network Out Errors | 송신 중의 error 수 | cnt |
| Network Out Packets | 송신된 packet 수 | cnt |
| Network Out Packets [Delta Avg] | 개별 network들의 system.network.out.packets_delta의 평균 | cnt |
| Network Out Packets [Delta Max] | 개별 network들의 system.network.out.packets_delta의 최대 | cnt |
| Network Out Packets [Delta Min] | 개별 network들의 system.network.out.packets_delta의 최소 | cnt |
| Network Out Packets [Delta Sum] | 개별 network들의 system.network.out.packets_delta의 합 | cnt |
| Network Out Packets [Delta] | 송신된 packet 수의 delta | cnt |
| Open Connections [TCP] | 열려 있는 모든 TCP 연결 | cnt |
| Open Connections [UDP] | 열려 있는 모든 UDP 연결 | cnt |
| Port Usage | 접속가능한 port 사용률 | % |
| SYN Sent Sockets | SYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시) | cnt |
| Kernel PID Max | kernel.pid_max 값 | cnt |
| Kernel Thread Max | kernel.threads-max 값 | cnt |
| Process CPU Usage | 마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율. 이 값은 Unix 시스템에서 top 명령으로 표시되는 프로세스의 %CPU 값과 유사 | % |
| Process CPU Usage/Core | 마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율. 코어 수로 정규화되며 0~100% 사이의 값 | % |
| Process Memory Usage | main memory (RAM) 에서 프로세스가 차지하는 비율 | % |
| Process Memory Used | Resident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양. Windows 에서는 current working set 사이즈 | bytes |
| Process PID | 프로세스 pid | PID |
| Process PPID | 부모 프로세스의 pid | PID |
| Processes [Dead] | dead processes 수 | cnt |
| Processes [Idle] | idle processes 수 | cnt |
| Processes [Running] | running processes 수 | cnt |
| Processes [Sleeping] | sleeping processes 수 | cnt |
| Processes [Stopped] | stopped processes 수 | cnt |
| Processes [Total] | 총 processes 수 | cnt |
| Processes [Unknown] | 상태를 검색할 수 없거나 알 수 없는 processes 수 | cnt |
| Processes [Zombie] | 좀비 processes 수 | cnt |
| Running Process Usage | process 사용률 | % |
| Running Processes | running processes 수 | cnt |
| Running Thread Usage | thread 사용률 | % |
| Running Threads | running processes 에서 실행중인 thread 수 총합 | cnt |
| Instance Status | 인스턴스 상태 | state |
| Context Switches | context switch 수 (초당) | cnt |
| Load/Core [1 min] | 마지막 1 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [15 min] | 마지막 15 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [5 min] | 마지막 5 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Multipaths [Active] | 외장 스토리지 연결 path status = active 카운트 | cnt |
| Multipaths [Failed] | 외장 스토리지 연결 path status = failed 카운트 | cnt |
| Multipaths [Faulty] | 외장 스토리지 연결 path status = faulty 카운트 | cnt |
| NTP Offset | last sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이) | num |
| Run Queue Length | 실행 대기열 길이 | num |
| Uptime | OS 가동시간(uptime). (milliseconds) | ms |
| Context Switchies | CPU context switch 수 (초당) | cnt |
| Disk Read Bytes [Sec] | windows logical 디스크에서 1초동안 읽어들인 바이트 수 | cnt |
| Disk Read Time [Avg] | 데이터 읽기 평균 시간 (초) | sec |
| Disk Transfer Time [Avg] | 디스크 average wait time | sec |
| Disk Usage | 디스크 사용률 | % |
| Disk Write Bytes [Sec] | windows logical 디스크에서 1초동안 쓰여진 바이트 수 | cnt |
| Disk Write Time [Avg] | 데이터 쓰기 평균 시간 (초) | sec |
| Pagingfile Usage | paging file 사용률 | % |
| Pool Used [Non Paged] | 커널 메모리 중 Nonpaged Pool 사용량 | bytes |
| Pool Used [Paged] | 커널 메모리 중 Paged Pool 사용량 | bytes |
| Process [Running] | 현재 동작 중인 프로세스 수 | cnt |
| Threads [Running] | 현재 동작 중인 thread 수 | cnt |
| Threads [Waiting] | 프로세서 시간을 기다리는 thread 수 | cnt |
표. Multi-node GPU Cluster [Node] 추가 모니터링 지표 (Agent 설치 필요)