모니터링 지표
GPU Server 모니터링 지표
아래 표는 Cloud Monitoring을 통해 확인할 수 있는 GPU Server의 모니터링 지표를 나타냅니다.
Agent를 설치하지 않아도 기본적인 모니터링 지표를 제공하며 아래 표. GPU Server 모니터링 지표(기본 제공) 에서 확인해주세요. 추가로 Agent 설치를 통해 조회 가능한 지표는 아래 표. GPU Server 추가 모니터링 지표 (Agent 설치 필요) 에서 참고하세요.
자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.
| 성능 항목명 | 설명 | 단위 |
|---|---|---|
| Memory Total [Basic] | 사용할 수 있는 메모리의 bytes | bytes |
| Memory Used [Basic] | 현재 사용되는 메모리의 bytes | bytes |
| Memory Swap In [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Swap Out [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Free [Basic] | 사용하지 않은 메모리의 bytes | bytes |
| Disk Read Bytes [Basic] | 읽기 bytes | bytes |
| Disk Read Requests [Basic] | 읽기 요청 수 | cnt |
| Disk Write Bytes [Basic] | 쓰기bytes | bytes |
| Disk Write Requests [Basic] | 쓰기 요청 수 | cnt |
| CPU Usage [Basic] | 1분간 평균 시스템 CPU 사용률 | % |
| Instance State [Basic] | Instance 상태 | state |
| Network In Bytes [Basic] | 수신 bytes | bytes |
| Network In Dropped [Basic] | 수신 패킷 드롭 | cnt |
| Network In Packets [Basic] | 수신 패킷 수 | cnt |
| Network Out Bytes [Basic] | 송신 bytes | bytes |
| Network Out Dropped [Basic] | 송신 패킷 드롭 | cnt |
| Network Out Packets [Basic] | 송신 패킷 수 | cnt |
표. GPU Server 기본 모니터링 지표 (기본 제공)
| 성능항목명 | 설명 | 단위 |
|---|---|---|
| GPU Count | gpu 개수 | cnt |
| GPU Memory Usage | 메모리 사용율 | % |
| GPU Memory Used | 메모리 사용량 | MB |
| GPU Temperature | gpu 온도 | ℃ |
| GPU Usage | utilization | % |
| GPU Usage [Avg] | GPU 전체 평균 사용율(%) | % |
| GPU Power Cap | GPU의 최대 전력 용량 | W |
| GPU Power Usage | GPU의 현재 전력 사용량 | W |
| GPU Memory Usage [Avg] | GPU Memory Uti. AVG | % |
| GPU Count in use | Node 내 Job이 수행중인 GPU 수 | cnt |
| Execution Status for nvidia-smi | nvidia-smi 명령어 실행결과 | status |
| Core Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기) | % |
| Core Usage [System] | 커널 공간에서 소요된 CPU 시간의 비율 | % |
| Core Usage [User] | 사용자 공간에서 소요된 CPU 시간의 비율 | % |
| CPU Cores | 호스트에 있는 CPU 코어의 수 | cnt |
| CPU Usage [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 | % |
| CPU Usage [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage [System] | 커널에서 사용한 CPU 시간의 백분율 | % |
| CPU Usage [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. | % |
| CPU Usage/Core [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 | % |
| CPU Usage/Core [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage/Core [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage/Core [System] | 커널에서 사용한 CPU 시간의 백분율 | % |
| CPU Usage/Core [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. | % |
| Disk CPU Usage [IO Request] | 장치에 대한 입출력 요청이 실행된 CPU 시간의 비율 | % |
| Disk Queue Size [Avg] | 장치에 대해 실행된 요청의 평균 대기열 길이입니다. | num |
| Disk Read Bytes | 장치에서 읽는 초당 바이트 수입니다. | bytes |
| Disk Read Bytes [Delta Avg] | 개별 disk들의 system.diskio.read.bytes_delta의 평균 | bytes |
| Disk Read Bytes [Delta Max] | 개별 disk들의 system.diskio.read.bytes_delta의 최대 | bytes |
| Disk Read Bytes [Delta Min] | 개별 disk들의 system.diskio.read.bytes_delta의 최소 | bytes |
| Disk Read Bytes [Delta Sum] | 개별 disk들의 system.diskio.read.bytes_delta의 합 | bytes |
| Disk Read Bytes [Delta] | 개별 disk의 system.diskio.read.bytes 값의 delta | bytes |
| Disk Read Bytes [Success] | 성공적으로 읽은 총 바이트 수. | bytes |
| Disk Read Requests | 1초동안 디스크 디바이스의 읽기 요청 수 | cnt |
| Disk Read Requests [Delta Avg] | 개별 disk들의 system.diskio.read.count_delta의 평균 | cnt |
| Disk Read Requests [Delta Max] | 개별 disk들의 system.diskio.read.count_delta의 최대 | cnt |
| Disk Read Requests [Delta Min] | 개별 disk들의 system.diskio.read.count_delta의 최소 | cnt |
| Disk Read Requests [Delta Sum] | 개별 disk들의 system.diskio.read.count_delta의 합 | cnt |
| Disk Read Requests [Success Delta] | 개별 disk의 system.diskio.read.count 의 delta | cnt |
| Disk Read Requests [Success] | 성공적으로 완료된 총 읽기 수 | cnt |
| Disk Request Size [Avg] | 장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다. | num |
| Disk Service Time [Avg] | 장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다. | ms |
| Disk Wait Time [Avg] | 지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다. | ms |
| Disk Wait Time [Read] | 디스크 평균 대기 시간 | ms |
| Disk Wait Time [Write] | 디스크 평균 대기 시간 | ms |
| Disk Write Bytes [Delta Avg] | 개별 disk들의 system.diskio.write.bytes_delta의 평균 | bytes |
| Disk Write Bytes [Delta Max] | 개별 disk들의 system.diskio.write.bytes_delta의 최대 | bytes |
| Disk Write Bytes [Delta Min] | 개별 disk들의 system.diskio.write.bytes_delta의 최소 | bytes |
| Disk Write Bytes [Delta Sum] | 개별 disk들의 system.diskio.write.bytes_delta의 합 | bytes |
| Disk Write Bytes [Delta] | 개별 disk의 system.diskio.write.bytes 값의 delta | bytes |
| Disk Write Bytes [Success] | 성공적으로 쓰여진 총 바이트 수. | bytes |
| Disk Write Requests | 1초동안 디스크 디바이스의 쓰기 요청 수 | cnt |
| Disk Write Requests [Delta Avg] | 개별 disk들의 system.diskio.write.count_delta의 평균 | cnt |
| Disk Write Requests [Delta Max] | 개별 disk들의 system.diskio.write.count_delta의 최대 | cnt |
| Disk Write Requests [Delta Min] | 개별 disk들의 system.diskio.write.count_delta의 최소 | cnt |
| Disk Write Requests [Delta Sum] | 개별 disk들의 system.diskio.write.count_delta의 합 | cnt |
| Disk Write Requests [Success Delta] | 개별 disk의 system.diskio.write.count 의 delta | cnt |
| Disk Write Requests [Success] | 성공적으로 완료된 총 쓰기 수 | cnt |
| Disk Writes Bytes | 장치에 쓰는 초당 바이트 수입니다. | bytes |
| Filesystem Hang Check | filesystem(local/NFS) hang 체크 (정상:1, 비정상:0) | status |
| Filesystem Nodes | 파일 시스템의 총 파일 노드 수입니다. | cnt |
| Filesystem Nodes [Free] | 파일 시스템의 총 가용 파일 노드 수입니다. | cnt |
| Filesystem Size [Available] | 권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트) | bytes |
| Filesystem Size [Free] | 사용 가능한 디스크 공간 (bytes) | bytes |
| Filesystem Size [Total] | 총 디스크 공간 (bytes) | bytes |
| Filesystem Usage | 사용한 디스크 공간 백분율 | % |
| Filesystem Usage [Avg] | 개별 filesystem.used.pct들의 평균 | % |
| Filesystem Usage [Inode] | inode 사용률 | % |
| Filesystem Usage [Max] | 개별 filesystem.used.pct 중에 max | % |
| Filesystem Usage [Min] | 개별 filesystem.used.pct 중에 min | % |
| Filesystem Usage [Total] | - | % |
| Filesystem Used | 사용한 디스크 공간 (bytes) | bytes |
| Filesystem Used [Inode] | inode 사용량 | bytes |
| Memory Free | 사용 가능한 총 메모리 양 (bytes). | bytes |
| Memory Free [Actual] | 실제 사용가능한 memory (bytes). | bytes |
| Memory Free [Swap] | 사용가능한 swap memory. | bytes |
| Memory Total | 총 memory | bytes |
| Memory Total [Swap] | 총 swap memory. | bytes |
| Memory Usage | 사용한 memory의 백분율 | % |
| Memory Usage [Actual] | 실제 사용된 memory의 백분율 | % |
| Memory Usage [Cache Swap] | cache 된 swap 사용률 | % |
| Memory Usage [Swap] | 사용한 swap memory의 백분율 | % |
| Memory Used | 사용한 memory | bytes |
| Memory Used [Actual] | 실제 사용된 memory (bytes). | bytes |
| Memory Used [Swap] | 사용한 swap memory. | bytes |
| Collisions | 네트워크 충돌 | cnt |
| Network In Bytes | 수신된 byte 수 | bytes |
| Network In Bytes [Delta Avg] | 개별 network들의 system.network.in.bytes_delta의 평균 | bytes |
| Network In Bytes [Delta Max] | 개별 network들의 system.network.in.bytes_delta의 최대 | bytes |
| Network In Bytes [Delta Min] | 개별 network들의 system.network.in.bytes_delta의 최소 | bytes |
| Network In Bytes [Delta Sum] | 개별 network 들의 system.network.in.bytes_delta의 합 | bytes |
| Network In Bytes [Delta] | 수신된 byte 수의 delta | bytes |
| Network In Dropped | 들어온 packet 중 삭제된 패킷의 수 | cnt |
| Network In Errors | 수신 중의 error 수 | cnt |
| Network In Packets | 수신된 packet 수 | cnt |
| Network In Packets [Delta Avg] | 개별 network들의 system.network.in.packets_delta의 평균 | cnt |
| Network In Packets [Delta Max] | 개별 network들의 system.network.in.packets_delta의 최대 | cnt |
| Network In Packets [Delta Min] | 개별 network들의 system.network.in.packets_delta의 최소 | cnt |
| Network In Packets [Delta Sum] | 개별 network들의 system.network.in.packets_delta의 합 | cnt |
| Network In Packets [Delta] | 수신된 packet 수의 delta | cnt |
| Network Out Bytes | 송신된 byte 수 | bytes |
| Network Out Bytes [Delta Avg] | 개별 network들의 system.network.out.bytes_delta의 평균 | bytes |
| Network Out Bytes [Delta Max] | 개별 network들의 system.network.out.bytes_delta의 최대 | bytes |
| Network Out Bytes [Delta Min] | 개별 network들의 system.network.out.bytes_delta의 최소 | bytes |
| Network Out Bytes [Delta Sum] | 개별 network들의 system.network.out.bytes_delta의 합 | bytes |
| Network Out Bytes [Delta] | 송신된 byte 수의 delta | bytes |
| Network Out Dropped | 나가는 packet 중 삭제된 packet 수. | cnt |
| Network Out Errors | 송신 중의 error 수 | cnt |
| Network Out Packets | 송신된 packet 수 | cnt |
| Network Out Packets [Delta Avg] | 개별 network들의 system.network.out.packets_delta의 평균 | cnt |
| Network Out Packets [Delta Max] | 개별 network들의 system.network.out.packets_delta의 최대 | cnt |
| Network Out Packets [Delta Min] | 개별 network들의 system.network.out.packets_delta의 최소 | cnt |
| Network Out Packets [Delta Sum] | 개별 network들의 system.network.out.packets_delta의 합 | cnt |
| Network Out Packets [Delta] | 송신된 packet 수의 delta | cnt |
| Open Connections [TCP] | 열려 있는 모든 TCP 연결 | cnt |
| Open Connections [UDP] | 열려 있는 모든 UDP 연결 | cnt |
| Port Usage | 접속가능한 port 사용률 | % |
| SYN Sent Sockets | SYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시) | cnt |
| Kernel PID Max | kernel.pid_max 값 | cnt |
| Kernel Thread Max | kernel.threads-max 값 | cnt |
| Process CPU Usage | 마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율. | % |
| Process CPU Usage/Core | 마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율. | % |
| Process Memory Usage | main memory (RAM) 에서 프로세스가 차지하는 비율 | % |
| Process Memory Used | Resident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양. | bytes |
| Process PID | 프로세스 pid | PID |
| Process PPID | 부모 프로세스의 pid | PID |
| Processes [Dead] | dead processes 수 | cnt |
| Processes [Idle] | idle processes 수 | cnt |
| Processes [Running] | running processes 수 | cnt |
| Processes [Sleeping] | sleeping processes 수 | cnt |
| Processes [Stopped] | stopped processes 수 | cnt |
| Processes [Total] | 총 processes 수 | cnt |
| Processes [Unknown] | 상태를 검색할 수 없거나 알 수 없는 processes 수 | cnt |
| Processes [Zombie] | 좀비 processes 수 | cnt |
| Running Process Usage | process 사용률 | % |
| Running Processes | running processes 수 | cnt |
| Running Thread Usage | thread 사용률 | % |
| Running Threads | running processes 에서 실행중인 thread 수 총합 | cnt |
| Context Switches | context switch 수 (초당) | cnt |
| Load/Core [1 min] | 마지막 1 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [15 min] | 마지막 15 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [5 min] | 마지막 5 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Multipaths [Active] | 외장 스토리지 연결 path status = active 카운트 | cnt |
| Multipaths [Failed] | 외장 스토리지 연결 path status = failed 카운트 | cnt |
| Multipaths [Faulty] | 외장 스토리지 연결 path status = faulty 카운트 | cnt |
| NTP Offset | last sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이) | num |
| Run Queue Length | 실행 대기열 길이 | num |
| Uptime | OS 가동시간(uptime). (milliseconds) | ms |
| Context Switchies | CPU context switch 수 (초당) | cnt |
| Disk Read Bytes [Sec] | windows logical 디스크에서 1초동안 읽어들인 바이트 수 | cnt |
| Disk Read Time [Avg] | 데이터 읽기 평균 시간 (초) | sec |
| Disk Transfer Time [Avg] | 디스크 average wait time | sec |
| Disk Usage | 디스크 사용률 | % |
| Disk Write Bytes [Sec] | windows logical 디스크에서 1초동안 쓰여진 바이트 수 | cnt |
| Disk Write Time [Avg] | 데이터 쓰기 평균 시간 (초) | sec |
| Pagingfile Usage | paging file 사용률 | % |
| Pool Used [Non Paged] | 커널 메모리 중 Nonpaged Pool 사용량 | bytes |
| Pool Used [Paged] | 커널 메모리 중 Paged Pool 사용량 | bytes |
| Process [Running] | 현재 동작 중인 프로세스 수 | cnt |
| Threads [Running] | 현재 동작 중인 thread 수 | cnt |
| Threads [Waiting] | 프로세서 시간을 기다리는 thread 수 | cnt |
표. GPU Server 추가 모니터링 지표 (Agent 설치 필요)