모니터링 지표

GPU Server 모니터링 지표

아래 표는 Cloud Monitoring을 통해 확인할 수 있는 GPU Server의 모니터링 지표를 나타냅니다.

Agent를 설치하지 않아도 기본적인 모니터링 지표를 제공하며 아래 표. GPU Server 모니터링 지표(기본 제공) 에서 확인해주세요. 추가로 Agent 설치를 통해 조회 가능한 지표는 아래 표. GPU Server 추가 모니터링 지표 (Agent 설치 필요) 에서 참고하세요.

자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.

성능 항목명설명단위
Memory Total [Basic]사용할 수 있는 메모리의 bytesbytes
Memory Used [Basic]현재 사용되는 메모리의 bytesbytes
Memory Swap In [Basic]교체된 메모리의 bytesbytes
Memory Swap Out [Basic]교체된 메모리의 bytesbytes
Memory Free [Basic]사용하지 않은 메모리의 bytesbytes
Disk Read Bytes [Basic]읽기 bytesbytes
Disk Read Requests [Basic]읽기 요청 수cnt
Disk Write Bytes [Basic]쓰기bytesbytes
Disk Write Requests [Basic]쓰기 요청 수cnt
CPU Usage [Basic]1분간 평균 시스템 CPU 사용률%
Instance State [Basic]Instance 상태state
Network In Bytes [Basic]수신 bytesbytes
Network In Dropped [Basic]수신 패킷 드롭cnt
Network In Packets [Basic]수신 패킷 수cnt
Network Out Bytes [Basic]송신 bytesbytes
Network Out Dropped [Basic]송신 패킷 드롭cnt
Network Out Packets [Basic]송신 패킷 수cnt
표. GPU Server 기본 모니터링 지표 (기본 제공)
성능항목명설명단위
GPU Countgpu 개수cnt
GPU Memory Usage메모리 사용율%
GPU Memory Used메모리 사용량MB
GPU Temperaturegpu 온도
GPU Usageutilization%
GPU Usage [Avg]GPU 전체 평균 사용율(%)%
GPU Power CapGPU의 최대 전력 용량W
GPU Power UsageGPU의 현재 전력 사용량W
GPU Memory Usage [Avg]GPU Memory Uti. AVG%
GPU Count in useNode 내 Job이 수행중인 GPU 수cnt
Execution Status for nvidia-sminvidia-smi 명령어 실행결과status
Core Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)%
Core Usage [System]커널 공간에서 소요된 CPU 시간의 비율%
Core Usage [User]사용자 공간에서 소요된 CPU 시간의 비율%
CPU Cores호스트에 있는 CPU 코어의 수cnt
CPU Usage [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율%
CPU Usage [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage [System]커널에서 사용한 CPU 시간의 백분율%
CPU Usage [User]사용자 영역에서 사용한 CPU 시간의 백분율.%
CPU Usage/Core [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율%
CPU Usage/Core [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage/Core [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage/Core [System]커널에서 사용한 CPU 시간의 백분율%
CPU Usage/Core [User]사용자 영역에서 사용한 CPU 시간의 백분율.%
Disk CPU Usage [IO Request]장치에 대한 입출력 요청이 실행된 CPU 시간의 비율%
Disk Queue Size [Avg]장치에 대해 실행된 요청의 평균 대기열 길이입니다.num
Disk Read Bytes장치에서 읽는 초당 바이트 수입니다.bytes
Disk Read Bytes [Delta Avg]개별 disk들의 system.diskio.read.bytes_delta의 평균bytes
Disk Read Bytes [Delta Max]개별 disk들의 system.diskio.read.bytes_delta의 최대bytes
Disk Read Bytes [Delta Min]개별 disk들의 system.diskio.read.bytes_delta의 최소bytes
Disk Read Bytes [Delta Sum]개별 disk들의 system.diskio.read.bytes_delta의 합bytes
Disk Read Bytes [Delta]개별 disk의 system.diskio.read.bytes 값의 deltabytes
Disk Read Bytes [Success]성공적으로 읽은 총 바이트 수.bytes
Disk Read Requests1초동안 디스크 디바이스의 읽기 요청 수cnt
Disk Read Requests [Delta Avg]개별 disk들의 system.diskio.read.count_delta의 평균cnt
Disk Read Requests [Delta Max]개별 disk들의 system.diskio.read.count_delta의 최대cnt
Disk Read Requests [Delta Min]개별 disk들의 system.diskio.read.count_delta의 최소cnt
Disk Read Requests [Delta Sum]개별 disk들의 system.diskio.read.count_delta의 합cnt
Disk Read Requests [Success Delta]개별 disk의 system.diskio.read.count 의 deltacnt
Disk Read Requests [Success]성공적으로 완료된 총 읽기 수cnt
Disk Request Size [Avg]장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다.num
Disk Service Time [Avg]장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다.ms
Disk Wait Time [Avg]지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다.ms
Disk Wait Time [Read]디스크 평균 대기 시간ms
Disk Wait Time [Write]디스크 평균 대기 시간ms
Disk Write Bytes [Delta Avg]개별 disk들의 system.diskio.write.bytes_delta의 평균bytes
Disk Write Bytes [Delta Max]개별 disk들의 system.diskio.write.bytes_delta의 최대bytes
Disk Write Bytes [Delta Min]개별 disk들의 system.diskio.write.bytes_delta의 최소bytes
Disk Write Bytes [Delta Sum]개별 disk들의 system.diskio.write.bytes_delta의 합bytes
Disk Write Bytes [Delta]개별 disk의 system.diskio.write.bytes 값의 deltabytes
Disk Write Bytes [Success]성공적으로 쓰여진 총 바이트 수.bytes
Disk Write Requests1초동안 디스크 디바이스의 쓰기 요청 수cnt
Disk Write Requests [Delta Avg]개별 disk들의 system.diskio.write.count_delta의 평균cnt
Disk Write Requests [Delta Max]개별 disk들의 system.diskio.write.count_delta의 최대cnt
Disk Write Requests [Delta Min]개별 disk들의 system.diskio.write.count_delta의 최소cnt
Disk Write Requests [Delta Sum]개별 disk들의 system.diskio.write.count_delta의 합cnt
Disk Write Requests [Success Delta]개별 disk의 system.diskio.write.count 의 deltacnt
Disk Write Requests [Success]성공적으로 완료된 총 쓰기 수cnt
Disk Writes Bytes장치에 쓰는 초당 바이트 수입니다.bytes
Filesystem Hang Checkfilesystem(local/NFS) hang 체크 (정상:1, 비정상:0)status
Filesystem Nodes파일 시스템의 총 파일 노드 수입니다.cnt
Filesystem Nodes [Free]파일 시스템의 총 가용 파일 노드 수입니다.cnt
Filesystem Size [Available]권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)bytes
Filesystem Size [Free]사용 가능한 디스크 공간 (bytes)bytes
Filesystem Size [Total]총 디스크 공간 (bytes)bytes
Filesystem Usage사용한 디스크 공간 백분율%
Filesystem Usage [Avg]개별 filesystem.used.pct들의 평균%
Filesystem Usage [Inode]inode 사용률%
Filesystem Usage [Max]개별 filesystem.used.pct 중에 max%
Filesystem Usage [Min]개별 filesystem.used.pct 중에 min%
Filesystem Usage [Total]-%
Filesystem Used사용한 디스크 공간 (bytes)bytes
Filesystem Used [Inode]inode 사용량bytes
Memory Free사용 가능한 총 메모리 양 (bytes).bytes
Memory Free [Actual]실제 사용가능한 memory (bytes).bytes
Memory Free [Swap]사용가능한 swap memory.bytes
Memory Total총 memorybytes
Memory Total [Swap]총 swap memory.bytes
Memory Usage사용한 memory의 백분율%
Memory Usage [Actual]실제 사용된 memory의 백분율%
Memory Usage [Cache Swap]cache 된 swap 사용률%
Memory Usage [Swap]사용한 swap memory의 백분율%
Memory Used사용한 memorybytes
Memory Used [Actual]실제 사용된 memory (bytes).bytes
Memory Used [Swap]사용한 swap memory.bytes
Collisions네트워크 충돌cnt
Network In Bytes수신된 byte 수bytes
Network In Bytes [Delta Avg]개별 network들의 system.network.in.bytes_delta의 평균bytes
Network In Bytes [Delta Max]개별 network들의 system.network.in.bytes_delta의 최대bytes
Network In Bytes [Delta Min]개별 network들의 system.network.in.bytes_delta의 최소bytes
Network In Bytes [Delta Sum]개별 network 들의 system.network.in.bytes_delta의 합bytes
Network In Bytes [Delta]수신된 byte 수의 deltabytes
Network In Dropped들어온 packet 중 삭제된 패킷의 수cnt
Network In Errors수신 중의 error 수cnt
Network In Packets수신된 packet 수cnt
Network In Packets [Delta Avg]개별 network들의 system.network.in.packets_delta의 평균cnt
Network In Packets [Delta Max]개별 network들의 system.network.in.packets_delta의 최대cnt
Network In Packets [Delta Min]개별 network들의 system.network.in.packets_delta의 최소cnt
Network In Packets [Delta Sum]개별 network들의 system.network.in.packets_delta의 합cnt
Network In Packets [Delta]수신된 packet 수의 deltacnt
Network Out Bytes송신된 byte 수bytes
Network Out Bytes [Delta Avg]개별 network들의 system.network.out.bytes_delta의 평균bytes
Network Out Bytes [Delta Max]개별 network들의 system.network.out.bytes_delta의 최대bytes
Network Out Bytes [Delta Min]개별 network들의 system.network.out.bytes_delta의 최소bytes
Network Out Bytes [Delta Sum]개별 network들의 system.network.out.bytes_delta의 합bytes
Network Out Bytes [Delta]송신된 byte 수의 deltabytes
Network Out Dropped나가는 packet 중 삭제된 packet 수.cnt
Network Out Errors송신 중의 error 수cnt
Network Out Packets송신된 packet 수cnt
Network Out Packets [Delta Avg]개별 network들의 system.network.out.packets_delta의 평균cnt
Network Out Packets [Delta Max]개별 network들의 system.network.out.packets_delta의 최대cnt
Network Out Packets [Delta Min]개별 network들의 system.network.out.packets_delta의 최소cnt
Network Out Packets [Delta Sum]개별 network들의 system.network.out.packets_delta의 합cnt
Network Out Packets [Delta]송신된 packet 수의 deltacnt
Open Connections [TCP]열려 있는 모든 TCP 연결cnt
Open Connections [UDP]열려 있는 모든 UDP 연결cnt
Port Usage접속가능한 port 사용률%
SYN Sent SocketsSYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시)cnt
Kernel PID Maxkernel.pid_max 값cnt
Kernel Thread Maxkernel.threads-max 값cnt
Process CPU Usage마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율.%
Process CPU Usage/Core마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율.%
Process Memory Usagemain memory (RAM) 에서 프로세스가 차지하는 비율%
Process Memory UsedResident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양.bytes
Process PID프로세스 pidPID
Process PPID부모 프로세스의 pidPID
Processes [Dead]dead processes 수cnt
Processes [Idle]idle processes 수cnt
Processes [Running]running processes 수cnt
Processes [Sleeping]sleeping processes 수cnt
Processes [Stopped]stopped processes 수cnt
Processes [Total]총 processes 수cnt
Processes [Unknown]상태를 검색할 수 없거나 알 수 없는 processes 수cnt
Processes [Zombie]좀비 processes 수cnt
Running Process Usageprocess 사용률%
Running Processesrunning processes 수cnt
Running Thread Usagethread 사용률%
Running Threadsrunning processes 에서 실행중인 thread 수 총합cnt
Context Switchescontext switch 수 (초당)cnt
Load/Core [1 min]마지막 1 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [15 min]마지막 15 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [5 min]마지막 5 분 동안의 로드를 코어 수로 나눈 값cnt
Multipaths [Active]외장 스토리지 연결 path status = active 카운트cnt
Multipaths [Failed]외장 스토리지 연결 path status = failed 카운트cnt
Multipaths [Faulty]외장 스토리지 연결 path status = faulty 카운트cnt
NTP Offsetlast sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이)num
Run Queue Length실행 대기열 길이num
UptimeOS 가동시간(uptime). (milliseconds)ms
Context SwitchiesCPU context switch 수 (초당)cnt
Disk Read Bytes [Sec]windows logical 디스크에서 1초동안 읽어들인 바이트 수cnt
Disk Read Time [Avg]데이터 읽기 평균 시간 (초)sec
Disk Transfer Time [Avg]디스크 average wait timesec
Disk Usage디스크 사용률%
Disk Write Bytes [Sec]windows logical 디스크에서 1초동안 쓰여진 바이트 수cnt
Disk Write Time [Avg]데이터 쓰기 평균 시간 (초)sec
Pagingfile Usagepaging file 사용률%
Pool Used [Non Paged]커널 메모리 중 Nonpaged Pool 사용량bytes
Pool Used [Paged]커널 메모리 중 Paged Pool 사용량bytes
Process [Running]현재 동작 중인 프로세스 수cnt
Threads [Running]현재 동작 중인 thread 수cnt
Threads [Waiting]프로세서 시간을 기다리는 thread 수cnt
표. GPU Server 추가 모니터링 지표 (Agent 설치 필요)

서버 타입
ServiceWatch 지표