이 섹션의 다중 페이지 출력 화면임. 여기를 클릭하여 프린트.

GPU Server

1: Overview

1.1: 서버 타입
1.2: 모니터링 지표
1.3: ServiceWatch 지표

2: How-to guides

2.1: Image 관리하기
2.2: Keypair 관리하기
2.3: GPU Server에서 Multi-instance GPU 사용하기
2.4: GPU Server에서 NVSwitch 사용하기
2.5: ServiceWatch Agent 설치하기

3: API Reference

4: CLI Reference

5: Release Note

1 - Overview

서비스 개요

GPU Server는 CPU, GPU, 메모리 등 서버에서 제공하는 인프라 자원을 개별 구매할 필요 없이, 필요한 시점에 필요한 만큼 자유롭게 할당 받아 사용할 수 있는 가상화 컴퓨팅 서비스 입니다. 클라우드 환경에서 AI모델 실험, 예측, 추론 등 빠른 연산 속도를 필요로 하는 업무에 적합하며, 업무 유형 및 규모에 따라 최적화 된 성능의 자원을 유연하게 선택하여 이용할 수 있습니다. GPU Server는 다음과 같은 기능을 제공하고 있습니다.

제공 기능

GPU Server 관리: 웹 기반 Console을 통해 GPU Server 프로비저닝부터 모니터링, 빌링까지 사용자가 직접 Self Service로 생성, 삭제 및 변경을 관리할 수 있습니다.
GPU 수량별 상품 제공: 프로젝트 용도 및 규모 등에 따라 H100/A100 GPU의 수량을 자유롭게 선택하여 가상 서버를 구성할 수 있습니다.
고성능 GPU 제공: Pass-through 방식을 사용하여 물리서버 수준의 고성능 GPU 서버를 제공합니다.
스토리지 연결: OS 디스크 외 추가 연결 스토리지를 제공 합니다. Block Storage, File Storage, Object Storage 를 연결하여 사용할 수 있습니다.
강력한 보안적용: Security Group 서비스를 통해 외부 인터넷이나 다른 VPC(Virtual Private Cloud)와 주고받는 Inbound/Outbound 트래픽을 제어하여 서버를 안전하게 보호합니다.
모니터링: 컴퓨텅 자원에 해당하는 CPU, Memory, Disk 및 GPU의 현황 등의 모니터링 정보를 Cloud Monitoring 서비스를 통해 확인할 수 있습니다.
네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
Key Pair 방식: 안전한 OS접속 방식을 위해 ID/PW의 접속이 아니라 Key Pair 방식을 제공합니다.
Image 관리: Custom Image를 생성 및 관리할 수 있고, 프로젝트간 공유 기능을 제공합니다.
ServiceWatch 서비스 연계 제공: ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.

구성 요소

GPU Server는 가상화 컴퓨팅 자원 위에 GPU와 NVSwitch 및 NVLink가 제공됩니다.

주의

NVSwitch는 단일 GPU Server에 8개의 GPU를 할당한 인스턴스 타입의 경우에만 활성화하여 사용 가능합니다.

GPU(A100/H100)

GPU(Graphic Processing Unit)는 컴퓨터 화면을 구성 이미지를 만들기 위해 필요한 계산을 수행하는 역할로 병렬 처리에 특화되어있어 많은 양의 데이터를 빠르게 처리할 수 있어 인공지능(AI), 데이터 분석 등 대규모 병렬 연산을 처리합니다. 다음은 GPU Server 서비스에서 제공하는 GPU Type의 사양입니다.

구분	A100 Type	H100 Type
서비스 제공 방식	Pass-through	Pass-through
GPU Architecture	NVIDIA Ampere	NVIDIA Hopper
GPU Memory	80GB	80GB
GPU Transistors	54 billion 7N TSMC	80 billion 4N TSMC
GPU Tensor Performance (FP16 기준, *: With Sparsity)	312 TFLOPs, 624* TFLOPs	989.4 TFLOPs, 1,978.9* TFLOPs
GPU Memory Bandwidth	2,039 GB/sec HBM2e	3,352 GB/sec HBM3
GPU CUDA Cores	6,912 Cores	16,896 Cores
GPU Tensor Cores	432 (3rd Generation)	528 (4th Generation)
NVLink 성능	NVLink 3	NVLink 4
총 NVLink 대역폭	600 GB/s	900 GB/s
NVLink Signaling Rate (단방향)	25 GB/s (x12)	25 GB/s (x18)
NVSwitch 성능	NVSwitch 2	NVSwitch 3
NVSwitch GPU간 대역폭	600 GB/s	900 GB/s
총 NVSwitch 집계 대역폭	4.8 TB/s	7.2 TB/s
연계 스토리지	Block Storage - SSD	Block Storage - SSD

표. GPU Type 사양

서버 타입

GPU Server에서 제공하는 서버 타입은 다음과 같습니다. GPU Server에서 제공하는 서버 타입에 대한 자세한 설명은 GPU Server 서버 타입을 참고하세요.

구분	서버 타입	CPU vCore	Memory(GB)	GPU수량
GPU-A100-1	g1v16a1	16	234	1
GPU-A100-1	g1v32a2	32	468	2
GPU-A100-1	g1v64a4	64	936	4
GPU-A100-1	g1v128a8	128	1872	8
GPU-H100-2	g2v12h1	12	234	1
GPU-H100-2	g2v24h2	24	468	2
GPU-H100-2	g2v48h4	48	936	4
GPU-H100-2	g2v96h8	96	1872	8

표. GPU Server 서버 타입

OS 및 GPU 드라이버 버전

GPU Server에서 지원하는 운영체제(OS)는 다음과 같습니다.

OS	OS 버전	GPU 드라이버버전
Ubuntu	22.04	535.183.06
RHEL	8.10	+ND 535.183.06

표. GPU Server OS 및 GPU 드라이버 버전

선행 서비스

본 서비스를 생성하기 전에 미리 설치가 되어야 하는 서비스입니다. 사전에 안내된 사용자 가이드를 참고하여 준비해주세요.

서비스 카테고리	서비스	상세 설명
Networking	VPC	클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
Networking	Security Group	서버의 트래픽을 제어하는 가상 방화벽

표. GPU Server 선행 서비스

1.1 - 서버 타입

GPU Server 서버 타입

GPU Server는 제공하는 GPU Type에 따라 구분되며, GPU Server를 생성할 때 선택하는 서버 타입에 따라 GPU Server에 사용되는 GPU가 결정됩니다. GPU Server에서 실행하려는 애플리케이션의 사양에 따라 서버 타입을 선택해주세요.

GPU Server에서 지원하는 서버 타입은 다음 형식과 같습니다.

GPU-H100-2 g2v12h1

구분	예시	상세 설명
서버 타입	GPU-H100-2	제공되는 서버 타입 구분 GPU-H100-2 GPU-H100은 제공되는 GPU 종류를 의미 2는 세대를 의미 GPU-A100-1 GPU-A100은 제공되는 GPU 종류를 의미 1은 세대를 의미
서버 사양	g2	제공되는 서버 타입 구분 및 세대 g2 g는 GPU 서버 사양을 의미 2은 세대를 의미
서버 사양	v12	vCore 개수 v2: 2개의 가상 코어
서버 사양	h1	GPU 종류와 수량 h1 h는 GPU-H100를 의미 1은 GPU 1개를 의미 a2 a는 GPU-A100를 의미 2은 GPU 2개를 의미

표. GPU Server 서버 타입 형식

g1 서버 타입

g1 서버 타입은 NVIDIA A100 Tensor Core GPU를 사용하는 GPU Server로 고성능 애플리케이션에 적합합니다.

최대 8개의 NVIDIA A100 Tensor Core GPU 제공
GPU 당 6,912개의 CUDA 코어와 432 Tensor 코어 탑재
최대 128개의 vCPU 및 1,920 GB의 메모리를 지원
최대 40 Gbps의 네트워킹 속도
600GB/s GPU와 NVIDIA NVSwitch P2P 통신

구분	서버 타입	GPU	CPU	Memory	GPU Memory	Network Bandwidth
GPU-A100-1	g1v16a1	1	16 vCore	234 GB	80 GB	최대 20 Gbps
GPU-A100-1	g1v32a2	2	32 vCore	468 GB	160 GB	최대 20 Gbps
GPU-A100-1	g1v64a4	4	64 vCore	936 GB	320 GB	최대 40 Gbps
GPU-A100-1	g1v128a8	8	128 vCore	1872 GB	640 GB	최대 40 Gbps

표. GPU Server 서버 타입 > GPU-A100-1 서버 타입

g2 서버 타입

g2 서버 타입은 NVIDIA H100 Tensor Core GPU를 사용하는 GPU Server로 고성능 애플리케이션에 적합합니다.

최대 8개의 NVIDIA H100 Tensor Core GPU 제공
GPU 당 16,896개의 CUDA 코어와 528 Tensor 코어 탑재
최대 96개의 vCPU 및 1,920 GB의 메모리를 지원
최대 40Gbps의 네트워킹 속도
900GB/s GPU와 NVIDIA NVSwitch P2P 통신

구분	서버 타입	GPU	CPU	Memory	GPU Memory	Network Bandwidth
GPU-H100-2	g2v12h1	1	12 vCore	234 GB	80 GB	최대 20 Gbps
GPU-H100-2	g2v24h2	2	24 vCore	468 GB	160 GB	최대 20 Gbps
GPU-H100-2	g2v48h4	4	48 vCore	936 GB	320 GB	최대 40 Gbps
GPU-H100-2	g2v96h8	8	96 vCore	1872 GB	640 GB	최대 40 Gbps

표. GPU Server 서버 타입 > GPU-H100-2 서버 타입

1.2 - 모니터링 지표

GPU Server 모니터링 지표

아래 표는 Cloud Monitoring을 통해 확인할 수 있는 GPU Server의 모니터링 지표를 나타냅니다.

Agent를 설치하지 않아도 기본적인 모니터링 지표를 제공하며 아래 표. GPU Server 모니터링 지표(기본 제공) 에서 확인해주세요. 추가로 Agent 설치를 통해 조회 가능한 지표는 아래 표. GPU Server 추가 모니터링 지표 (Agent 설치 필요) 에서 참고하세요.

자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.

성능 항목명	설명	단위
Memory Total [Basic]	사용할 수 있는 메모리의 bytes	bytes
Memory Used [Basic]	현재 사용되는 메모리의 bytes	bytes
Memory Swap In [Basic]	교체된 메모리의 bytes	bytes
Memory Swap Out [Basic]	교체된 메모리의 bytes	bytes
Memory Free [Basic]	사용하지 않은 메모리의 bytes	bytes
Disk Read Bytes [Basic]	읽기 bytes	bytes
Disk Read Requests [Basic]	읽기 요청 수	cnt
Disk Write Bytes [Basic]	쓰기bytes	bytes
Disk Write Requests [Basic]	쓰기 요청 수	cnt
CPU Usage [Basic]	1분간 평균 시스템 CPU 사용률	%
Instance State [Basic]	Instance 상태	state
Network In Bytes [Basic]	수신 bytes	bytes
Network In Dropped [Basic]	수신 패킷 드롭	cnt
Network In Packets [Basic]	수신 패킷 수	cnt
Network Out Bytes [Basic]	송신 bytes	bytes
Network Out Dropped [Basic]	송신 패킷 드롭	cnt
Network Out Packets [Basic]	송신 패킷 수	cnt

표. GPU Server 기본 모니터링 지표 (기본 제공)

성능항목명	설명	단위
GPU Count	gpu 개수	cnt
GPU Memory Usage	메모리 사용율	%
GPU Memory Used	메모리 사용량	MB
GPU Temperature	gpu 온도	℃
GPU Usage	utilization	%
GPU Usage [Avg]	GPU 전체 평균 사용율(%)	%
GPU Power Cap	GPU의 최대 전력 용량	W
GPU Power Usage	GPU의 현재 전력 사용량	W
GPU Memory Usage [Avg]	GPU Memory Uti. AVG	%
GPU Count in use	Node 내 Job이 수행중인 GPU 수	cnt
Execution Status for nvidia-smi	nvidia-smi 명령어 실행결과	status
Core Usage [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)	%
Core Usage [System]	커널 공간에서 소요된 CPU 시간의 비율	%
Core Usage [User]	사용자 공간에서 소요된 CPU 시간의 비율	%
CPU Cores	호스트에 있는 CPU 코어의 수	cnt
CPU Usage [Active]	Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율	%
CPU Usage [Idle]	유휴 상태로 소요된 CPU 시간의 비율입니다.	%
CPU Usage [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.	%
CPU Usage [System]	커널에서 사용한 CPU 시간의 백분율	%
CPU Usage [User]	사용자 영역에서 사용한 CPU 시간의 백분율.	%
CPU Usage/Core [Active]	Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율	%
CPU Usage/Core [Idle]	유휴 상태로 소요된 CPU 시간의 비율입니다.	%
CPU Usage/Core [IO Wait]	대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.	%
CPU Usage/Core [System]	커널에서 사용한 CPU 시간의 백분율	%
CPU Usage/Core [User]	사용자 영역에서 사용한 CPU 시간의 백분율.	%
Disk CPU Usage [IO Request]	장치에 대한 입출력 요청이 실행된 CPU 시간의 비율	%
Disk Queue Size [Avg]	장치에 대해 실행된 요청의 평균 대기열 길이입니다.	num
Disk Read Bytes	장치에서 읽는 초당 바이트 수입니다.	bytes
Disk Read Bytes [Delta Avg]	개별 disk들의 system.diskio.read.bytes_delta의 평균	bytes
Disk Read Bytes [Delta Max]	개별 disk들의 system.diskio.read.bytes_delta의 최대	bytes
Disk Read Bytes [Delta Min]	개별 disk들의 system.diskio.read.bytes_delta의 최소	bytes
Disk Read Bytes [Delta Sum]	개별 disk들의 system.diskio.read.bytes_delta의 합	bytes
Disk Read Bytes [Delta]	개별 disk의 system.diskio.read.bytes 값의 delta	bytes
Disk Read Bytes [Success]	성공적으로 읽은 총 바이트 수.	bytes
Disk Read Requests	1초동안 디스크 디바이스의 읽기 요청 수	cnt
Disk Read Requests [Delta Avg]	개별 disk들의 system.diskio.read.count_delta의 평균	cnt
Disk Read Requests [Delta Max]	개별 disk들의 system.diskio.read.count_delta의 최대	cnt
Disk Read Requests [Delta Min]	개별 disk들의 system.diskio.read.count_delta의 최소	cnt
Disk Read Requests [Delta Sum]	개별 disk들의 system.diskio.read.count_delta의 합	cnt
Disk Read Requests [Success Delta]	개별 disk의 system.diskio.read.count 의 delta	cnt
Disk Read Requests [Success]	성공적으로 완료된 총 읽기 수	cnt
Disk Request Size [Avg]	장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다.	num
Disk Service Time [Avg]	장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다.	ms
Disk Wait Time [Avg]	지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다.	ms
Disk Wait Time [Read]	디스크 평균 대기 시간	ms
Disk Wait Time [Write]	디스크 평균 대기 시간	ms
Disk Write Bytes [Delta Avg]	개별 disk들의 system.diskio.write.bytes_delta의 평균	bytes
Disk Write Bytes [Delta Max]	개별 disk들의 system.diskio.write.bytes_delta의 최대	bytes
Disk Write Bytes [Delta Min]	개별 disk들의 system.diskio.write.bytes_delta의 최소	bytes
Disk Write Bytes [Delta Sum]	개별 disk들의 system.diskio.write.bytes_delta의 합	bytes
Disk Write Bytes [Delta]	개별 disk의 system.diskio.write.bytes 값의 delta	bytes
Disk Write Bytes [Success]	성공적으로 쓰여진 총 바이트 수.	bytes
Disk Write Requests	1초동안 디스크 디바이스의 쓰기 요청 수	cnt
Disk Write Requests [Delta Avg]	개별 disk들의 system.diskio.write.count_delta의 평균	cnt
Disk Write Requests [Delta Max]	개별 disk들의 system.diskio.write.count_delta의 최대	cnt
Disk Write Requests [Delta Min]	개별 disk들의 system.diskio.write.count_delta의 최소	cnt
Disk Write Requests [Delta Sum]	개별 disk들의 system.diskio.write.count_delta의 합	cnt
Disk Write Requests [Success Delta]	개별 disk의 system.diskio.write.count 의 delta	cnt
Disk Write Requests [Success]	성공적으로 완료된 총 쓰기 수	cnt
Disk Writes Bytes	장치에 쓰는 초당 바이트 수입니다.	bytes
Filesystem Hang Check	filesystem(local/NFS) hang 체크 (정상:1, 비정상:0)	status
Filesystem Nodes	파일 시스템의 총 파일 노드 수입니다.	cnt
Filesystem Nodes [Free]	파일 시스템의 총 가용 파일 노드 수입니다.	cnt
Filesystem Size [Available]	권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)	bytes
Filesystem Size [Free]	사용 가능한 디스크 공간 (bytes)	bytes
Filesystem Size [Total]	총 디스크 공간 (bytes)	bytes
Filesystem Usage	사용한 디스크 공간 백분율	%
Filesystem Usage [Avg]	개별 filesystem.used.pct들의 평균	%
Filesystem Usage [Inode]	inode 사용률	%
Filesystem Usage [Max]	개별 filesystem.used.pct 중에 max	%
Filesystem Usage [Min]	개별 filesystem.used.pct 중에 min	%
Filesystem Usage [Total]	-	%
Filesystem Used	사용한 디스크 공간 (bytes)	bytes
Filesystem Used [Inode]	inode 사용량	bytes
Memory Free	사용 가능한 총 메모리 양 (bytes).	bytes
Memory Free [Actual]	실제 사용가능한 memory (bytes).	bytes
Memory Free [Swap]	사용가능한 swap memory.	bytes
Memory Total	총 memory	bytes
Memory Total [Swap]	총 swap memory.	bytes
Memory Usage	사용한 memory의 백분율	%
Memory Usage [Actual]	실제 사용된 memory의 백분율	%
Memory Usage [Cache Swap]	cache 된 swap 사용률	%
Memory Usage [Swap]	사용한 swap memory의 백분율	%
Memory Used	사용한 memory	bytes
Memory Used [Actual]	실제 사용된 memory (bytes).	bytes
Memory Used [Swap]	사용한 swap memory.	bytes
Collisions	네트워크 충돌	cnt
Network In Bytes	수신된 byte 수	bytes
Network In Bytes [Delta Avg]	개별 network들의 system.network.in.bytes_delta의 평균	bytes
Network In Bytes [Delta Max]	개별 network들의 system.network.in.bytes_delta의 최대	bytes
Network In Bytes [Delta Min]	개별 network들의 system.network.in.bytes_delta의 최소	bytes
Network In Bytes [Delta Sum]	개별 network 들의 system.network.in.bytes_delta의 합	bytes
Network In Bytes [Delta]	수신된 byte 수의 delta	bytes
Network In Dropped	들어온 packet 중 삭제된 패킷의 수	cnt
Network In Errors	수신 중의 error 수	cnt
Network In Packets	수신된 packet 수	cnt
Network In Packets [Delta Avg]	개별 network들의 system.network.in.packets_delta의 평균	cnt
Network In Packets [Delta Max]	개별 network들의 system.network.in.packets_delta의 최대	cnt
Network In Packets [Delta Min]	개별 network들의 system.network.in.packets_delta의 최소	cnt
Network In Packets [Delta Sum]	개별 network들의 system.network.in.packets_delta의 합	cnt
Network In Packets [Delta]	수신된 packet 수의 delta	cnt
Network Out Bytes	송신된 byte 수	bytes
Network Out Bytes [Delta Avg]	개별 network들의 system.network.out.bytes_delta의 평균	bytes
Network Out Bytes [Delta Max]	개별 network들의 system.network.out.bytes_delta의 최대	bytes
Network Out Bytes [Delta Min]	개별 network들의 system.network.out.bytes_delta의 최소	bytes
Network Out Bytes [Delta Sum]	개별 network들의 system.network.out.bytes_delta의 합	bytes
Network Out Bytes [Delta]	송신된 byte 수의 delta	bytes
Network Out Dropped	나가는 packet 중 삭제된 packet 수.	cnt
Network Out Errors	송신 중의 error 수	cnt
Network Out Packets	송신된 packet 수	cnt
Network Out Packets [Delta Avg]	개별 network들의 system.network.out.packets_delta의 평균	cnt
Network Out Packets [Delta Max]	개별 network들의 system.network.out.packets_delta의 최대	cnt
Network Out Packets [Delta Min]	개별 network들의 system.network.out.packets_delta의 최소	cnt
Network Out Packets [Delta Sum]	개별 network들의 system.network.out.packets_delta의 합	cnt
Network Out Packets [Delta]	송신된 packet 수의 delta	cnt
Open Connections [TCP]	열려 있는 모든 TCP 연결	cnt
Open Connections [UDP]	열려 있는 모든 UDP 연결	cnt
Port Usage	접속가능한 port 사용률	%
SYN Sent Sockets	SYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시)	cnt
Kernel PID Max	kernel.pid_max 값	cnt
Kernel Thread Max	kernel.threads-max 값	cnt
Process CPU Usage	마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율.	%
Process CPU Usage/Core	마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율.	%
Process Memory Usage	main memory (RAM) 에서 프로세스가 차지하는 비율	%
Process Memory Used	Resident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양.	bytes
Process PID	프로세스 pid	PID
Process PPID	부모 프로세스의 pid	PID
Processes [Dead]	dead processes 수	cnt
Processes [Idle]	idle processes 수	cnt
Processes [Running]	running processes 수	cnt
Processes [Sleeping]	sleeping processes 수	cnt
Processes [Stopped]	stopped processes 수	cnt
Processes [Total]	총 processes 수	cnt
Processes [Unknown]	상태를 검색할 수 없거나 알 수 없는 processes 수	cnt
Processes [Zombie]	좀비 processes 수	cnt
Running Process Usage	process 사용률	%
Running Processes	running processes 수	cnt
Running Thread Usage	thread 사용률	%
Running Threads	running processes 에서 실행중인 thread 수 총합	cnt
Context Switches	context switch 수 (초당)	cnt
Load/Core [1 min]	마지막 1 분 동안의 로드를 코어 수로 나눈 값	cnt
Load/Core [15 min]	마지막 15 분 동안의 로드를 코어 수로 나눈 값	cnt
Load/Core [5 min]	마지막 5 분 동안의 로드를 코어 수로 나눈 값	cnt
Multipaths [Active]	외장 스토리지 연결 path status = active 카운트	cnt
Multipaths [Failed]	외장 스토리지 연결 path status = failed 카운트	cnt
Multipaths [Faulty]	외장 스토리지 연결 path status = faulty 카운트	cnt
NTP Offset	last sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이)	num
Run Queue Length	실행 대기열 길이	num
Uptime	OS 가동시간(uptime). (milliseconds)	ms
Context Switchies	CPU context switch 수 (초당)	cnt
Disk Read Bytes [Sec]	windows logical 디스크에서 1초동안 읽어들인 바이트 수	cnt
Disk Read Time [Avg]	데이터 읽기 평균 시간 (초)	sec
Disk Transfer Time [Avg]	디스크 average wait time	sec
Disk Usage	디스크 사용률	%
Disk Write Bytes [Sec]	windows logical 디스크에서 1초동안 쓰여진 바이트 수	cnt
Disk Write Time [Avg]	데이터 쓰기 평균 시간 (초)	sec
Pagingfile Usage	paging file 사용률	%
Pool Used [Non Paged]	커널 메모리 중 Nonpaged Pool 사용량	bytes
Pool Used [Paged]	커널 메모리 중 Paged Pool 사용량	bytes
Process [Running]	현재 동작 중인 프로세스 수	cnt
Threads [Running]	현재 동작 중인 thread 수	cnt
Threads [Waiting]	프로세서 시간을 기다리는 thread 수	cnt

표. GPU Server 추가 모니터링 지표 (Agent 설치 필요)

1.3 - ServiceWatch 지표

GPU Server는 ServiceWatch로 지표를 전송합니다. 기본 모니터링으로 제공되는 지표는 5분 주기로 수집된 데이터입니다. 세부 모니터링을 활성화하면, 1분 주기로 수집된 데이터를 확인할 수 있습니다.

안내

GPU Server의 기본 모니터링과 세부 모니터링은 Virtual Server와 동일한 지표로 제공되며, 네임스페이스도 Virtual Server로 제공됩니다.
GPU 관련 지표는 ServiceWatch Agent를 통해 제공되며, ServiceWatch Agent를 사용하여 지표를 수집하는 방법은 ServiceWatch Agent 가이드를 참고하세요.

참고

ServiceWatch에서 지표를 확인하는 방법은 ServiceWatch 가이드를 참고하세요.

GPU Server의 세부 모니터링 활성화하는 방법은 How-to guides > ServiceWatch 세부 모니터링 활성화하기를 참고하세요.

기본 지표

다음은 네임스페이스 Virtual Server에 대한 기본 지표입니다.

성능 항목	상세 설명	단위	의미있는 통계
Instance State	인스턴스 상태 표시	-	-
CPU Usage	CPU 사용률	%	평균 최고 최저
Disk Read Bytes	블록 장치에서 읽은 용량(바이트)	Bytes	합계 평균 최고 최저
Disk Read Requests	블록 장치에서의 읽기 요청 수	Count	합계 평균 최고 최저
Disk Write Bytes	블록 장치에서 쓰기 용량(바이트)	Bytes	합계 평균 최고 최저
Disk Write Requests	블록 장치에서의 쓰기 요청 수	Count	합계 평균 최고 최저
Network In Bytes	네트워크 인터페이스에서 수신된 용량(바이트)	Bytes	합계 평균 최고 최저
Network In Dropped	네트워크 인터페이스에서 수신된 패킷 드롭 수	Count	합계 평균 최고 최저
Network In Packets	네트워크 인터페이스에서 수신된 패킷 수	Count	합계 평균 최고 최저
Network Out Bytes	네트워크 인터페이스에서 전송된 용량(바이트)	Bytes	합계 평균 최고 최저
Network Out Dropped	네트워크 인터페이스에서 전송된 패킷 드롭 수	Count	합계 평균 최고 최저
Network Out Packets	네트워크 인터페이스에서 전송된 패킷 수	Count	합계 평균 최고 최저

표. Virtual Server 기본 지표

2 - How-to guides

사용자는 Samsung Cloud Platform Console을 통해 GPU Server의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.

GPU Server 생성하기

Samsung Cloud Platform Console에서 GPU Server 서비스를 생성하여 사용할 수 있습니다.

GPU Server 생성하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 생성 버튼을 클릭하세요. GPU Server 생성 페이지로 이동합니다.

GPU Server 생성 페이지에서 서비스 생성에 필요한 정보들을 입력하고, 상세 옵션을 선택하세요.

이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.

구분	필수 여부	상세 설명
이미지	필수	제공하는 이미지 종류 선택 RHEL, Ubuntu
이미지 버전	필수	선택한 이미지의 버전 선택 제공하는 서버 이미지의 버전 리스트 제공 제공 서버 이미지에 대한 자세한 정보는 OS 및 GPU 드라이버 버전 참고

구분

필수 여부

상세 설명

이미지

필수

제공하는 이미지 종류 선택

RHEL, Ubuntu

이미지 버전

필수

선택한 이미지의 버전 선택

제공하는 서버 이미지의 버전 리스트 제공

제공 서버 이미지에 대한 자세한 정보는 OS 및 GPU 드라이버 버전 참고

표. GPU Server 이미지 및 버전 선택 입력 항목

서비스 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.

구분	필수 여부	상세 설명
서버 수	필수	동시 생성할 GPU Server 서버 수 숫자만 입력 가능하며 1~100 사이의 값을 입력
서비스 유형 > 서버 타입	필수	GPU Server 서버 타입 GPU 타입의 서버 사양을 나타내며 GPU 1장, 2장, 4장, 8장을 포함한 서버를 선택 GPU Server에서 제공하는 서버 타입에 대한 자세한 내용은 GPU Server 서버 타입을 참고
서비스 유형 > Planned Compute	선택	Planned Compute가 설정된 자원 현황 사용중: Planned Compute가 설정된 자원 중 사용 중인 개수 설정: Planned Compute가 설정된 자원의 개수 Coverage 미리보기: 자원별 Planned Compute로 적용된 금액 Planned Compute 서비스 신청: Planned Compute 서비스 신청 페이지로 이동 자세한 내용은 Planned Compute 신청하기를 참고
Block Storage	필수	용도에 따라 GPU Server가 사용하는 Block Storage를 설정 기본: OS가 설치되어 사용되는 영역 용량은 Unit 단위로 입력 가능(OS 이미지의 종류에 따라 최소 용량이 다름) RHEL: 3 ~ 1,536 사이의 값 입력 가능 Ubuntu: 3 ~ 1,536 사이의 값 입력 가능 SSD: 고성능 일반 볼륨 HDD: 일반 볼륨 SSD/HDD_KMS: Samsung Cloud Platform KMS (Key Management System) 암호화 키를 사용하는 추가 암호화 볼륨 암호화 적용은 최초 생성 시에만 가능(생성 후, 변경 불가) SSD_KMS 디스크 유형 사용 시 성능 저하 발생 추가: OS 영역 외 사용자 추가 공간 필요 시 사용 사용을 선택한 후, Storage의 유형과 용량 입력 Storage를 추가하려면 + 버튼을 클릭(최대 25개까지 추가 가능), 삭제하려면 x 버튼 클릭 용량은 Unit 단위로 1 ~ 1,536 사이의 값을 입력 가능 1 Unit이 8 GB이므로 8 ~ 12,288 GB가 생성 SSD: 고성능 일반 볼륨 HDD: 일반 볼륨 SSD/HDD_KMS: Samsung Cloud Platform KMS (Key Management System) 암호화 키를 사용하는 추가 암호화 볼륨 암호화 적용은 최초 생성 시에만 가능(생성 후, 변경 불가) SSD_KMS 디스크 유형 사용 시 성능 저하가 발생할 있음 Block Storage 유형별 자세한 내용은 Block Storage 생성하기를 참고 Delete on termination: Delete on Termination을 사용으로 선택한 경우, 서버를 해지할 때 해당 볼륨을 함께 해지 스냅샷이 존재하는 볼륨은 Delete on termination을 사용으로 선택한 경우에도 삭제되지 않음 Multi attach 볼륨은 삭제하려는 서버가 볼륨에 연결된 마지막 남은 서버일 때만 삭제

표. GPU Server 서비스 구성 항목

필수 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.

구분	필수 여부	상세 설명
서버명	필수	선택한 서버 수가 1인 경우에 서버 구별을 위한 이름 입력 입력한 서버 이름으로 hostname을 설정 영문,숫자,공백과 특수문자(`-` `_`)를 사용하여 63자 이내로 입력
서버명 Prefix	필수	선택한 서버 수가 2이상인 경우에 생성되는 각각의 서버 구별을 위한 Prefix 입력 사용자 입력값(prefix) + ‘`-#`’ 형태로 자동 생성 영문, 숫자, 공백과 특수문자(`-`, `_`)를 사용하여 59자 이내로 입력
네트워크 설정 > 신규 네트워크 포트 생성	필수	GPU Server가 설치될 네트워크를 설정 미리 생성한 VPC를 선택합니다. 일반 Subnet: 미리 생성한 일반 Subnet을 선택 IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능. 사용을 체크하면 NAT IP를 선택 가능 NAT IP: NAT IP를 선택 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성해야 함 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택 Public IP를 생성하면 Public IP 요금 기준에 따라 요금이 부과 로컬 Subnet(선택): 로컬 Subnet 사용을 선택 서비스를 생성하는데 필수 요소는 아님 미리 생성한 로컬 Subnet을 선택해야 함 IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 가능 Security Group: 서버에 접속하기 위해 필요한 설정 선택: 미리 생성한 Security Group을 선택 신규 생성: 적용할 Security Group이 없는 경우 Security Group 서비스에서 별도로 생성 가능 최대 5개까지 선택 가능 Security Group을 설정하지 않으면 기본적으로 모든 접속을 차단함 필요한 접속을 허용하기 위해서 Security Group을 설정해야 함
네트워크 설정 > 기존 네트워크 포트 지정	필수	GPU Server가 설치될 네트워크를 설정 미리 생성한 VPC를 선택 일반 Subnet: 미리 생성한 일반 Subnet과 Port를 선택 NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능 사용을 체크하면 NAT IP를 선택할 수 있습니다. NAT IP: NAT IP를 선택 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택 로컬 Subnet(선택): 로컬 Subnet의 사용 을 선택 미리 생성한 로컬 Subnet과 Port를 선택
Keypair	필수	서버에 연결할 때 사용할 사용자 증명 방법 신규 생성: 새로운 Keypair가 필요한 경우 신규 생성 신규 Keypair 생성 방법은 Keypair 생성하기 를 참고 OS별 기본 접속 계정 리스트 RHEL: cloud-user Ubuntu: ubuntu

표. GPU Server 필수 정보 입력 항목

추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.

구분	필수 여부	상세 설명
Lock	선택	Lock 사용 여부 설정 Lock을 사용하면 서버 해지, 시작, 중지 등의 동작을 실행할 수 없도록 하여 실수로 인한 오동작을 방지
Init script	선택	서버 시작 시, 실행하는 스크립트 Init script는 이미지 종류에 따라 Windows의 경우 Batch script, Linux의 경우 Shell script 또는 cloud-init로 작성되어야 함. 최대 45,000 bytes까지 입력 가능
태그	선택	태그 추가 자원 당 최대 50개까지 추가 가능 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택

구분

필수 여부

상세 설명

Lock

선택

Lock 사용 여부 설정

Lock을 사용하면 서버 해지, 시작, 중지 등의 동작을 실행할 수 없도록 하여 실수로 인한 오동작을 방지

Init script

선택

서버 시작 시, 실행하는 스크립트

Init script는 이미지 종류에 따라 Windows의 경우 Batch script, Linux의 경우 Shell script 또는 cloud-init로 작성되어야 함.

최대 45,000 bytes까지 입력 가능

태그

선택

태그 추가

자원 당 최대 50개까지 추가 가능

태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택

표. GPU Server 추가 정보 입력 항목

요약 패널에서 생성한 상세 정보와 예상 청구 금액을 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, GPU Server 목록 페이지에서 생성한 자원을 확인하세요.

GPU Server 상세 정보 확인하기

GPU Server 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. GPU Server 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

GPU Server 서비스의 상세 정보를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.

GPU Server 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.

GPU Server 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.

GPU Server 부가 기능에 대한 자세한 내용은 GPU Server 관리 부가 기능을 참고하세요.

구분	상세 설명
GPU Server 상태	사용자가 생성한 GPU Server의 상태 Build: Build 명령이 전달된 상태 Building: Build 진행중 Networking: 서버 생성 진행중 프로세스 Scheduling: 서버 생성 진행중 프로세스 Block_Device_Mapping: 서버 생성시 Block Storage 연결 중 Spawning: 서버 생성 프로세스가 진행 중인 상태 Active: 사용 가능한 상태 Powering_off: 중지 요청시 상태 Deleting: 서버 삭제 진행 중 Reboot_Started: Reboot 진행중 상태 Error: 에러 상태 Migrating: 다른 호스트로 서버 Migration 되는 상태 Reboot: Reboot 명령이 전달된 상태 Rebooting: 재시작 진행 중 Rebuild: Rebuild 명령이 전달된 상태 Rebuilding: Rebuild 요청 시 상태 Rebuild_Spawning: Rebuild 프로세스가 진행중인 상태 Resize: Resize 명령이 전달된 상태 Resizing: Resize 진행 중 Resize_Prep: 서버 타입 수정 요청 시 상태 Resize_Migrating: 서버가 Resize 진행 동시에 다른 호스토로 이동 중인 상태 Resize_Migrated: 서버가 Resize 진행 동시에 다른 호스트로 이동 완료된 상태 Resize_Finish: Resize가 완료 Revert_Resize: 어떤 이유로 서버의 Resize 또는 마이그레이션 실패. 대상 서버가 정리되고 원래 원본 서버가 다시 시작 Shutoff: Powering off 완료 시 상태 Verity_Resize: 서버 타입 수정 요청에 따라 Resize_Prep 진행 이후, 서버 타입 확정/서버 타입 원복 선택 가능 상태 Resize_Reverting: 서버 타입 원복 요청 시 상태 Resize_Confirming: 서버의 Resize 요청을 확인 중인 상태
서버 제어	서버 상태를 변경할 수 있는 버튼 시작: 중지된 서버를 시작 중지: 가동 중인 서버를 중지 재시작: 가동 중인 서버를 재시작
이미지 생성	현재 서버의 이미지로 사용자 Custom 이미지 생성
콘솔 로그	현재 서버의 콘솔 로그 조회 현재 서버에서 출력되는 콘솔 로그를 확인할 수 있음. 자세한 내용은 콘솔 로그 확인하기를 참고하세요.
Dump 생성	현재 서버의 Dump를 생성 Dump 파일은 GPU Server 안에 생성됨 자세한 Dump 생성 방법은 Dump 생성하기를 참고
Rebuild	기존 서버의 모든 데이터와 설정이 삭제되고, 새로운 서버를 구성 자세한 내용은 Rebuild 수행하기를 참고하세요.
서비스 해지	서비스를 해지하는 버튼

표. GPU Server 상태 정보 및 부가 기능

안내

mig 기능을 사용하는 경우, GPU Server의 Rebooting 상태가 끝난 후, mig 설정을 다시 확인해야 합니다.

상세 정보

GPU Server 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분	상세 설명
서비스	서비스명
자원 유형	자원 유형
SRN	Samsung Cloud Platform에서의 고유 자원 ID GPU Server 서비스에서는 GPU Server SRN을 의미
자원명	자원 이름 GPU Server 서비스에서는 GPU Server 명을 의미
자원 ID	서비스에서의 고유 자원 ID
생성자	서비스를 생성한 사용자
생성 일시	서비스를 생성한 일시
수정자	서비스 정보를 수정한 사용자
수정 일시	서비스 정보를 수정한 일시
서버명	서버 이름
서버 타입	vCPU, 메모리, GPU정보 표시 다른 서버 타입으로 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정
이미지명	서비스의 OS 이미지 및 버전
Lock	Lock 사용/미사용 여부 표시 Lock 속성값 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정
Keypair명	사용자가 설정한 서버 인증 정보
Planned Compute	Planned Compute가 설정된 자원 현황 자세한 내용은 Planned Compute 신청하기를 참고하세요.
LLM Endpoint	LLM 이용을 위한 URL 자세한 내용은 AIOS 개요 참고
ServiceWatch 세부 모니터링	활성화 시 ServiceWatch 서비스에서 데이터 모니터링 가능 수정 버튼을 클릭하여 활성화 여부 설정 가능 ServiceWatch 서비스에 대한 자세한 내용은 ServiceWatch 개요 참고
네트워크	GPU Server의 네트워크 정보 VPC, 일반 Subnet서브넷, IP, NAT IP, NAT IP 상태, Security Group NAT IP 값 변경이 필요한 경우 수정 버튼을 클릭하여 설정 가능 Security Group 변경이 필요한 경우 수정 버튼을 클릭하여 설정 가능 신규 네트워크로 추가: 일반 Subnet과 IP를 선택 같은 VPC 내의 다른 일반 Subnet 선택 가능 IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 가능 기존 포트로 추가: 미리 생성한 일반 Subnet과 포트를 선택
로컬 Subnet	GPU Server의 로컬 Subnet 정보 로컬 Subnet, 로컬 Subnet IP, Security Group Security Group 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정 가능 신규 네트워크로 추가: 로컬 Subnet과 IP를 선택 같은 VPC 내의 다른 로컬 Subnet 선택 가능 IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 기존 포트로 추가: 미리 생성한 로컬 Subnet과 포트를 선택
Block Storage	서버에 연결된 Block Storage의 정보 볼륨ID, 볼륨명, 유형, 용량, 연결정보, 종류, Delete on termination, 상태 추가: 필요 시 추가적인 Block Storage를 연결 가능 Delete on termination 수정: Delete on termination 값 수정 연결 해제: 추가로 연결된 Block Storage의 연결 해제

표. GPU Server 상세 정보 탭 항목

주의

ServiceWatch 세부 모니터링을 사용할 경우, 추가 요금이 부과됩니다.

구분	상세 설명
태그 목록	태그 목록 태그의 Key, Value 정보 확인 가능 태그는 자원 당 최대 50개까지 추가 가능 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택 가능

작업 이력

GPU Server 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분	상세 설명
작업 이력 목록	자원 변경 이력 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인

표. 작업 이력 탭 상세 정보 항목

GPU Server 가동 제어하기

생성된 GPU Server 자원의 가동 제어가 필요한 경우, GPU Server 목록 또는 GPU Server 상세 페이지에서 작업을 수행할 수 있습니다. 가동 중인 서버의 시작, 중지, 재시작을 할 수 있습니다.

GPU Server 시작하기

중지(Shutoff)된 GPU Server를 시작할 수 있습니다. GPU Server를 시작하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 중지(Shutoff)된 서버 중 시작할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
- GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 시작할 수 있습니다.
- 여러 대 서버를 체크 박스 선택한 후, 상단의 시작 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
GPU Server 상세 페이지에서 상단의 시작 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
- GPU Server 시작이 완료되면 서버 상태가 Shutoff에서 Active로 변경됩니다.
- GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 중지하기

가동(Active)중인 GPU Server를 중지할 수 있습니다. GPU Server를 중지하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 가동(Active) 중인 서버 중 중지할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
- GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 중지할 수 있습니다.
- 여러 대 서버를 체크 박스 선택한 후, 상단의 중지 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
GPU Server 상세 페이지에서 상단의 중지 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
- GPU Server 중지가 완료되면 서버 상태가 Active에서 Shutoff로 변경됩니다.
- GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 재시작하기

생성된 GPU Server를 재시작할 수 있습니다. GPU Server를 재시작하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 재시작할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
- GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 재시작할 수 있습니다.
- 여러 대 서버를 체크 박스 선택한 후, 상단의 재시작 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
GPU Server 상세 페이지에서 상단의 재시작 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
- GPU Server 재시작 중에는 서버 상태가 Rebooting을 거쳐 최종 Active로 변경됩니다.
- GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 자원 관리하기

생성된 GPU Server 자원의 서버 제어 및 관리 기능이 필요한 경우, GPU Server 자원목록 또는 GPU Server 상세 페이지에서 작업을 수행할 수 있습니다.

Image 생성하기

가동 중인 GPU Server의 Image를 생성할 수 있습니다.

참고

해당 내용은 가동 중인 GPU Server의 Image로 사용자 Custom Image를 생성하는 방법을 안내하고 있습니다.

GPU Server 목록 또는 GPU Server 상세 페이지에서 이미지 생성 버튼을 클릭하여 사용자 Custom Image를 생성합니다.

GPU Server의 Image를 생성하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 Image 생성할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 이미지 생성 버튼을 클릭하세요. Image 생성 페이지로 이동합니다.
- 서비스 정보 입력 영역에서 필요한 정보를 입력하세요.
  구분
  필수 여부
  상세 설명
  이미지명 필수 생성할 이미지의 이름
  영문, 숫자, 공백과 특수문자(- _)를 사용하여 200자 이내로 입력
  표. Image 서비스 정보 입력 항목
입력 정보를 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, 모든 서비스 > Compute > GPU Server > Image 목록 페이지에서 생성한 자원을 확인하세요.

구분	필수 여부	상세 설명
이미지명	필수	생성할 이미지의 이름 영문, 숫자, 공백과 특수문자(`-` `_`)를 사용하여 200자 이내로 입력

안내

Image를 생성하면 생성된 Image를 내부 저장소로 사용되는 Object Storage에 저장하게됩니다. 따라서 Image 저장에 대한 Object Storage 사용 요금이 부과 됩니다.
Active 상태인 GPU Server로부터 생성된 이미지의 파일 시스템은 무결성을 보장할 수 없으므로 서버 정지 후 이미지 생성을 권장합니다.

ServiceWatch 세부 모니터링 활성화하기

기본적으로 GPU Server는 ServiceWatch와 Virtual Server 네임스페이스의 기본 모니터링으로 연계되어 있습니다. 필요에 따라 세부 모니터링을 활성화하여 운영 문제를 보다 신속하게 식별하고 조치를 취할 수 있습니다. ServiceWatch에 대한 자세한 내용은 ServiceWatch 개요를 참조하세요.

참고

GPU Server는 Virtual Server와 동일한 네임스페이스의 기본 모니터링과 세부 모니터링을 제공됩니다. GPU Server의 GPU 지표는 ServiceWatch Agent로 제공될 예정입니다. (25년 12월 예정)

주의

기본 모니터링은 무료로 제공되지만, 세부 모니터링을 활성화하면 추가 요금이 부과됩니다. 이용에 유의하세요.

GPU Server의 ServiceWatch 세부 모니터링 활성화하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 ServiceWatch 세부 모니터링 활성화할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 수정 버튼을 클릭하세요. ServiceWatch 세부 모니터링 수정 팝업창으로 이동합니다.
ServiceWatch 세부 모니터링 수정 팝업창에서 활성화 선택한 후, 안내 문구를 확인하고 확인 버튼을 클릭하세요.
GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 항목을 확인하세요.

ServiceWatch 세부 모니터링 비활성화 하기

주의

비용 효율화를 위해 세부 모니터링 비활성화가 필요합니다. 반드시 필요한 경우에만 세부 모니터링을 활성화를 유지하고, 나머지는 세부 모니터링을 비활성화하세요.

GPU Server의 ServiceWatch 세부 모니터링 비활성화하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 ServiceWatch 세부 모니터링 비활성화할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 수정 버튼을 클릭하세요. ServiceWatch 세부 모니터링 수정 팝업창으로 이동합니다.
ServiceWatch 세부 모니터링 수정 팝업창에서 활성화 선택 해제한 후, 안내 문구를 확인하고 확인 버튼을 클릭하세요.
GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 항목을 확인하세요.

GPU Server 관리 부가 기능

GPU Server 서버 관리를 위해 Console 로그 조회, Dump 생성, Rebuild를 할 수 있습니다. GPU Server의 Console 로그 조회, Dump 생성, Rebuild를 하려면 다음 절차를 따르세요.

콘솔 로그 확인하기

GPU Server의 현재 콘솔 로그를 확인할 수 있습니다.

GPU Server의 콘솔 로그 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 콘솔 로그를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 콘솔 로그 버튼을 클릭하세요. 콘솔 로그 팝업창으로 이동합니다.
콘솔 로그 팝업창에서 출력된 콘솔 로그를 확인합니다.

Dump 생성하기

GPU Server의 Dump 파일을 생성하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 Dump 생성 버튼을 클릭하세요.
- Dump 파일은 GPU Server 안에 생성됩니다.

Rebuild 수행하기

기존 GPU Server 서버의 모든 데이터와 설정을 삭제하고, 새로운 서버로 Rebuild하여 구성할 수 있습니다.

GPU Server의 Rebuild를 수행하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 Rebuild를 수행할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 Rebuild 버튼을 클릭하세요.
- GPU Server Rebuild 중에는 서버 상태가 Rebuilding로 변경되었다가 Rebuild가 완료되면 Rebuild 수행 전 상태로 돌아옵니다.
- GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 해지하기

사용하지 않는 GPU Server를 해지하면 운영 비용을 절감할 수 있습니다. 단, GPU Server를 해지하면 운영 중인 서비스가 즉시 중단될 수 있으므로 서비스 중단 시 발생하는 영향을 충분히 고려한 후 해지 작업을 진행해야 합니다.

주의

서비스 해지 후에는 데이터를 복구할 수 없으므로 주의해주세요.

GPU Server를 해지하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 해지할 자원을 선택하고, 서비스 해지 버튼을 클릭하세요.
- 연결된 스토리지의 해지는 Delete on termination 설정에 따라 다르오니, 해지 제약 사항을 참고하세요.
해지가 완료되면, GPU Server 목록 페이지에서 자원이 해지되었는지 확인하세요.

해지 제약 사항

GPU Server 해지 요청 시 해지가 불가한 경우에는 팝업창으로 안내합니다. 아래 케이스를 참고하세요.

해지 불가

File Storage가 연결된 경우는 File Storage 연결을 먼저 해지해주세요.
LB Pool이 연결된 경우는 LB Pool 연결을 먼저 해지해 주세요.
Lock이 설정된 경우는 Lock 설정을 미사용으로 변경 후 재시도 해주세요.

연결된 스토리지의 해지는 Delete on termination 설정에 따라 달라집니다.

Delete on termination 설정 별 삭제

Delete on termination 설정 여부에 따라 볼륨 삭제 여부도 달라집니다.
- Delete on termination 미설정 시: GPU Server를 해지해도 해당 볼륨이 삭제되지 않습니다.
- Delete on termination 설정 시: GPU Server를 해지하면 해당 볼륨이 삭제됩니다.
Snapshot이 존재하는 볼륨은 Delete on termination이 설정되어도 삭제되지 않습니다.
Multi attach 볼륨은 삭제하려는 서버가 볼륨에 연결된 마지막 남은 서버일 때만 삭제됩니다.

2.1 - Image 관리하기

사용자는 Samsung Cloud Platform Console을 통해 GPU Server 서비스 내 Image 서비스의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 해당 서비스를 생성할 수 있습니다.

Image 생성하기

가동 중인 GPU Server 서버의 Image를 생성할 수 있습니다. GPU Server의 Image를 생성하려면 Image 생성하기를 참고해주세요.

Image 상세 정보 확인하기

Image 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. Image 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

Image 서비스의 상세 정보를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.

Image 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Image 상세 페이지로 이동합니다.

Image 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.

구분	상세 설명
이미지 상태	사용자가 생성한 Image의 상태 Active: 사용 가능한 상태 Queued: Image 생성 생성 시, Image가 업로드 되어 처리 대기 중인 상태 Importing: Image 생성 생성 시, Image가 업로드 되어 처리 중인 상태
다른 Account로 공유	Image를 다른 Account로 공유 가능 Image의 Visibility가 Shared 상태이어야만 다른 Account로 공유 가능
이미지 삭제	Image를 삭제하는 버튼 Image를 삭제하면 복구 불가

구분

상세 설명

이미지 상태

사용자가 생성한 Image의 상태

Active: 사용 가능한 상태

Queued: Image 생성 생성 시, Image가 업로드 되어 처리 대기 중인 상태

Importing: Image 생성 생성 시, Image가 업로드 되어 처리 중인 상태

다른 Account로 공유

Image를 다른 Account로 공유 가능

Image의 Visibility가 Shared 상태이어야만 다른 Account로 공유 가능

이미지 삭제

Image를 삭제하는 버튼

Image를 삭제하면 복구 불가

표. GPU Server Image 상태 정보 및 부가 기능

상세 정보

Image 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분	상세 설명
서비스	서비스명
자원 유형	자원 유형
SRN	Samsung Cloud Platform에서의 고유 자원 ID GPU Server Image의 SRN을 의미
자원명	Image 이름
자원 ID	Image ID
생성자	Image를 생성한 사용자
생성 일시	Image를 생성한 일시
수정자	Image를 수정한 사용자
수정 일시	Image를 수정한 일시
이미지명	Image 이름
최소 디스크	Image의 최소 디스크 용량(GB) 최소 디스크 수정이 필요한 경우에는 수정 버튼을 클릭하여 설정
최소 RAM	Image의 최소 RAM 용량(GB)
OS 타입	Image의 OS 타입
OS hash algorithm	OS hash algorithm 방식
Visibility	이미지에 대한 접근 권한을 표시 Private은 프로젝트 내에서만 사용이 가능하고, Shared는 프로젝트 간 공유가 가능
Protected	이미지 삭제 불가 여부를 선택 사용을 체크하면 이미지를 실수로 삭제하지 않도록 방지 가능 해당 설정은 이미지 생성 이후 변경 가능
이미지 파일 URL	이미지 생성 시 업로드 한 이미지 파일 URL GPU Server 상세페이지에서 이미지 생성 메뉴로 만든 이미지의 경우 표시되지 않음
공유 현황	다른 Account로 이미지를 공유하고 있는 현황 승인 Account ID: 공유가 승인된 Account의 ID 수정 일시: 다른 Account로 공유를 요청한 일시, 이후 공유 상태가 Pending → Accepted 변경되면 해당 일시로 업데이트됨 상태: 승인 상태 Accepted: 승인되어 공유하고 있음 Pending: 승인을 기다리고 있음 삭제: 공유가 중지됨

표. Image 상세 정보 탭 항목

구분	상세 설명
태그 목록	태그 목록 태그의 Key, Value 정보 확인 가능 태그는 자원 당 최대 50개까지 추가 가능 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택 가능

작업 이력

Image 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분	상세 설명
작업 이력 목록	자원 변경 이력 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인

표. GPU Server Image 작업 이력 탭 상세 정보 항목

Image 자원 관리하기

생성된 Image 의 제어 및 관리 기능을 설명합니다.

다른 Account로 공유하기

Image를 다른 Account로 공유하려면 다음 절차를 따르세요.

공유할 Account에 접속하여 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
Image 목록 페이지에서 제어할 Image를 클릭하세요. Image 상세 페이지로 이동합니다.
다른 Account로 공유 버튼을 클릭하세요. 다른 Account로 이미지 공유 페이지로 이동합니다.
- 다른 Account로 공유 기능을 통해 Image를 다른 Account로 공유할 수 있습니다. Image를 다른 Account로 공유하려면 Image의 Visibility가 Shared이어야 합니다.

다른 Account로 이미지 공유 페이지에서 필요한 정보를 입력하고 완료 버튼을 클릭하세요.

구분	필수 여부	상세 설명
이미지명	-	공유할 이미지의 이름 입력 불가
이미지 ID	-	공유할 이미지 ID 입력 불가
공유 Account ID	필수	공유할 다른 Account ID 입력 영문, 숫자, 특수문자`-`를 사용하여 64자 이내로 입력

표. 다른 Account로 이미지 공유 필수 입력 항목

Image 상세 페이지의 공유 현황에서 정보를 확인할 수 있습니다.
- 최초 요청 시에는 상태가 Pending 이고, 공유 받을 Account에서 승인이 완료되면 Accepted로 변경됩니다.

안내

현재 사용자의 Image 파일 업로드를 통해 생성한 Image만 다른 Account로 공유가 가능합니다. 가동 중인 GPU Server의 Image로 Custom Image를 생성한 경우 다른 Account로 공유가 되지 않으며 해당 기능은 제공 예정이니 참고하세요.

다른 Account로부터 공유받기

Image를 다른 Account로부터 공유받으려면 다음 절차를 따르세요.

공유 받을 Account에 접속하여 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
Image 목록 페이지에서 이미지 공유 받기 버튼을 클릭하세요. 이미지 공유 받기 팝업창으로 이동합니다.
이미지 공유 받기 팝업창에서 공유 받고자 하는 Image의 자원 ID를 입력하고, 확인 버튼을 클릭하세요.
이미지 공유 받기가 완료되면 Image 목록에서 공유받은 Image를 확인할 수 있습니다.

Image 삭제하기

사용하지 않는 Image를 삭제할 수 있습니다. 단, Image를 삭제하면 복구할 수 없으므로 Image 삭제 시에는 발생하는 영향을 충분히 고려한 후 삭제 작업을 진행해야 합니다.

주의

서비스 삭제 후에는 데이터를 복구할 수 없으므로 주의해주세요.

Image를 삭제하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
Image 목록 페이지에서 삭제할 자원을 선택하고, 삭제 버튼을 클릭하세요.
- Image 목록 페이지에서 다수의 Image 체크 박스를 선택하고, 자원 목록 상단의 삭제 버튼을 클릭하세요.
삭제가 완료되면 Image 목록 페이지에서 자원이 삭제되었는지 확인하세요.

2.2 - Keypair 관리하기

사용자는 Samsung Cloud Platform Console을 통해 GPU Server 서비스 내 Keypair의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.

Keypair 생성하기

Samsung Cloud Platform Console에서 GPU Server 서비스를 사용하면서 Keypair 서비스를 생성하여 사용할 수 있습니다.

Keypair 생성하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
Keypair 목록 페이지에서 Keypair 생성 버튼을 클릭하세요. Keypair 생성 페이지로 이동합니다.
- 서비스 정보 입력 영역에서 필요한 정보를 입력하세요.
  구분
  필수 여부
  상세 설명
  Keypair명 필수 생성할 Keypair의 이름
  영문, 숫자, 공백과 특수문자(-, _)를 사용하여 255자 이내로 입력
  Keypair 유형 필수 ssh
  표. Keypair 서비스 정보 입력 항목
- 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
  구분
  필수 여부
  상세 설명
  태그 선택 태그 추가
  자원 당 최대 50개까지 추가 가능
  태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
  표. Keypair 추가 정보 입력 항목
  주의
  - 생성 완료 후 최초 1회에 한해서 Key를 다운로드할 수 있습니다. 재발급이 불가능하므로, 다운로드 되었는지 확인하세요.
  - 다운로드 받은 Private Key는 안전한 곳에 저장하세요.
입력 정보를 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, Keypair 목록 페이지에서 생성한 자원을 확인하세요.

구분	필수 여부	상세 설명
Keypair명	필수	생성할 Keypair의 이름 영문, 숫자, 공백과 특수문자(`-`, `_`)를 사용하여 255자 이내로 입력
Keypair 유형	필수	ssh

구분	필수 여부	상세 설명
태그	선택	태그 추가 자원 당 최대 50개까지 추가 가능 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택

Keypair 상세 정보 확인하기

Keypair 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. Keypair 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

Keypair 상세 정보를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
Keypair 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Keypair 상세 페이지로 이동합니다.
- Keypair 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.

상세 정보

Keypair 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분	상세 설명
서비스	서비스명
자원 유형	자원 유형
SRN	Samsung Cloud Platform에서의 고유 자원 ID Keypair 에서는 Keypair SRN을 의미
자원명	Keypair 이름
자원 ID	Keypair의 고유 자원 ID
생성자	Keypair를 생성한 사용자
생성 일시	Keypair를 생성한 일시
수정자	Keypair 정보를 수정한 사용자
수정 일시	Keypair정보를 수정한 일시
Keypair명	Keypair 이름
Fingerprint	Key를 식별하기 위한 고유한 값
사용자 ID	Keypair 생성한 사용자 ID
공개 키	공개 키 정보

표. Keypair 상세 정보 탭 항목

구분	상세 설명
태그 목록	태그 목록 태그의 Key, Value 정보 확인 가능 태그는 자원 당 최대 50개까지 추가 가능 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택

작업 이력

Keypair 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분	상세 설명
작업 이력 목록	자원 변경 이력 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인

표. Keypair 작업 이력 탭 상세 정보 항목

Keypair 자원 관리하기

Keypair의 제어 및 관리 기능을 설명합니다.

공개 키 가져오기

공개 키 가져오기를 하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.

Keypair 목록 페이지에서 상단의 더보기 버튼을 클릭하여 공개 키 가져오기 버튼을 클릭하세요. 공개 키 가져오기 페이지로 이동합니다.

필수 정보 입력 영역에 필요한 정보를 입력 또는 선택하세요.

구분	필수 여부	상세 설명
Keypair명	필수	생성할 Keypair 이름
Keypair 유형	필수	ssh
공개 키	필수	공개 키 입력 파일 불러오기: 파일 첨부 버튼을 선택하여 공개 키 파일을 첨부 첨부 파일은 다음의 확장자 파일(.pem)만 가능 공개 키 입력: 복사한 공개 키 값을 붙여넣기 Keypair 상세 페이지에서 공개 키 값을 복사 가능

구분

필수 여부

상세 설명

Keypair명

필수

생성할 Keypair 이름

Keypair 유형

필수

ssh

공개 키

필수

공개 키 입력

파일 불러오기: 파일 첨부 버튼을 선택하여 공개 키 파일을 첨부
- 첨부 파일은 다음의 확장자 파일(.pem)만 가능

공개 키 입력: 복사한 공개 키 값을 붙여넣기
- Keypair 상세 페이지에서 공개 키 값을 복사 가능

표. 공개 키 가져오기 필수 입력 항목

입력한 정보를 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, Keypair 목록 페이지에서 생성한 자원을 확인하세요.

Keypair 삭제하기

사용하지 않는 Keypair를 삭제할 수 있습니다. 단, Keypair를 삭제하면 복구할 수 없으므로 사전에 충분한 영향도 검토 후 삭제를 진행하시기 바랍니다.

주의

서비스 삭제 후에는 데이터를 복구할 수 없으므로 주의해주세요.

Keypair를 삭제하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
Keypair 목록 페이지에서 삭제할 자원을 선택하고, 삭제 버튼을 클릭하세요.

Keypair 목록 페이지에서 다수의 Keypair 체크 박스를 선택하고, 자원 목록 상단의 삭제 버튼을 클릭하세요.

삭제가 완료되면 Keypair 목록 페이지에서 자원이 삭제되었는지 확인하세요.

2.3 - GPU Server에서 Multi-instance GPU 사용하기

GPU Server를 생성한 후 GPU Server의 VM(Guest OS)에서 MIG (Multi-instance GPU) 기능을 활성화하고 Instance를 생성해 사용할 수 있습니다.

Multi-instance GPU (NVIDIA A100) 살펴보기

NVIDIA A100은 NVIDIA 암페어(Ampere) 아키텍처를 기반으로 하는 Multi-instance GPU(MIG)로, 최대 7개의 독립된 GPU Instance로 안전하게 분할되어 CUDA (Compute Unified Device Architecture, 연산통합 장치설계) Application을 운용할 수 있습니다. NVIDIA A100은 고대역폭 메모리(HBM: high bandwidth memory)와 캐시를 활용하는 동시에 GPU 사용에 최적화된 방식으로 컴퓨팅 자원을 할당함으로써 다수의 사용자들에게 독립적인 GPU 자원을 제공할 수 있습니다. 사용자는 각 워크로드의 병렬 실행을 통해 GPU 최대 연산 용량에 도달하지 않은 워크로드를 활용할 수 있으므로, GPU 사용율을 극대화할 수 있습니다.

Multi-instance GPU 기능 사용하기

Multi-instance GPU 기능을 사용하려면 Samsung Cloud Platform에서 GPU Server 서비스를 생성한 후 A100 GPU가 할당된 VM Instance(GuestOS)를 생성해야 합니다. GPU Server 생성 완료 후, 아래의 MIG 적용 순서와 MIG 해제 순서를 따라 적용해볼 수 있습니다.

MIG 적용 순서

MIG 활성화 → GPU Instance 생성 → Compute Instance 생성 → MIG 사용

MIG 해제 순서

Compute Instance 삭제 → GPU Instance 삭제 → MIG 기능 해제(비활성화)

참고

MIG 기능을 사용하기 위한 시스템 요구사항은 다음과 같습니다(NVIDIA - Supported GPUs 참고).
- CUDA toolkit 11, NVIDIA driver 450.80.02 또는 이후 버전
- CUDA toolkit 11을 지원하는 리눅스 배포 운영체제
컨테이너 또는 쿠버네티스 서비스 운용 시 MIG 기능을 사용하기 위한 요구사항은 다음과 같습니다.
- NVIDIA Container Toolkit(nvidia-docker2) v 2.5.0 또는 이후 버전
- NVIDIA K8s Device Plugin v 0.7.0 또는 이후 버전
- NVIDIA gpu-feature-discovery v 0.2.0 또는 이후 버전

MIG 적용 및 사용하기

MIG를 활성화하고 Instance를 생성해 작업을 할당하려면 다음 절차를 따르세요.

MIG 적용 순서

MIG 활성화 → GPU Instance 생성 → Compute Instance 생성 → MIG 사용

MIG 활성화

MIG를 적용하기 전 VM Instance(GuestOS)에서 GPU 상태를 확인하세요.

MIG mode가 Disabled 상태인지 확인하세요.

배경색 변경

$ nvidia-smi
Mon Sep 27 08:37:08 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
| N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

$ nvidia-smi
Mon Sep 27 08:37:08 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
| N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU 비활성화 상태 확인 (1)

배경색 변경

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)

코드블록. nvidia-smi 명령어 - GPU 비활성화 상태 확인 (2)

VM Instance(GuestOS)에서 GPU별로 MIG를 활성화(Enable)하고 VM Instance를 재부팅하세요.

배경색 변경

$ nvidia-smi –I 0 –mig 1
Enabled MIG mode for GPU 00000000:05:00.0
All done.

# reboot

$ nvidia-smi –I 0 –mig 1
Enabled MIG mode for GPU 00000000:05:00.0
All done.

# reboot

코드블록. nvidia-smi 명령어 - MIG 활성화

참고

GPU 모니터링 에이전트가 다음과 같은 경고 메시지를 표시하는 경우, MIG를 활성화하기 전에 nvsm 및 dcgm 서비스를 중단하세요.

Warning: MIG mode is in pending enable state for GPU 00000000:05:00.0: In use by another client. 00000000:05:00.0 is currently being used by one or more other processes (e.g. CUDA application or a monitoring application such as another instance of nvidia-smi).

# systemctl stop nvsm
# systemctl stop dcgm

MIG 작업을 마친 후 nvsm 및 dcgm 서비스를 다시 시작하세요.

VM Instance(GuestOS)에서 MIG를 적용한 후 GPU 상태를 확인하세요.

MIG mode가 Enabled 상태인지 확인하세요.

배경색 변경

$ nvidia-smi
Mon Sep 27 09:44:33 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
| N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |              Enabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
| No MIG devices found                                                        |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

$ nvidia-smi
Mon Sep 27 09:44:33 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
| N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |              Enabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
| No MIG devices found                                                        |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU 활성화 상태 확인 (1)

배경색 변경

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)

코드블록. nvidia-smi 명령어 - GPU 활성화 상태 확인 (2)

GPU Instance 생성

MIG 활성화하고 상태를 확인하였다면, GPU Instance를 생성할 수 있습니다.

생성할 수 있는 MIG GPU Instance 프로파일 목록을 확인하세요.

배경색 변경

$ nvidia-smi mig -i [GPU ID] -lgip

$ nvidia-smi mig -i [GPU ID] -lgip

코드블록. nvidia-smi 명령어 - MIG GPU Instance 프로파일 목록 확인

배경색 변경

$ nvidia-smi mig -i 0 -lgip
+-----------------------------------------------------------------------------+
| GPU instance profiles:                                                      |
| GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
|                              Free/Total   GiB              CE    JPEG  OFA  |
|=============================================================================|
|   0 MIG 1g.10gb        19    7/7         9.50       No     14     0     0   |
|                                                             1     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 1g.10gb+me     20    1/1         9.50       No     14     0     0   |
|                                                             1     1     1   |
+-----------------------------------------------------------------------------+
|   0 MIG 2g.20gb        14    3/3         19.50      No     28     1     0   |
|                                                             2     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 3g.40gb         9    2/2         39.50      No     42     2     0   |
|                                                             3     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 4g.40gb         5    1/1         39.50      No     56     2     0   |
|                                                             4     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 7g.80gb         0    1/1         79.25      No     98     0     0   |
|                                                             7     1     1   |
+-----------------------------------------------------------------------------+

$ nvidia-smi mig -i 0 -lgip
+-----------------------------------------------------------------------------+
| GPU instance profiles:                                                      |
| GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
|                              Free/Total   GiB              CE    JPEG  OFA  |
|=============================================================================|
|   0 MIG 1g.10gb        19    7/7         9.50       No     14     0     0   |
|                                                             1     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 1g.10gb+me     20    1/1         9.50       No     14     0     0   |
|                                                             1     1     1   |
+-----------------------------------------------------------------------------+
|   0 MIG 2g.20gb        14    3/3         19.50      No     28     1     0   |
|                                                             2     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 3g.40gb         9    2/2         39.50      No     42     2     0   |
|                                                             3     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 4g.40gb         5    1/1         39.50      No     56     2     0   |
|                                                             4     0     0   |
+-----------------------------------------------------------------------------+
|   0 MIG 7g.80gb         0    1/1         79.25      No     98     0     0   |
|                                                             7     1     1   |
+-----------------------------------------------------------------------------+

코드블록. MIG GPU Instance 프로파일 목록

참고

A100 GPU Instance 프로파일은 NVIDIA A100 MIG Profile의 예시를 참고하세요.

Profile Name	Fraction of Memory	Fraction of SMs	Hardware Units	L2 Cache Size	Number of Instances Available
MIG 1g.10gb	1/8	1/7	0 NVDECs /0 JPEG /0 OFA	1/8	7
MIG 1g.10gb+me	1/8	1/7	1 NVDEC /1 JPEG /1 OFA	1/8	1 (A single 1g profile can include media extensions)
MIG 2g.20gb	2/8	2/7	1 NVDECs /0 JPEG /0 OFA	2/8	3
MIG 3g.40gb	4/8	3/7	2 NVDECs /0 JPEG /0 OFA	4/8	2
MIG 4g.40gb	4/8	4/7	2 NVDECs /0 JPEG /0 OFA	4/8	1
MIG 7g.80gb	Full	7/7	5 NVDECs /1 JPEG /1 OFA	Full	1

표. NVIDIA A100 MIG Profile

참고

MIG 1g.10gb+me 프로파일은 R470 드라이버와 함께 시작하는 경우에만 사용할 수 있습니다.

MIG GPU Instance를 생성한 후 확인하세요.

GPU Instance 생성

배경색 변경

$ nvidia-smi mig -i [GPU ID] -cgi [Profile ID]

$ nvidia-smi mig -i [GPU ID] -cgi [Profile ID]

코드블록. nvidia-smi 명령어 - GPU Instance 생성

배경색 변경

$ nvidia-smi mig -i 0 -cgi 0
Successfully created GPU instance ID 0 on GPU 0 using profile MIG 7g.80gb (ID 0)

$ nvidia-smi mig -i 0 -cgi 0
Successfully created GPU instance ID 0 on GPU 0 using profile MIG 7g.80gb (ID 0)

코드블록. nvidia-smi 명령어 - GPU Instance 생성 예시

GPU Instance 확인

배경색 변경

$ nvidia-smi mig -i [GPU ID] -lgi

$ nvidia-smi mig -i [GPU ID] -lgi

코드블록. nvidia-smi 명령어 - GPU Instance 확인

배경색 변경

$ nvidia-smi mig -i 0 -lgi
+--------------------------------------------------------+
| GPU instances:                                         |
| GPU   Name               Profile  Instance  Placement  |
|                            ID       ID      Start:Size |
|========================================================|
|   0  MIG 7g.80gb            0        0         0:8     |
+--------------------------------------------------------+

$ nvidia-smi mig -i 0 -lgi
+--------------------------------------------------------+
| GPU instances:                                         |
| GPU   Name               Profile  Instance  Placement  |
|                            ID       ID      Start:Size |
|========================================================|
|   0  MIG 7g.80gb            0        0         0:8     |
+--------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU Instance 확인 예시

Compute Instance 생성

GPU Instance를 생성하였다면, Compute Instance를 생성할 수 있습니다.

생성할 수 있는 MIG Compute Instance 프로파일을 확인하세요.

배경색 변경

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip

코드블록. nvidia-smi 명령어 - MIG Compute Instance 프로파일 확인

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 -lcip
+---------------------------------------------------------------------------------+
| Compute instance profiles:                                                      |
| GPU     GPU     Name            Profile  Instances   Exclusive      Shared      |
| GPU   Instance                     ID    Free/Total     SM       DEC  ENC  OFA  |
|         ID                                                       CE   JPEG      |
|=================================================================================|
|   0      0      MIG 1c.7g.80gb     0      7/7           14       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 2c.7g.80gb     1      3/3           28       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 3c.7g.80gb     2      2/2           42       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 4c.7g.80gb     3      1/1           56       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 7g.80gb        4*     1/1           98       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+

$ nvidia-smi mig -i 0 -gi 0 -lcip
+---------------------------------------------------------------------------------+
| Compute instance profiles:                                                      |
| GPU     GPU     Name            Profile  Instances   Exclusive      Shared      |
| GPU   Instance                     ID    Free/Total     SM       DEC  ENC  OFA  |
|         ID                                                       CE   JPEG      |
|=================================================================================|
|   0      0      MIG 1c.7g.80gb     0      7/7           14       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 2c.7g.80gb     1      3/3           28       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 3c.7g.80gb     2      2/2           42       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 4c.7g.80gb     3      1/1           56       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+
|   0      0      MIG 7g.80gb        4*     1/1           98       5    0    1    |
|                                                                  7    1         |
+---------------------------------------------------------------------------------+

코드블록. MIG Compute Instance 프로파일 목록 예시

MIG Compute Instance를 생성하고 확인하세요.

MIG Compute Instance 생성

배경색 변경

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -cci [Compute Profile ID]

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -cci [Compute Profile ID]

코드블록. nvidia-smi 명령어 - MIG Compute Instance 생성

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 -cci 4
Successfully created compute instance ID 0 on GPU instance ID 0 using profile MIG 7g.80gb(ID 4)

$ nvidia-smi mig -i 0 -gi 0 -cci 4
Successfully created compute instance ID 0 on GPU instance ID 0 using profile MIG 7g.80gb(ID 4)

코드블록. nvidia-smi 명령어 - MIG Compute Instance 생성 예시

MIG Compute Instance 확인

배경색 변경

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –lci

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –lci

코드블록. nvidia-smi 명령어 - MIG Compute Instance 확인

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 –lci
+-----------------------------------------------------------------+
| Compute instance profiles:                                      |
| GPU     GPU     Name            Profile  Instances   Placement  |
| GPU   Instance                     ID      ID        Start:Size |
|         ID                                                      |
|=================================================================|
|   0      0      MIG 7g.80gb         4       0            0:7    |
+-----------------------------------------------------------------+

$ nvidia-smi mig -i 0 -gi 0 –lci
+-----------------------------------------------------------------+
| Compute instance profiles:                                      |
| GPU     GPU     Name            Profile  Instances   Placement  |
| GPU   Instance                     ID      ID        Start:Size |
|         ID                                                      |
|=================================================================|
|   0      0      MIG 7g.80gb         4       0            0:7    |
+-----------------------------------------------------------------+

코드블록. MIG Compute Instance 확인 예시

배경색 변경

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
  MIG 7g.80gb     Device  0: (UUID: MIG-53e20040-758b-5ecb-948e-c626d03a9a32)

$ nvidia-smi –L
GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
  MIG 7g.80gb     Device  0: (UUID: MIG-53e20040-758b-5ecb-948e-c626d03a9a32)

코드블록. nvidia-smi 명령어 - GPU 상태 확인 (1)

배경색 변경

$ nvidia-smi
Mon Sep 27 09:52:17 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
| N/A   32C   P0    49W / 400W  |      0MiB / 81251MiB |     N/A      Default |
|                               |                      |              Enabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
|   0    0   0    0 |     0MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
|                   |     1MiB / 13107... |           |                       |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

$ nvidia-smi
Mon Sep 27 09:52:17 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
| N/A   32C   P0    49W / 400W  |      0MiB / 81251MiB |     N/A      Default |
|                               |                      |              Enabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
|   0    0   0    0 |     0MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
|                   |     1MiB / 13107... |           |                       |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU 상태 확인 (2)

MIG 사용

MIG Instance를 사용해 Job을 수행하세요.

작업 수행 예시

배경색 변경

$ docker run --gpus '"device=[GPU ID]:[MIG ID]"' -rm nvcr.io/nvidia/cuda nvidia-smi

$ docker run --gpus '"device=[GPU ID]:[MIG ID]"' -rm nvcr.io/nvidia/cuda nvidia-smi

코드블록. 작업 수행 예시

아래와 같이 작업을 수행한 예시를 확인해볼 수 있습니다.

배경색 변경

$ docker run --gpus '"device=0:0"' -rm -it --network=host --shm-size=1g --ipc=host -v /root/.ssh/:/root/.ssh

================
== TensorFlow ==
================

NVIDIA Release 21.08-tf1 (build 26012104)
TensorFlow Version 1.15.5

Container image Copyright (c) 2021, NVIDIA CORPORATION. All right reserved.
...

# Python 프로세스 실행
root@d622a93c9281:/workspace# python /workspace/nvidia-examples/cnn/resnet.py --num_iter 100 
...
PY 3.8.10 (default, Jun 2 2021, 10:49:15)
[GCC 9.4.0]
TF 1.15.5
...

$ docker run --gpus '"device=0:0"' -rm -it --network=host --shm-size=1g --ipc=host -v /root/.ssh/:/root/.ssh

================
== TensorFlow ==
================

NVIDIA Release 21.08-tf1 (build 26012104)
TensorFlow Version 1.15.5

Container image Copyright (c) 2021, NVIDIA CORPORATION. All right reserved.
...

# Python 프로세스 실행
root@d622a93c9281:/workspace# python /workspace/nvidia-examples/cnn/resnet.py --num_iter 100 
...
PY 3.8.10 (default, Jun 2 2021, 10:49:15)
[GCC 9.4.0]
TF 1.15.5
...

코드블록. 작업 수행 결과

GPU 사용률을 확인하세요. (JOB 프로세스 생성)

Job이 구동될 때 MIG 디바이스에 프로세스가 할당되고 사용률이 증가하는 것을 확인할 수 있습니다.
배경색 변경
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
코드블록. nvidia-smi 명령어 - GPU 사용률 확인

아래와 같이 GPU 사용률을 확인할 수 있습니다.

배경색 변경

+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
|   0    0   0    0 | 66562MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
|                   |     5MiB / 13107... |           |                       |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|   0     0    0     17483      C   python                           66559MiB |
+-----------------------------------------------------------------------------+

+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
|   0    0   0    0 | 66562MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
|                   |     5MiB / 13107... |           |                       |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|   0     0    0     17483      C   python                           66559MiB |
+-----------------------------------------------------------------------------+

코드블록. GPU 사용률 확인 예시

MIG Instance 삭제 및 해제하기

MIG Instance를 삭제하고 MIG를 해제하려면 다음 절차를 따르세요.

MIG 해제 순서

Compute Instance 삭제 → GPU Instance 삭제 → MIG 기능 해제(비활성화)

Compute Instance 삭제

Compute Instance를 삭제하세요.

배경색 변경

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dci
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -ci [Compute Instance] –dci

$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dci
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -ci [Compute Instance] –dci

코드블록. nvidia-smi 명령어 - Compute Instance 삭제

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 –lci
+-----------------------------------------------------------------+
| Compute instance profiles:                                      |
| GPU     GPU     Name            Profile  Instances   Placement  |
| GPU   Instance                     ID      ID        Start:Size |
|         ID                                                      |
|=================================================================|
|   0      0      MIG 7g.80gb         4       0            0:7    |
+-----------------------------------------------------------------+

$ nvidia-smi mig -i 0 -gi 0 –lci
+-----------------------------------------------------------------+
| Compute instance profiles:                                      |
| GPU     GPU     Name            Profile  Instances   Placement  |
| GPU   Instance                     ID      ID        Start:Size |
|         ID                                                      |
|=================================================================|
|   0      0      MIG 7g.80gb         4       0            0:7    |
+-----------------------------------------------------------------+

코드블록. MIG Compute Instance 확인 예시

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 –dci
Successfully destroyed compute instance ID  0 from GPU instance ID  0

$ nvidia-smi mig -i 0 -gi 0 –dci
Successfully destroyed compute instance ID  0 from GPU instance ID  0

코드블록. Compute Instance 삭제 예시

배경색 변경

$ nvidia-smi mig -i 0 -gi 0 –lci
No compute instances found: Not found

$ nvidia-smi mig -i 0 -gi 0 –lci
No compute instances found: Not found

코드블록. Compute Instance 삭제 확인

GPU Instance 삭제

GPU Instance를 삭제하세요.

배경색 변경

$ nvidia-smi mig -i [GPU ID] –dgi
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dgi

$ nvidia-smi mig -i [GPU ID] –dgi
$ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dgi

코드블록. nvidia-smi 명령어 - GPU Instance 삭제

배경색 변경

$ nvidia-smi mig -i 0 -lgi
+--------------------------------------------------------+
| GPU instances:                                         |
| GPU   Name               Profile  Instance  Placement  |
|                            ID       ID      Start:Size |
|========================================================|
|   0  MIG 7g.80gb            0        0         0:8     |
+--------------------------------------------------------+

$ nvidia-smi mig -i 0 -lgi
+--------------------------------------------------------+
| GPU instances:                                         |
| GPU   Name               Profile  Instance  Placement  |
|                            ID       ID      Start:Size |
|========================================================|
|   0  MIG 7g.80gb            0        0         0:8     |
+--------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU Instance 확인 예시

배경색 변경

$ nvidia-smi mig -i 0 -dgi
Successfully destroyed GPU instance ID  0 from GPU  0

$ nvidia-smi mig -i 0 -dgi
Successfully destroyed GPU instance ID  0 from GPU  0

코드블록. nvidia-smi 명령어 - GPU Instance 삭제 예시

배경색 변경

$ nvidia-smi mig -i 0 -lgi
No GPU instances found: Not found

$ nvidia-smi mig -i 0 -lgi
No GPU instances found: Not found

코드블록. nvidia-smi 명령어 - GPU Instance 삭제 예시

MIG 기능 해제(비활성화)

MIG를 비활성화(Disable)한 후 재부팅하세요.

배경색 변경

$ nvidia-smi -mig 0
Disabled MIG Mode for GPU 00000000:05:00.0

All done.

$ nvidia-smi -mig 0
Disabled MIG Mode for GPU 00000000:05:00.0

All done.

코드블록. nvidia-smi 명령어 - MIG 비활성화

배경색 변경

$ nvidia-smi
Mon Sep 30 05:18:28 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
| N/A   33C   P0    60W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
| No MIG devices found                                                        |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

$ nvidia-smi
Mon Sep 30 05:18:28 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
| N/A   33C   P0    60W / 400W  |      0MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+-----------------------------------------------------------------------------+
|  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
|       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                   |                     |        ECC|                       |
|=============================================================================|
| No MIG devices found                                                        |
+-----------------------------------------------------------------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
| No running processes found                                                  |
+-----------------------------------------------------------------------------+

코드블록. nvidia-smi 명령어 - GPU 상태 확인

2.4 - GPU Server에서 NVSwitch 사용하기

GPU Server를 생성한 후 GPU Server의 VM(Guest OS)에서 NVSwitch 기능을 활성화하고 GPU 간 P2P(GPU to GPU)통신을 빠르게 사용할 수 있습니다.

Multi GPU를 위한 NVIDIA NVSwitch 살펴보기

NVIDIA A100 GPU서버는 NVIDIA 암페어(Ampere) 아키텍처를 기반으로 하는 멀티 GPU로, 베이스보드에는 8개의 Ampere 80 GB GPU가 장착되어 있습니다. 베이스보드에 장착된 GPU들은 NVLink 포트를 통해 6개의 NVSwitch와 연결됩니다. 베이스보드에 있는 GPU 간 통신은 600 GBps 대역폭 전체를 활용해 이루어집니다. 이런 이유로 A100 GPU 서버에 장착된 8개의 GPU가 마치 하나처럼 연결되어 동작 할 수 있으므로, GPU to GPU 사용률을 극대화 할 수 있습니다.

NVLink(25 GBps) 12개 Lane 8 GPU 구성도

NVSwitch(600 GBps) 6개 8 GPU 구성도

GPU NVSwitch 생성하기

GPU NVSwitch 기능을 사용하려면 Samsung Cloud Platform에서 GPU Server 서비스를 생성한 후, A100 GPU 8개가 할당된 VM Instance(GuestOS)를 생성하고 Fabricmanager를 활성화합니다.

주의

NVSwitch는 단일 GPU Server에 8개의 A100 GPU를 할당한 상품(g1v128a8 (vCPU 128 | Memory 1920G | A100(80GB)*8))의 경우에만 Fabricmanager를 활성화하여 사용할 수 있습니다.
현재 Windows OS로 생성된 GPU Server에서는 NVSwitch (Fabricmanager)를 지원하지 않습니다.

NVSwitch 설치 및 동작 확인하기(Fabricmanager 활성화)

NVSwitch를 구동하려면 GPU Instance에서 Fabricmanager를 설치하고 다음 절차를 따르세요.

GPU 서버에 NVIDIA GPU Driver (470.52.02 Version)를 설치하세요.

배경색 변경

$ add-apt-repository ppa:graphics-drivers/ppa
$ apt-get update
$ apt-get install nvidia-driver-470-server

$ add-apt-repository ppa:graphics-drivers/ppa
$ apt-get update
$ apt-get install nvidia-driver-470-server

코드블록. NVIDIA GPU Driver 설치

GPU 서버에 NVIDIA Fabric Manager (470 Version)를 설치하고 구동하세요(For NVSwitch).

배경색 변경

$ apt-get install cuda-drivers-fabricmanager-470
$ systemctl enable nvidia-fabricmanager
$ systemctl start nvidia-fabricmanager

$ apt-get install cuda-drivers-fabricmanager-470
$ systemctl enable nvidia-fabricmanager
$ systemctl start nvidia-fabricmanager

코드블록. NVIDIA Fabric Manager 설치 및 구동

GPU 서버에 NVIDIA Fabric Manager 구동 상태를 확인하세요.
- 정상 구동 시 active (running) 표시
  배경색 변경
  $ systemctl status nvidia-fabricmanager
  $ systemctl status nvidia-fabricmanager
  코드블록. NVIDIA Fabric Manager 구동 상태 확인

그림. NVSwitch 설치 - Fabric Manager 구동 상태 확인

GPU 서버에 NVSwitch 구동 상태를 확인하세요.
- 정상 구동 시 NV12 표시
  배경색 변경
  $ nvidia-smi topo --matrix
  $ nvidia-smi topo --matrix
  코드블록. NVSwitch 구동 상태 확인

2.5 - ServiceWatch Agent 설치하기

사용자는 GPU Server에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.

참고

ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.

주의

ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 각 서비스로부터 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.

ServiceWatch Agent

GPU Server에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.

구분	상세 설명
Prometheus Exporter	특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공 서버의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음. GPU Server에서 OS 지표 수집을 위해서 Virtual Server와 마찬가지로 Node Exporter를 사용할 수 있으며 자세한 내용은 Virtual Server > ServiceWatch Agent 참고 GPU 지표를 위한 DCGM(NVIDIA Data Center GPU Manager) Exporter를 사용할 수 있음 해당 가이드에서는 DCGM Exporter 사용하는 방법은 GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)와 GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL) 가이드에서 안내
Open Telemetry Collector	분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할 ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함. ServiceWatch에서 제공하는 Open Telemetry Collector 사용하는 방법은 ServiceWatch > ServiceWatch Agent 사용하기 참고

구분

상세 설명

Prometheus Exporter

특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공

서버의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음.
- GPU Server에서 OS 지표 수집을 위해서 Virtual Server와 마찬가지로 Node Exporter를 사용할 수 있으며 자세한 내용은 Virtual Server > ServiceWatch Agent 참고

GPU 지표를 위한 DCGM(NVIDIA Data Center GPU Manager) Exporter를 사용할 수 있음
- 해당 가이드에서는 DCGM Exporter 사용하는 방법은 GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)와 GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL) 가이드에서 안내

Open Telemetry Collector

분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할

ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함.

ServiceWatch에서 제공하는 Open Telemetry Collector 사용하는 방법은 ServiceWatch > ServiceWatch Agent 사용하기 참고

표. Prometheus Exporter와 Open Telemetry Collector 설명

주의

GPU Server에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.

Kubernetes Engine이 구성되어 있는 GPU Server에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.

GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)

GPU Server의 지표를 수집하기 위한 Prometheus Exporter를 아래의 순서에 따라 설치합니다.

Step 1. NVDIA Driver 설치 확인
Step 2. NVSwitch Configuration and Query (NSCQ) Library 설치
Step 3. NVSwitch Device Monitoring API(NVSDM) Library 설치
Step 4. NVIDIA DCGM 설치

NVDIA Driver 설치 확인

설치되어 있는 NVDIA Driver를 확인합니다.
배경색 변경
nvidia-smi --query-gpu driver_version --format csv
nvidia-smi --query-gpu driver_version --format csv
코드블록. NVDIA Driver 버전 확인 명령어
배경색 변경
driver_version 535.183.06 ... 535.183.06
driver_version 535.183.06 ... 535.183.06
코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치

참고

NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.

안내

아래 설치 명령어는 인터넷이 사용 가능한 환경에서 가능합니다. 만약 인터넷이 안되는 환경이라면, https://developer.download.nvidia.com/compute/cuda/repos/ 에서 libnvdia-nscq를 다운로드받아 업로드해야 합니다.

cuda-keyring를 설치합니다.

배경색 변경

wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb

wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb

코드블록. NSCQ library 다운로드 명령어

배경색 변경

sudo dpkg -i cuda-keyring_1.1-1_all.deb
apt update

sudo dpkg -i cuda-keyring_1.1-1_all.deb
apt update

코드블록. NSCQ library 설치 명령어

배경색 변경

nvidia-smi --query-gpu driver_version --format csv

nvidia-smi --query-gpu driver_version --format csv

코드블록. NVDIA Driver 버전 확인 명령어

배경색 변경

driver_version
535.183.06
...

535.183.06

driver_version
535.183.06
...

535.183.06

코드블록. NVDIA Driver 버전 확인 예시

libnvidia-nscq를 설치합니다.

배경색 변경

apt-cache policy libnvidia-nscq-535

apt-cache policy libnvidia-nscq-535

코드블록. NSCQ library apt-cache 명령어

배경색 변경

libnvidia-nscq-535:
  Installed: (none)
  Candidate: 535.247.01-1
  Version table:
     535.247.01-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
...
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.216.01-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.183.01-1 600
...
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.54.03-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

libnvidia-nscq-535:
  Installed: (none)
  Candidate: 535.247.01-1
  Version table:
     535.247.01-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
...
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.216.01-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.183.01-1 600
...
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     535.54.03-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

코드블록. NSCQ library apt-cache 명령어 결과

배경색 변경

apt install libnvidia-nscq-535=535.183.06-1

apt install libnvidia-nscq-535=535.183.06-1

코드블록. NSCQ library 설치 명령어

안내

NVDIA Driver의 버전과 같은 버전으로 설치해야 합니다.

예시) driver version: 535.183.06, libnvdia-nscq version: 535.183.06-1

NVSwitch Device Monitoring API(NVSDM) Library 설치

참고

Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.

NVSDM library 설치합니다.

배경색 변경

apt-cache policy libnvsdm

apt-cache policy libnvsdm

코드블록. NVSDM library apt-cache 명령어

배경색 변경

libnvsdm:
  Installed: (none)
  Candidate: 580.105.08-1
  Version table:
     580.105.08-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.95.05-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.82.07-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.65.06-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

libnvsdm:
  Installed: (none)
  Candidate: 580.105.08-1
  Version table:
     580.105.08-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.95.05-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.82.07-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.65.06-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

코드블록. NVSDM library apt-cache 명령어 결과

배경색 변경

apt install libnvsdm=580.105.08-1

apt install libnvsdm=580.105.08-1

코드블록. NVSDM library 설치

NVIDIA DCGM 설치 (for Ubuntu)

아래의 순서에 따라 DCGM Exporter를 설치합니다.

DCGM(datacenter-gpu-manager) 설치

NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.

CUDA 버전을 확인합니다.
배경색 변경
nvidia-smi | grep CUDA
nvidia-smi | grep CUDA
코드블록. CUDA 버전 확인
배경색 변경
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
코드블록. CUDA 버전 확인 결과 예시
배경색 변경
CUDA_VERSION=12
CUDA_VERSION=12
코드블록. CUDA 버전 설정 명령어
datacenter-gpu-manager-cuda를 설치합니다.
배경색 변경
apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
코드블록. datacenter-gpu-manager-cuda 설치 명령어

datacenter-gpu-manager-exporter 설치

NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.

datacenter-gpu-manager-exporter를 설치합니다.
배경색 변경
apt install datacenter-gpu-manager-exporter
apt install datacenter-gpu-manager-exporter
코드블록. datacenter-gpu-manager-exporter 설치 명령어

DCGM Exporter 설정 파일을 확인합니다.

배경색 변경

cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart

cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart

코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 명령어

배경색 변경

ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv

ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv

코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시

DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.

배경색 변경

vi /etc/dcgm-exporter/default-counters.csv
## Example ##
...
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
# DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
# DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
...

vi /etc/dcgm-exporter/default-counters.csv
## Example ##
...
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
# DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
# DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
...

코드블록. datacenter-gpu-manager-exporter metric 설정 예시

참고

GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.

주의

ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집은 제거하거나 비활성화해야 과도한 요금이 부과되지 않습니다.

DCGM 서비스 활성화 및 시작

nvdia-dcgm 서비스 활성화 및 시작작합니다.
배경색 변경
systemctl enable --now nvidia-dcgm
systemctl enable --now nvidia-dcgm
코드블록. nvdia-dcgm 서비스 활성화 및 시작작 명령어
nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경
systemctl enable --now nvidia-dcgm-exporter
systemctl enable --now nvidia-dcgm-exporter
코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내

DCGM Exporter 설정을 완료하였다면, ServiceWatch에서 제공하는 Open Telemetry Collector를 설치하여 SerivceWatch Agent 설정을 완료하셔야 합니다.
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.

GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL)

ServiceWatch Agent를 GPU Server의 지표를 수집하기 위해 아래의 순서에 따라 설치합니다.

NVDIA Driver 설치 확인 (for RHEL)

설치되어 있는 NVDIA Driver를 확인합니다.
배경색 변경
nvidia-smi --query-gpu driver_version --format csv
nvidia-smi --query-gpu driver_version --format csv
코드블록. NVDIA Driver 버전 확인 명령어
배경색 변경
driver_version 535.183.06 ... 535.183.06
driver_version 535.183.06 ... 535.183.06
코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치 (for RHEL)

참고

NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.

RHEL의 경우 libnvdia-nscq가 설치되어 있는지 확인 후 설치합니다.

안내

libnvdia-nscq 패키지 확인합니다.

배경색 변경

rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64

rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64

코드블록. NSCQ library 패키지 확인

DNF에 CUDA Repository를 추가합니다.

배경색 변경

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

코드블록. DNF Repository 추가

NVDIA Driver 상태 초기화

배경색 변경

dnf module reset nvidia-driver

dnf module reset nvidia-driver

코드블록. NVIDIA Driver DNF 모듈의 상태 초기화

배경색 변경

Updating Subscription Management repositories.
Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
Dependencies resolved.
=============================================
Package Architecture Version Repository Size
=============================================
Disabling module profiles:
nvidia-driver/default
nvidia-driver/fm
Resetting modules:
nvidia-driver

Transaction Summary
=============================================

Is this ok [y/N]: y

Updating Subscription Management repositories.
Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
Dependencies resolved.
=============================================
Package Architecture Version Repository Size
=============================================
Disabling module profiles:
nvidia-driver/default
nvidia-driver/fm
Resetting modules:
nvidia-driver

Transaction Summary
=============================================

Is this ok [y/N]: y

코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 결과 예시

NVDIA Driver 모듈을 활성화합니다.

배경색 변경

dnf module enable nvidia-driver:535-open

dnf module enable nvidia-driver:535-open

코드블록. NVDIA Driver 모듈 활성화

배경색 변경

Updating Subscription Management repositories.
Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
Dependencies resolved.
=============================================
Package Architecture Version Repository Size
=============================================
Enabling module streams:
nvidia-driver 535-open

Transaction Summary
=============================================

Is this ok [y/N]: y

Updating Subscription Management repositories.
Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
Dependencies resolved.
=============================================
Package Architecture Version Repository Size
=============================================
Enabling module streams:
nvidia-driver 535-open

Transaction Summary
=============================================

Is this ok [y/N]: y

코드블록. NVDIA Driver 모듈 활성화 결과 예시

libnvdia-nscq 모듈 목록을 확인합니다.
배경색 변경
dnf list libnvidia-nscq-535 --showduplicates
dnf list libnvidia-nscq-535 --showduplicates
코드블록. libnvdia-nscq 모듈 목록 확인
libnvdia-nscq를 설치합니다.
배경색 변경
dnf install libnvidia-nscq-535-535.183.06-1
dnf install libnvidia-nscq-535-535.183.06-1
코드블록. libnvdia-nscq 설치 명령어

NVSwitch Device Monitoring API(NVSDM) Library 설치 (for RHEL)

참고

Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.

NVSDM library 모듈 목록을 확인합니다.

배경색 변경

dnf list libnvsdm --showduplicates

dnf list libnvsdm --showduplicates

코드블록. NVSDM library 모듈 목록 확인

배경색 변경

libnvsdm:
  Installed: (none)
  Candidate: 580.105.08-1
  Version table:
     580.105.08-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.95.05-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.82.07-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.65.06-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

libnvsdm:
  Installed: (none)
  Candidate: 580.105.08-1
  Version table:
     580.105.08-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.95.05-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.82.07-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
     580.65.06-1 600
        600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages

코드블록. NVSDM library 모듈 목록 확인 결과 예시

libnvsdm 설치합니다.

배경색 변경

dnf install libnvsdm-580.105.08-1

dnf install libnvsdm-580.105.08-1

코드블록. NVSDM library 설치

배경색 변경

Updating Subscription Management repositories.
Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
Dependencies resolved.
=========================================================================
Package Architecture Version Repository Size
=========================================================================
Installing:
libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
Installing dependencies:
infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k

Transaction Summary
=========================================================================
Install 3 Packages

Total download size: 1.0 M
Installed size: 3.2 M
Is this ok [y/N]: y

Updating Subscription Management repositories.
Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
Dependencies resolved.
=========================================================================
Package Architecture Version Repository Size
=========================================================================
Installing:
libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
Installing dependencies:
infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k

Transaction Summary
=========================================================================
Install 3 Packages

Total download size: 1.0 M
Installed size: 3.2 M
Is this ok [y/N]: y

코드블록. NVSDM library 설치 명령어 결과 예시

NVIDIA DCGM 설치 (for RHEL)

아래의 순서에 따라 Node Exporter를 설치합니다.

DCGM(datacenter-gpu-manager) 설치 (for RHEL)

DNF에 CUDA Repository를 추가합니다.

배경색 변경

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

코드블록. DNF Repository 추가

CUDA 버전을 확인합니다.
배경색 변경
nvidia-smi | grep CUDA
nvidia-smi | grep CUDA
코드블록. CUDA 버전 확인
배경색 변경
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
코드블록. CUDA 버전 확인 결과 예시
배경색 변경
CUDA_VERSION=12
CUDA_VERSION=12
코드블록. CUDA 버전 설정 명령어

datacenter-gpu-manager-cuda 모듈 목록을 확인합니다.

배경색 변경

dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates

dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates

코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인

배경색 변경

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Available Packages
datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Available Packages
datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64

코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 결과 예시

datacenter-gpu-manager-cuda 설치합니다.

배경색 변경

dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}

dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}

코드블록. datacenter-gpu-manager-cuda 설치

배경색 변경

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Dependencies resolved.
===================================================================================================
 Package                                       Architecture   Version     Repository          Size
===================================================================================================
Installing:
 datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
Installing dependencies:
 datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
Installing weak dependencies:
 datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
 datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M

Transaction Summary
====================================================================================================
Install  4 Packages
...
Is this ok [y/N]: y

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Dependencies resolved.
===================================================================================================
 Package                                       Architecture   Version     Repository          Size
===================================================================================================
Installing:
 datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
Installing dependencies:
 datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
Installing weak dependencies:
 datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
 datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M

Transaction Summary
====================================================================================================
Install  4 Packages
...
Is this ok [y/N]: y

코드블록. datacenter-gpu-manager-cuda 설치 결과 예시

datacenter-gpu-manager-exporter 설치 (for RHEL)

DNF에 CUDA Repository를 추가합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)

배경색 변경

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

코드블록. DNF Repository 추가

CUDA 버전을 확인합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)
배경색 변경
nvidia-smi | grep CUDA
nvidia-smi | grep CUDA
코드블록. CUDA 버전 확인
배경색 변경
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
| NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 |
코드블록. CUDA 버전 확인 결과 예시
배경색 변경
CUDA_VERSION=12
CUDA_VERSION=12
코드블록. CUDA 버전 설정 명령어

datacenter-gpu-manager-exporter 모듈 목록을 확인합니다.

배경색 변경

dnf list datacenter-gpu-manager-exporter --showduplicates

dnf list datacenter-gpu-manager-exporter --showduplicates

코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인

배경색 변경

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Available Packages
datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Available Packages
datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64

코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 결과 예시

datacenter-gpu-manager-cuda 설치합니다. dcgm-exporter 4.5.X 는 glibc 2.34 이상을 요구하지만, RHEL9 에서 glibc 2.34는 제공하므로 버전을 4.1.3-1 로 지정하여 설치합니다.

배경색 변경

dnf install datacenter-gpu-manager-exporter-4.1.3-1

dnf install datacenter-gpu-manager-exporter-4.1.3-1

코드블록. datacenter-gpu-manager-cuda 설치

배경색 변경

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Dependencies resolved.
====================================================================================================
 Package                                       Architecture   Version     Repository          Size
====================================================================================================
Installing:
 datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M

...
Is this ok [y/N]: y

Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
Dependencies resolved.
====================================================================================================
 Package                                       Architecture   Version     Repository          Size
====================================================================================================
Installing:
 datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M

...
Is this ok [y/N]: y

코드블록. datacenter-gpu-manager-cuda 설치 결과 예시

배경색 변경

cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart

cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart

코드블록. datacenter-gpu-manager-exporter 설정 파일

배경색 변경

ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv

ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv

코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시

DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.

배경색 변경

vi /etc/dcgm-exporter/default-counters.csv
## Example ##
...
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
# DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
# DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
...

vi /etc/dcgm-exporter/default-counters.csv
## Example ##
...
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
# DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
# DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
...

코드블록. datacenter-gpu-manager-exporter metric 설정 예시

참고

GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.

주의

DCGM 서비스 활성화 및 시작 (for RHEL)

nvdia-dcgm 서비스 활성화 및 시작합니다.
배경색 변경
systemctl enable --now nvidia-dcgm
systemctl enable --now nvidia-dcgm
코드블록. nvdia-dcgm 서비스 활성화 및 시작 명령어
nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.
배경색 변경
systemctl enable --now nvidia-dcgm-exporter
systemctl enable --now nvidia-dcgm-exporter
코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내

DCGM Exporter 지표

DCGM Exporter 주요 지표

DCGM Exporter에서 제공하는 지표 중, 주요 GPU 지표는 아래와 같습니다.

Category	DCGM Field	Prometheus Metric Type	Summary
Clocks	DCGM_FI_DEV_SM_CLOCK	gauge	SM clock frequency (in MHz)
Clocks	DCGM_FI_DEV_MEM_CLOCK	gauge	Memory clock frequency (in MHz)
Temperature	DCGM_FI_DEV_GPU_TEMP	gauge	GPU temperature (in C)
Power	DCGM_FI_DEV_POWER_USAGE	gauge	Power draw (in W)
Utilization	DCGM_FI_DEV_GPU_UTIL	gauge	GPU utilization (in %)
Utilization	DCGM_FI_DEV_MEM_COPY_UTIL	gauge	Memory utilization (in %)
Memory Usage	DCGM_FI_DEV_FB_FREE	gauge	Frame buffer memory free (in MiB)
Memory Usage	DCGM_FI_DEV_FB_USED	gauge	Frame buffer memory used (in MiB)
Nvlink	DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL(8 GPU only)	counter	Total number of NVLink bandwidth counters for all lanes

표. DCGM Exporter가 제공하는 GPU 주요 지표

DCGM Exporter 지표 수집 설정

DCGM Exporter의 기본 설정되어 있는 지표는 DCGM Exporter > 기본 지표를 참고하세요.

기본 설정 외에 추가로 설정할 지표는 default-counters.csv에서 #를 제거합니다.
기본 설정된 지표 중 수집을 원하지 않는 지표는 #를 추가하거나 해당 항목을 삭제합니다.

배경색 변경

# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...

# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...

코드블록. default-counters.csv 설정 예시

3 - API Reference

API Reference

4 - CLI Reference

CLI Reference

5 - Release Note

GPU Server

2025.10.23

FEATURE 신규 기능 추가 및 ServiceWatch 서비스 연계 기능 제공

ServiceWatch 서비스 연계 제공
- ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.
GPU Server 생성 시 RHEL 이미지를 선택할 수 있습니다.
Keypair 관리 기능이 추가되었습니다.
- Keypair를 생성하여 사용하거나 공개 키를 가져와 적용할 수 있습니다.

2025.07.01

FEATURE GPU Server 기능 추가, Image 공유 방법 변경 및 GPU Server 사용 가이드 추가

GPU Server 기능 추가
- IP, Public NAT IP, Private NAT IP 설정 기능이 추가되었습니다.
- LLM 이용을 위한 LLM Endpoint가 제공됩니다.
Account 간 Image 공유 방법이 변경되었습니다.
- 공유용 Image를 새로 생성하여 공유할 수 있습니다.
GPU Server 사용 가이드 추가
- GPU Server에서 Multi-instance GPU 사용하기와 GPU Server에서 NVSwitch 사용하기 가이드를 추가하였습니다.

2025.04.28

FEATURE OS 이미지 추가

GPU Server RHEL OS 및 GPU 드라이버 버전이 추가되었습니다.

2025.02.27

FEATURE 공통 기능 변경

GPU Server 기능 추가
- GPU Server에서 NAT 설정 기능이 추가되었습니다.
Samsung Cloud Platform 공통 기능 변경
- Account, IAM 및 Service Home, 태그 등 공통 CX 변경 사항을 반영하였습니다.

2024.10.01

NEW GPU Server 서비스 정식 버전 출시

GPU Server 서비스를 정식 출시하였습니다.
CPU, GPU, 메모리 등 서버에서 제공하는 인프라 자원을 개별 구매할 필요 없이 필요한 시점에 필요한 만큼 할당 받아 사용할 수 있는 가상화 컴퓨팅 서비스를 출시하였습니다.