1 - Overview

서비스 개요

GPU Server는 CPU, GPU, 메모리 등 서버에서 제공하는 인프라 자원을 개별 구매할 필요 없이, 필요한 시점에 필요한 만큼 자유롭게 할당 받아 사용할 수 있는 가상화 컴퓨팅 서비스 입니다. 클라우드 환경에서 AI모델 실험, 예측, 추론 등 빠른 연산 속도를 필요로 하는 업무에 적합하며, 업무 유형 및 규모에 따라 최적화 된 성능의 자원을 유연하게 선택하여 이용할 수 있습니다. GPU Server는 다음과 같은 기능을 제공하고 있습니다.

제공 기능

  • GPU Server 관리: 웹 기반 Console을 통해 GPU Server 프로비저닝부터 모니터링, 빌링까지 사용자가 직접 Self Service로 생성, 삭제 및 변경을 관리할 수 있습니다.
  • GPU 수량별 상품 제공: 프로젝트 용도 및 규모 등에 따라 H100/A100 GPU의 수량을 자유롭게 선택하여 가상 서버를 구성할 수 있습니다.
  • 고성능 GPU 제공: Pass-through 방식을 사용하여 물리서버 수준의 고성능 GPU 서버를 제공합니다.
  • 스토리지 연결: OS 디스크 외 추가 연결 스토리지를 제공 합니다. Block Storage, File Storage, Object Storage 를 연결하여 사용할 수 있습니다.
  • 강력한 보안적용: Security Group 서비스를 통해 외부 인터넷이나 다른 VPC(Virtual Private Cloud)와 주고받는 Inbound/Outbound 트래픽을 제어하여 서버를 안전하게 보호합니다.
  • 모니터링: 컴퓨텅 자원에 해당하는 CPU, Memory, Disk 및 GPU의 현황 등의 모니터링 정보를 Cloud Monitoring 서비스를 통해 확인할 수 있습니다.
  • 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
  • Key Pair 방식: 안전한 OS접속 방식을 위해 ID/PW의 접속이 아니라 Key Pair 방식을 제공합니다.
  • Image 관리: Custom Image를 생성 및 관리할 수 있고, 프로젝트간 공유 기능을 제공합니다.
  • ServiceWatch 서비스 연계 제공: ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.

구성 요소

GPU Server는 가상화 컴퓨팅 자원 위에 GPU와 NVSwitch 및 NVLink가 제공됩니다.

주의
  • NVSwitch는 단일 GPU Server에 8개의 GPU를 할당한 인스턴스 타입의 경우에만 활성화하여 사용 가능합니다.

GPU(A100/H100)

GPU(Graphic Processing Unit)는 컴퓨터 화면을 구성 이미지를 만들기 위해 필요한 계산을 수행하는 역할로 병렬 처리에 특화되어있어 많은 양의 데이터를 빠르게 처리할 수 있어 인공지능(AI), 데이터 분석 등 대규모 병렬 연산을 처리합니다. 다음은 GPU Server 서비스에서 제공하는 GPU Type의 사양입니다.

구분A100 TypeH100 Type
서비스 제공 방식Pass-throughPass-through
GPU ArchitectureNVIDIA AmpereNVIDIA Hopper
GPU Memory80GB80GB
GPU Transistors54 billion 7N TSMC80 billion 4N TSMC
GPU Tensor Performance (FP16 기준, *: With Sparsity)312 TFLOPs, 624* TFLOPs989.4 TFLOPs, 1,978.9* TFLOPs
GPU Memory Bandwidth2,039 GB/sec HBM2e3,352 GB/sec HBM3
GPU CUDA Cores6,912 Cores16,896 Cores
GPU Tensor Cores432 (3rd Generation)528 (4th Generation)
NVLink 성능NVLink 3NVLink 4
총 NVLink 대역폭600 GB/s900 GB/s
NVLink Signaling Rate (단방향)25 GB/s (x12)25 GB/s (x18)
NVSwitch 성능NVSwitch 2NVSwitch 3
NVSwitch GPU간 대역폭600 GB/s900 GB/s
총 NVSwitch 집계 대역폭4.8 TB/s7.2 TB/s
연계 스토리지Block Storage - SSDBlock Storage - SSD
표. GPU Type 사양

서버 타입

GPU Server에서 제공하는 서버 타입은 다음과 같습니다. GPU Server에서 제공하는 서버 타입에 대한 자세한 설명은 GPU Server 서버 타입을 참고하세요.

구분서버 타입CPU vCoreMemory(GB)GPU수량
GPU-A100-1g1v16a1162341
GPU-A100-1g1v32a2324682
GPU-A100-1g1v64a4649364
GPU-A100-1g1v128a812818728
GPU-H100-2g2v12h1122341
GPU-H100-2g2v24h2244682
GPU-H100-2g2v48h4489364
GPU-H100-2g2v96h89618728
표. GPU Server 서버 타입

OS 및 GPU 드라이버 버전

GPU Server에서 지원하는 운영체제(OS)는 다음과 같습니다.

OSOS 버전GPU 드라이버버전
Ubuntu22.04535.183.06
RHEL8.10+ND 535.183.06
표. GPU Server OS 및 GPU 드라이버 버전

선행 서비스

본 서비스를 생성하기 전에 미리 설치가 되어야 하는 서비스입니다. 사전에 안내된 사용자 가이드를 참고하여 준비해주세요.

서비스 카테고리서비스상세 설명
NetworkingVPC클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
NetworkingSecurity Group서버의 트래픽을 제어하는 가상 방화벽
표. GPU Server 선행 서비스

1.1 - 서버 타입

GPU Server 서버 타입

GPU Server는 제공하는 GPU Type에 따라 구분되며, GPU Server를 생성할 때 선택하는 서버 타입에 따라 GPU Server에 사용되는 GPU가 결정됩니다. GPU Server에서 실행하려는 애플리케이션의 사양에 따라 서버 타입을 선택해주세요.

GPU Server에서 지원하는 서버 타입은 다음 형식과 같습니다.

GPU-H100-2 g2v12h1
구분
예시상세 설명
서버 타입GPU-H100-2제공되는 서버 타입 구분
  • GPU-H100-2
    • GPU-H100은 제공되는 GPU 종류를 의미
    • 2는 세대를 의미
  • GPU-A100-1
    • GPU-A100은 제공되는 GPU 종류를 의미
    • 1은 세대를 의미
서버 사양g2제공되는 서버 타입 구분 및 세대
  • g2
    • g는 GPU 서버 사양을 의미
    • 2은 세대를 의미
서버 사양v12vCore 개수
  • v2: 2개의 가상 코어
서버 사양h1GPU 종류와 수량
  • h1
    • h는 GPU-H100를 의미
    • 1은 GPU 1개를 의미
  • a2
    • a는 GPU-A100를 의미
    • 2은 GPU 2개를 의미
표. GPU Server 서버 타입 형식

g1 서버 타입

g1 서버 타입은 NVIDIA A100 Tensor Core GPU를 사용하는 GPU Server로 고성능 애플리케이션에 적합합니다.

  • 최대 8개의 NVIDIA A100 Tensor Core GPU 제공
  • GPU 당 6,912개의 CUDA 코어와 432 Tensor 코어 탑재
  • 최대 128개의 vCPU 및 1,920 GB의 메모리를 지원
  • 최대 40 Gbps의 네트워킹 속도
  • 600GB/s GPU와 NVIDIA NVSwitch P2P 통신
구분서버 타입GPUCPUMemoryGPU MemoryNetwork Bandwidth
GPU-A100-1g1v16a1116 vCore234 GB80 GB최대 20 Gbps
GPU-A100-1g1v32a2232 vCore468 GB160 GB최대 20 Gbps
GPU-A100-1g1v64a4464 vCore936 GB320 GB최대 40 Gbps
GPU-A100-1g1v128a88128 vCore1872 GB640 GB최대 40 Gbps
표. GPU Server 서버 타입 > GPU-A100-1 서버 타입

g2 서버 타입

g2 서버 타입은 NVIDIA H100 Tensor Core GPU를 사용하는 GPU Server로 고성능 애플리케이션에 적합합니다.

  • 최대 8개의 NVIDIA H100 Tensor Core GPU 제공
  • GPU 당 16,896개의 CUDA 코어와 528 Tensor 코어 탑재
  • 최대 96개의 vCPU 및 1,920 GB의 메모리를 지원
  • 최대 40Gbps의 네트워킹 속도
  • 900GB/s GPU와 NVIDIA NVSwitch P2P 통신
구분서버 타입GPUCPUMemoryGPU MemoryNetwork Bandwidth
GPU-H100-2g2v12h1112 vCore234 GB80 GB최대 20 Gbps
GPU-H100-2g2v24h2224 vCore468 GB160 GB최대 20 Gbps
GPU-H100-2g2v48h4448 vCore936 GB320 GB최대 40 Gbps
GPU-H100-2g2v96h8896 vCore1872 GB640 GB최대 40 Gbps
표. GPU Server 서버 타입 > GPU-H100-2 서버 타입

1.2 - 모니터링 지표

GPU Server 모니터링 지표

아래 표는 Cloud Monitoring을 통해 확인할 수 있는 GPU Server의 모니터링 지표를 나타냅니다.

Agent를 설치하지 않아도 기본적인 모니터링 지표를 제공하며 아래 표. GPU Server 모니터링 지표(기본 제공) 에서 확인해주세요. 추가로 Agent 설치를 통해 조회 가능한 지표는 아래 표. GPU Server 추가 모니터링 지표 (Agent 설치 필요) 에서 참고하세요.

자세한 Cloud Monitoring 사용 방법은 Cloud Monitoring 가이드를 참고하세요.

성능 항목명설명단위
Memory Total [Basic]사용할 수 있는 메모리의 bytesbytes
Memory Used [Basic]현재 사용되는 메모리의 bytesbytes
Memory Swap In [Basic]교체된 메모리의 bytesbytes
Memory Swap Out [Basic]교체된 메모리의 bytesbytes
Memory Free [Basic]사용하지 않은 메모리의 bytesbytes
Disk Read Bytes [Basic]읽기 bytesbytes
Disk Read Requests [Basic]읽기 요청 수cnt
Disk Write Bytes [Basic]쓰기bytesbytes
Disk Write Requests [Basic]쓰기 요청 수cnt
CPU Usage [Basic]1분간 평균 시스템 CPU 사용률%
Instance State [Basic]Instance 상태state
Network In Bytes [Basic]수신 bytesbytes
Network In Dropped [Basic]수신 패킷 드롭cnt
Network In Packets [Basic]수신 패킷 수cnt
Network Out Bytes [Basic]송신 bytesbytes
Network Out Dropped [Basic]송신 패킷 드롭cnt
Network Out Packets [Basic]송신 패킷 수cnt
표. GPU Server 기본 모니터링 지표 (기본 제공)
성능항목명설명단위
GPU Countgpu 개수cnt
GPU Memory Usage메모리 사용율%
GPU Memory Used메모리 사용량MB
GPU Temperaturegpu 온도
GPU Usageutilization%
GPU Usage [Avg]GPU 전체 평균 사용율(%)%
GPU Power CapGPU의 최대 전력 용량W
GPU Power UsageGPU의 현재 전력 사용량W
GPU Memory Usage [Avg]GPU Memory Uti. AVG%
GPU Count in useNode 내 Job이 수행중인 GPU 수cnt
Execution Status for nvidia-sminvidia-smi 명령어 실행결과status
Core Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)%
Core Usage [System]커널 공간에서 소요된 CPU 시간의 비율%
Core Usage [User]사용자 공간에서 소요된 CPU 시간의 비율%
CPU Cores호스트에 있는 CPU 코어의 수cnt
CPU Usage [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율%
CPU Usage [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage [System]커널에서 사용한 CPU 시간의 백분율%
CPU Usage [User]사용자 영역에서 사용한 CPU 시간의 백분율.%
CPU Usage/Core [Active]Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율%
CPU Usage/Core [Idle]유휴 상태로 소요된 CPU 시간의 비율입니다.%
CPU Usage/Core [IO Wait]대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다.%
CPU Usage/Core [System]커널에서 사용한 CPU 시간의 백분율%
CPU Usage/Core [User]사용자 영역에서 사용한 CPU 시간의 백분율.%
Disk CPU Usage [IO Request]장치에 대한 입출력 요청이 실행된 CPU 시간의 비율%
Disk Queue Size [Avg]장치에 대해 실행된 요청의 평균 대기열 길이입니다.num
Disk Read Bytes장치에서 읽는 초당 바이트 수입니다.bytes
Disk Read Bytes [Delta Avg]개별 disk들의 system.diskio.read.bytes_delta의 평균bytes
Disk Read Bytes [Delta Max]개별 disk들의 system.diskio.read.bytes_delta의 최대bytes
Disk Read Bytes [Delta Min]개별 disk들의 system.diskio.read.bytes_delta의 최소bytes
Disk Read Bytes [Delta Sum]개별 disk들의 system.diskio.read.bytes_delta의 합bytes
Disk Read Bytes [Delta]개별 disk의 system.diskio.read.bytes 값의 deltabytes
Disk Read Bytes [Success]성공적으로 읽은 총 바이트 수.bytes
Disk Read Requests1초동안 디스크 디바이스의 읽기 요청 수cnt
Disk Read Requests [Delta Avg]개별 disk들의 system.diskio.read.count_delta의 평균cnt
Disk Read Requests [Delta Max]개별 disk들의 system.diskio.read.count_delta의 최대cnt
Disk Read Requests [Delta Min]개별 disk들의 system.diskio.read.count_delta의 최소cnt
Disk Read Requests [Delta Sum]개별 disk들의 system.diskio.read.count_delta의 합cnt
Disk Read Requests [Success Delta]개별 disk의 system.diskio.read.count 의 deltacnt
Disk Read Requests [Success]성공적으로 완료된 총 읽기 수cnt
Disk Request Size [Avg]장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다.num
Disk Service Time [Avg]장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다.ms
Disk Wait Time [Avg]지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다.ms
Disk Wait Time [Read]디스크 평균 대기 시간ms
Disk Wait Time [Write]디스크 평균 대기 시간ms
Disk Write Bytes [Delta Avg]개별 disk들의 system.diskio.write.bytes_delta의 평균bytes
Disk Write Bytes [Delta Max]개별 disk들의 system.diskio.write.bytes_delta의 최대bytes
Disk Write Bytes [Delta Min]개별 disk들의 system.diskio.write.bytes_delta의 최소bytes
Disk Write Bytes [Delta Sum]개별 disk들의 system.diskio.write.bytes_delta의 합bytes
Disk Write Bytes [Delta]개별 disk의 system.diskio.write.bytes 값의 deltabytes
Disk Write Bytes [Success]성공적으로 쓰여진 총 바이트 수.bytes
Disk Write Requests1초동안 디스크 디바이스의 쓰기 요청 수cnt
Disk Write Requests [Delta Avg]개별 disk들의 system.diskio.write.count_delta의 평균cnt
Disk Write Requests [Delta Max]개별 disk들의 system.diskio.write.count_delta의 최대cnt
Disk Write Requests [Delta Min]개별 disk들의 system.diskio.write.count_delta의 최소cnt
Disk Write Requests [Delta Sum]개별 disk들의 system.diskio.write.count_delta의 합cnt
Disk Write Requests [Success Delta]개별 disk의 system.diskio.write.count 의 deltacnt
Disk Write Requests [Success]성공적으로 완료된 총 쓰기 수cnt
Disk Writes Bytes장치에 쓰는 초당 바이트 수입니다.bytes
Filesystem Hang Checkfilesystem(local/NFS) hang 체크 (정상:1, 비정상:0)status
Filesystem Nodes파일 시스템의 총 파일 노드 수입니다.cnt
Filesystem Nodes [Free]파일 시스템의 총 가용 파일 노드 수입니다.cnt
Filesystem Size [Available]권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)bytes
Filesystem Size [Free]사용 가능한 디스크 공간 (bytes)bytes
Filesystem Size [Total]총 디스크 공간 (bytes)bytes
Filesystem Usage사용한 디스크 공간 백분율%
Filesystem Usage [Avg]개별 filesystem.used.pct들의 평균%
Filesystem Usage [Inode]inode 사용률%
Filesystem Usage [Max]개별 filesystem.used.pct 중에 max%
Filesystem Usage [Min]개별 filesystem.used.pct 중에 min%
Filesystem Usage [Total]-%
Filesystem Used사용한 디스크 공간 (bytes)bytes
Filesystem Used [Inode]inode 사용량bytes
Memory Free사용 가능한 총 메모리 양 (bytes).bytes
Memory Free [Actual]실제 사용가능한 memory (bytes).bytes
Memory Free [Swap]사용가능한 swap memory.bytes
Memory Total총 memorybytes
Memory Total [Swap]총 swap memory.bytes
Memory Usage사용한 memory의 백분율%
Memory Usage [Actual]실제 사용된 memory의 백분율%
Memory Usage [Cache Swap]cache 된 swap 사용률%
Memory Usage [Swap]사용한 swap memory의 백분율%
Memory Used사용한 memorybytes
Memory Used [Actual]실제 사용된 memory (bytes).bytes
Memory Used [Swap]사용한 swap memory.bytes
Collisions네트워크 충돌cnt
Network In Bytes수신된 byte 수bytes
Network In Bytes [Delta Avg]개별 network들의 system.network.in.bytes_delta의 평균bytes
Network In Bytes [Delta Max]개별 network들의 system.network.in.bytes_delta의 최대bytes
Network In Bytes [Delta Min]개별 network들의 system.network.in.bytes_delta의 최소bytes
Network In Bytes [Delta Sum]개별 network 들의 system.network.in.bytes_delta의 합bytes
Network In Bytes [Delta]수신된 byte 수의 deltabytes
Network In Dropped들어온 packet 중 삭제된 패킷의 수cnt
Network In Errors수신 중의 error 수cnt
Network In Packets수신된 packet 수cnt
Network In Packets [Delta Avg]개별 network들의 system.network.in.packets_delta의 평균cnt
Network In Packets [Delta Max]개별 network들의 system.network.in.packets_delta의 최대cnt
Network In Packets [Delta Min]개별 network들의 system.network.in.packets_delta의 최소cnt
Network In Packets [Delta Sum]개별 network들의 system.network.in.packets_delta의 합cnt
Network In Packets [Delta]수신된 packet 수의 deltacnt
Network Out Bytes송신된 byte 수bytes
Network Out Bytes [Delta Avg]개별 network들의 system.network.out.bytes_delta의 평균bytes
Network Out Bytes [Delta Max]개별 network들의 system.network.out.bytes_delta의 최대bytes
Network Out Bytes [Delta Min]개별 network들의 system.network.out.bytes_delta의 최소bytes
Network Out Bytes [Delta Sum]개별 network들의 system.network.out.bytes_delta의 합bytes
Network Out Bytes [Delta]송신된 byte 수의 deltabytes
Network Out Dropped나가는 packet 중 삭제된 packet 수.cnt
Network Out Errors송신 중의 error 수cnt
Network Out Packets송신된 packet 수cnt
Network Out Packets [Delta Avg]개별 network들의 system.network.out.packets_delta의 평균cnt
Network Out Packets [Delta Max]개별 network들의 system.network.out.packets_delta의 최대cnt
Network Out Packets [Delta Min]개별 network들의 system.network.out.packets_delta의 최소cnt
Network Out Packets [Delta Sum]개별 network들의 system.network.out.packets_delta의 합cnt
Network Out Packets [Delta]송신된 packet 수의 deltacnt
Open Connections [TCP]열려 있는 모든 TCP 연결cnt
Open Connections [UDP]열려 있는 모든 UDP 연결cnt
Port Usage접속가능한 port 사용률%
SYN Sent SocketsSYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시)cnt
Kernel PID Maxkernel.pid_max 값cnt
Kernel Thread Maxkernel.threads-max 값cnt
Process CPU Usage마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율.%
Process CPU Usage/Core마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율.%
Process Memory Usagemain memory (RAM) 에서 프로세스가 차지하는 비율%
Process Memory UsedResident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양.bytes
Process PID프로세스 pidPID
Process PPID부모 프로세스의 pidPID
Processes [Dead]dead processes 수cnt
Processes [Idle]idle processes 수cnt
Processes [Running]running processes 수cnt
Processes [Sleeping]sleeping processes 수cnt
Processes [Stopped]stopped processes 수cnt
Processes [Total]총 processes 수cnt
Processes [Unknown]상태를 검색할 수 없거나 알 수 없는 processes 수cnt
Processes [Zombie]좀비 processes 수cnt
Running Process Usageprocess 사용률%
Running Processesrunning processes 수cnt
Running Thread Usagethread 사용률%
Running Threadsrunning processes 에서 실행중인 thread 수 총합cnt
Context Switchescontext switch 수 (초당)cnt
Load/Core [1 min]마지막 1 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [15 min]마지막 15 분 동안의 로드를 코어 수로 나눈 값cnt
Load/Core [5 min]마지막 5 분 동안의 로드를 코어 수로 나눈 값cnt
Multipaths [Active]외장 스토리지 연결 path status = active 카운트cnt
Multipaths [Failed]외장 스토리지 연결 path status = failed 카운트cnt
Multipaths [Faulty]외장 스토리지 연결 path status = faulty 카운트cnt
NTP Offsetlast sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이)num
Run Queue Length실행 대기열 길이num
UptimeOS 가동시간(uptime). (milliseconds)ms
Context SwitchiesCPU context switch 수 (초당)cnt
Disk Read Bytes [Sec]windows logical 디스크에서 1초동안 읽어들인 바이트 수cnt
Disk Read Time [Avg]데이터 읽기 평균 시간 (초)sec
Disk Transfer Time [Avg]디스크 average wait timesec
Disk Usage디스크 사용률%
Disk Write Bytes [Sec]windows logical 디스크에서 1초동안 쓰여진 바이트 수cnt
Disk Write Time [Avg]데이터 쓰기 평균 시간 (초)sec
Pagingfile Usagepaging file 사용률%
Pool Used [Non Paged]커널 메모리 중 Nonpaged Pool 사용량bytes
Pool Used [Paged]커널 메모리 중 Paged Pool 사용량bytes
Process [Running]현재 동작 중인 프로세스 수cnt
Threads [Running]현재 동작 중인 thread 수cnt
Threads [Waiting]프로세서 시간을 기다리는 thread 수cnt
표. GPU Server 추가 모니터링 지표 (Agent 설치 필요)

1.3 - ServiceWatch 지표

GPU Server는 ServiceWatch로 지표를 전송합니다. 기본 모니터링으로 제공되는 지표는 5분 주기로 수집된 데이터입니다. 세부 모니터링을 활성화하면, 1분 주기로 수집된 데이터를 확인할 수 있습니다.

안내
  • GPU Server의 기본 모니터링과 세부 모니터링은 Virtual Server와 동일한 지표로 제공되며, 네임스페이스도 Virtual Server로 제공됩니다.
  • GPU 관련 지표는 ServiceWatch Agent를 통해 제공되며, ServiceWatch Agent를 사용하여 지표를 수집하는 방법은 ServiceWatch Agent 가이드를 참고하세요.
참고
ServiceWatch에서 지표를 확인하는 방법은 ServiceWatch 가이드를 참고하세요.

GPU Server의 세부 모니터링 활성화하는 방법은 How-to guides > ServiceWatch 세부 모니터링 활성화하기를 참고하세요.

기본 지표

다음은 네임스페이스 Virtual Server에 대한 기본 지표입니다.

성능 항목상세 설명단위의미있는 통계
Instance State인스턴스 상태 표시--
CPU UsageCPU 사용률%
  • 평균
  • 최고
  • 최저
Disk Read Bytes블록 장치에서 읽은 용량(바이트)Bytes
  • 합계
  • 평균
  • 최고
  • 최저
Disk Read Requests블록 장치에서의 읽기 요청 수Count
  • 합계
  • 평균
  • 최고
  • 최저
Disk Write Bytes블록 장치에서 쓰기 용량(바이트)Bytes
  • 합계
  • 평균
  • 최고
  • 최저
Disk Write Requests블록 장치에서의 쓰기 요청 수Count
  • 합계
  • 평균
  • 최고
  • 최저
Network In Bytes네트워크 인터페이스에서 수신된 용량(바이트)Bytes
  • 합계
  • 평균
  • 최고
  • 최저
Network In Dropped네트워크 인터페이스에서 수신된 패킷 드롭 수Count
  • 합계
  • 평균
  • 최고
  • 최저
Network In Packets네트워크 인터페이스에서 수신된 패킷 수Count
  • 합계
  • 평균
  • 최고
  • 최저
Network Out Bytes네트워크 인터페이스에서 전송된 용량(바이트)Bytes
  • 합계
  • 평균
  • 최고
  • 최저
Network Out Dropped네트워크 인터페이스에서 전송된 패킷 드롭 수Count
  • 합계
  • 평균
  • 최고
  • 최저
Network Out Packets네트워크 인터페이스에서 전송된 패킷 수Count
  • 합계
  • 평균
  • 최고
  • 최저
표. Virtual Server 기본 지표

2 - How-to guides

사용자는 Samsung Cloud Platform Console을 통해 GPU Server의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.

GPU Server 생성하기

Samsung Cloud Platform Console에서 GPU Server 서비스를 생성하여 사용할 수 있습니다.

GPU Server 생성하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 생성 버튼을 클릭하세요. GPU Server 생성 페이지로 이동합니다.
  3. GPU Server 생성 페이지에서 서비스 생성에 필요한 정보들을 입력하고, 상세 옵션을 선택하세요.
    • 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
      구분
      필수 여부
      상세 설명
      이미지필수제공하는 이미지 종류 선택
      • RHEL, Ubuntu
      이미지 버전필수선택한 이미지의 버전 선택
      • 제공하는 서버 이미지의 버전 리스트 제공
      표. GPU Server 이미지 및 버전 선택 입력 항목
    • 서비스 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
      구분
      필수 여부
      상세 설명
      서버 수필수동시 생성할 GPU Server 서버 수
      • 숫자만 입력 가능하며 1~100 사이의 값을 입력
      서비스 유형 > 서버 타입필수GPU Server 서버 타입
      • GPU 타입의 서버 사양을 나타내며 GPU 1장, 2장, 4장, 8장을 포함한 서버를 선택
      서비스 유형 > Planned Compute선택Planned Compute가 설정된 자원 현황
      • 사용중: Planned Compute가 설정된 자원 중 사용 중인 개수
      • 설정: Planned Compute가 설정된 자원의 개수
      • Coverage 미리보기: 자원별 Planned Compute로 적용된 금액
      • Planned Compute 서비스 신청: Planned Compute 서비스 신청 페이지로 이동
      Block Storage필수용도에 따라 GPU Server가 사용하는 Block Storage를 설정
      • 기본: OS가 설치되어 사용되는 영역
        • 용량은 Unit 단위로 입력 가능(OS 이미지의 종류에 따라 최소 용량이 다름)
          • RHEL: 3 ~ 1,536 사이의 값 입력 가능
          • Ubuntu: 3 ~ 1,536 사이의 값 입력 가능
        • SSD: 고성능 일반 볼륨
        • HDD: 일반 볼륨
        • SSD/HDD_KMS: Samsung Cloud Platform KMS (Key Management System) 암호화 키를 사용하는 추가 암호화 볼륨
          • 암호화 적용은 최초 생성 시에만 가능(생성 후, 변경 불가)
          • SSD_KMS 디스크 유형 사용 시 성능 저하 발생
      • 추가: OS 영역 외 사용자 추가 공간 필요 시 사용
        • 사용을 선택한 후, Storage의 유형과 용량 입력
        • Storage를 추가하려면 + 버튼을 클릭(최대 25개까지 추가 가능), 삭제하려면 x 버튼 클릭
        • 용량은 Unit 단위로 1 ~ 1,536 사이의 값을 입력 가능
          • 1 Unit이 8 GB이므로 8 ~ 12,288 GB가 생성
        • SSD: 고성능 일반 볼륨
        • HDD: 일반 볼륨
        • SSD/HDD_KMS: Samsung Cloud Platform KMS (Key Management System) 암호화 키를 사용하는 추가 암호화 볼륨
          • 암호화 적용은 최초 생성 시에만 가능(생성 후, 변경 불가)
          • SSD_KMS 디스크 유형 사용 시 성능 저하가 발생할 있음
      • Delete on termination: Delete on Termination사용으로 선택한 경우, 서버를 해지할 때 해당 볼륨을 함께 해지
        • 스냅샷이 존재하는 볼륨은 Delete on termination사용으로 선택한 경우에도 삭제되지 않음
        • Multi attach 볼륨은 삭제하려는 서버가 볼륨에 연결된 마지막 남은 서버일 때만 삭제
      표. GPU Server 서비스 구성 항목
    • 필수 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
      구분
      필수 여부
      상세 설명
      서버명필수선택한 서버 수가 1인 경우에 서버 구별을 위한 이름 입력
      • 입력한 서버 이름으로 hostname을 설정
      • 영문,숫자,공백과 특수문자(- _)를 사용하여 63자 이내로 입력
      서버명 Prefix필수선택한 서버 수가 2이상인 경우에 생성되는 각각의 서버 구별을 위한 Prefix 입력
      • 사용자 입력값(prefix) + ‘-#’ 형태로 자동 생성
      • 영문, 숫자, 공백과 특수문자(-, _)를 사용하여 59자 이내로 입력
      네트워크 설정 > 신규 네트워크 포트 생성필수GPU Server가 설치될 네트워크를 설정
      • 미리 생성한 VPC를 선택합니다.
      • 일반 Subnet: 미리 생성한 일반 Subnet을 선택
        • IP자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력
        • NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능. 사용을 체크하면 NAT IP를 선택 가능
        • NAT IP: NAT IP를 선택
          • 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성해야 함
          • 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택
          • Public IP를 생성하면 Public IP 요금 기준에 따라 요금이 부과
      • 로컬 Subnet(선택): 로컬 Subnet 사용을 선택
        • 서비스를 생성하는데 필수 요소는 아님
        • 미리 생성한 로컬 Subnet을 선택해야 함
        • IP자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 가능
        • Security Group: 서버에 접속하기 위해 필요한 설정
          • 선택: 미리 생성한 Security Group을 선택
          • 신규 생성: 적용할 Security Group이 없는 경우 Security Group 서비스에서 별도로 생성 가능
          • 최대 5개까지 선택 가능
          • Security Group을 설정하지 않으면 기본적으로 모든 접속을 차단함
          • 필요한 접속을 허용하기 위해서 Security Group을 설정해야 함
      네트워크 설정 > 기존 네트워크 포트 지정필수GPU Server가 설치될 네트워크를 설정
      • 미리 생성한 VPC를 선택
      • 일반 Subnet: 미리 생성한 일반 Subnet과 Port를 선택
        • NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능 사용을 체크하면 NAT IP를 선택할 수 있습니다.
        • NAT IP: NAT IP를 선택
          • 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성
          • 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택
      • 로컬 Subnet(선택): 로컬 Subnet의 사용 을 선택
        • 미리 생성한 로컬 Subnet과 Port를 선택
      Keypair필수서버에 연결할 때 사용할 사용자 증명 방법
      • 신규 생성: 새로운 Keypair가 필요한 경우 신규 생성
      • OS별 기본 접속 계정 리스트
        • RHEL: cloud-user
        • Ubuntu: ubuntu
      표. GPU Server 필수 정보 입력 항목
    • 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
      구분
      필수 여부
      상세 설명
      Lock선택Lock 사용 여부 설정
      • Lock을 사용하면 서버 해지, 시작, 중지 등의 동작을 실행할 수 없도록 하여 실수로 인한 오동작을 방지
      Init script선택서버 시작 시, 실행하는 스크립트
      • Init script는 이미지 종류에 따라 Windows의 경우 Batch script, Linux의 경우 Shell script 또는 cloud-init로 작성되어야 함.
      • 최대 45,000 bytes까지 입력 가능
      태그선택태그 추가
      • 자원 당 최대 50개까지 추가 가능
      • 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
      표. GPU Server 추가 정보 입력 항목
  4. 요약 패널에서 생성한 상세 정보와 예상 청구 금액을 확인하고, 완료 버튼을 클릭하세요.
    • 생성이 완료되면, GPU Server 목록 페이지에서 생성한 자원을 확인하세요.

GPU Server 상세 정보 확인하기

GPU Server 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. GPU Server 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

GPU Server 서비스의 상세 정보를 확인하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
    • GPU Server 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.
    • GPU Server 부가 기능에 대한 자세한 내용은 GPU Server 관리 부가 기능을 참고하세요.
      구분상세 설명
      GPU Server 상태사용자가 생성한 GPU Server의 상태
      • Build: Build 명령이 전달된 상태
      • Building: Build 진행중
      • Networking: 서버 생성 진행중 프로세스
      • Scheduling: 서버 생성 진행중 프로세스
      • Block_Device_Mapping: 서버 생성시 Block Storage 연결 중
      • Spawning: 서버 생성 프로세스가 진행 중인 상태
      • Active: 사용 가능한 상태
      • Powering_off: 중지 요청시 상태
      • Deleting: 서버 삭제 진행 중
      • Reboot_Started: Reboot 진행중 상태
      • Error: 에러 상태
      • Migrating: 다른 호스트로 서버 Migration 되는 상태
      • Reboot: Reboot 명령이 전달된 상태
      • Rebooting: 재시작 진행 중
      • Rebuild: Rebuild 명령이 전달된 상태
      • Rebuilding: Rebuild 요청 시 상태
      • Rebuild_Spawning: Rebuild 프로세스가 진행중인 상태
      • Resize: Resize 명령이 전달된 상태
      • Resizing: Resize 진행 중
      • Resize_Prep: 서버 타입 수정 요청 시 상태
      • Resize_Migrating: 서버가 Resize 진행 동시에 다른 호스토로 이동 중인 상태
      • Resize_Migrated: 서버가 Resize 진행 동시에 다른 호스트로 이동 완료된 상태
      • Resize_Finish: Resize가 완료
      • Revert_Resize: 어떤 이유로 서버의 Resize 또는 마이그레이션 실패. 대상 서버가 정리되고 원래 원본 서버가 다시 시작
      • Shutoff: Powering off 완료 시 상태
      • Verity_Resize: 서버 타입 수정 요청에 따라 Resize_Prep 진행 이후, 서버 타입 확정/서버 타입 원복 선택 가능 상태
      • Resize_Reverting: 서버 타입 원복 요청 시 상태
      • Resize_Confirming: 서버의 Resize 요청을 확인 중인 상태
      서버 제어서버 상태를 변경할 수 있는 버튼
      • 시작: 중지된 서버를 시작
      • 중지: 가동 중인 서버를 중지
      • 재시작: 가동 중인 서버를 재시작
      이미지 생성현재 서버의 이미지로 사용자 Custom 이미지 생성
      콘솔 로그현재 서버의 콘솔 로그 조회
      • 현재 서버에서 출력되는 콘솔 로그를 확인할 수 있음. 자세한 내용은 콘솔 로그 확인하기를 참고하세요.
      Dump 생성현재 서버의 Dump를 생성
      • Dump 파일은 GPU Server 안에 생성됨
      Rebuild기존 서버의 모든 데이터와 설정이 삭제되고, 새로운 서버를 구성
      서비스 해지서비스를 해지하는 버튼
      표. GPU Server 상태 정보 및 부가 기능
안내
mig 기능을 사용하는 경우, GPU Server의 Rebooting 상태가 끝난 후, mig 설정을 다시 확인해야 합니다.

상세 정보

GPU Server 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분상세 설명
서비스서비스명
자원 유형자원 유형
SRNSamsung Cloud Platform에서의 고유 자원 ID
  • GPU Server 서비스에서는 GPU Server SRN을 의미
자원명자원 이름
  • GPU Server 서비스에서는 GPU Server 명을 의미
자원 ID서비스에서의 고유 자원 ID
생성자서비스를 생성한 사용자
생성 일시서비스를 생성한 일시
수정자서비스 정보를 수정한 사용자
수정 일시서비스 정보를 수정한 일시
서버명서버 이름
서버 타입vCPU, 메모리, GPU정보 표시
  • 다른 서버 타입으로 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정
이미지명서비스의 OS 이미지 및 버전
LockLock 사용/미사용 여부 표시
  • Lock 속성값 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정
Keypair명사용자가 설정한 서버 인증 정보
Planned ComputePlanned Compute가 설정된 자원 현황
LLM EndpointLLM 이용을 위한 URL
ServiceWatch 세부 모니터링활성화 시 ServiceWatch 서비스에서 데이터 모니터링 가능
  • 수정 버튼을 클릭하여 활성화 여부 설정 가능
네트워크GPU Server의 네트워크 정보
  • VPC, 일반 Subnet서브넷, IP, NAT IP, NAT IP 상태, Security Group
  • NAT IP 값 변경이 필요한 경우 수정 버튼을 클릭하여 설정 가능
  • Security Group 변경이 필요한 경우 수정 버튼을 클릭하여 설정 가능
  • 신규 네트워크로 추가: 일반 Subnet과 IP를 선택
    • 같은 VPC 내의 다른 일반 Subnet 선택 가능
    • IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력 가능
  • 기존 포트로 추가: 미리 생성한 일반 Subnet과 포트를 선택
로컬 SubnetGPU Server의 로컬 Subnet 정보
  • 로컬 Subnet, 로컬 Subnet IP, Security Group
  • Security Group 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정 가능
  • 신규 네트워크로 추가: 로컬 Subnet과 IP를 선택
    • 같은 VPC 내의 다른 로컬 Subnet 선택 가능
    • IP자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력
  • 기존 포트로 추가: 미리 생성한 로컬 Subnet과 포트를 선택
Block Storage서버에 연결된 Block Storage의 정보
  • 볼륨ID, 볼륨명, 유형, 용량, 연결정보, 종류, Delete on termination, 상태
  • 추가: 필요 시 추가적인 Block Storage를 연결 가능
  • Delete on termination 수정: Delete on termination 값 수정
  • 연결 해제: 추가로 연결된 Block Storage의 연결 해제
표. GPU Server 상세 정보 탭 항목
주의
ServiceWatch 세부 모니터링을 사용할 경우, 추가 요금이 부과됩니다.

태그

GPU Server 목록 페이지에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.

구분상세 설명
태그 목록태그 목록
  • 태그의 Key, Value 정보 확인 가능
  • 태그는 자원 당 최대 50개까지 추가 가능
  • 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택 가능
표. GPU Server 태그 탭 항목

작업 이력

GPU Server 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분상세 설명
작업 이력 목록자원 변경 이력
  • 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인
표. 작업 이력 탭 상세 정보 항목

GPU Server 가동 제어하기

생성된 GPU Server 자원의 가동 제어가 필요한 경우, GPU Server 목록 또는 GPU Server 상세 페이지에서 작업을 수행할 수 있습니다. 가동 중인 서버의 시작, 중지, 재시작을 할 수 있습니다.

GPU Server 시작하기

중지(Shutoff)된 GPU Server를 시작할 수 있습니다. GPU Server를 시작하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 중지(Shutoff)된 서버 중 시작할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
    • GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 시작할 수 있습니다.
    • 여러 대 서버를 체크 박스 선택한 후, 상단의 시작 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
  4. GPU Server 상세 페이지에서 상단의 시작 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
    • GPU Server 시작이 완료되면 서버 상태가 Shutoff에서 Active로 변경됩니다.
    • GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 중지하기

가동(Active)중인 GPU Server를 중지할 수 있습니다. GPU Server를 중지하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 가동(Active) 중인 서버 중 중지할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
    • GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 중지할 수 있습니다.
    • 여러 대 서버를 체크 박스 선택한 후, 상단의 중지 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
  4. GPU Server 상세 페이지에서 상단의 중지 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
    • GPU Server 중지가 완료되면 서버 상태가 Active에서 Shutoff로 변경됩니다.
    • GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 재시작하기

생성된 GPU Server를 재시작할 수 있습니다. GPU Server를 재시작하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 재시작할 자원을 클릭하여, GPU Server 상세 페이지로 이동합니다.
    • GPU Server 목록 페이지에서 각 자원 별로 오른쪽 더보기 버튼을 통해 재시작할 수 있습니다.
    • 여러 대 서버를 체크 박스 선택한 후, 상단의 재시작 버튼을 통해 여러 대 서버를 동시에 제어할 수 있습니다.
  4. GPU Server 상세 페이지에서 상단의 재시작 버튼을 클릭하여, 서버를 시작합니다. 상태 표시 항목에서 변경된 서버의 상태를 확인하세요.
    • GPU Server 재시작 중에는 서버 상태가 Rebooting을 거쳐 최종 Active로 변경됩니다.
    • GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 자원 관리하기

생성된 GPU Server 자원의 서버 제어 및 관리 기능이 필요한 경우, GPU Server 자원목록 또는 GPU Server 상세 페이지에서 작업을 수행할 수 있습니다.

Image 생성하기

가동 중인 GPU Server의 Image를 생성할 수 있습니다.

참고

해당 내용은 가동 중인 GPU Server의 Image로 사용자 Custom Image를 생성하는 방법을 안내하고 있습니다.

  • GPU Server 목록 또는 GPU Server 상세 페이지에서 이미지 생성 버튼을 클릭하여 사용자 Custom Image를 생성합니다.

GPU Server의 Image를 생성하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.

  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.

  3. GPU Server 목록 페이지에서 Image 생성할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.

  4. GPU Server 상세 페이지에서 이미지 생성 버튼을 클릭하세요. Image 생성 페이지로 이동합니다.

    • 서비스 정보 입력 영역에서 필요한 정보를 입력하세요.
      구분
      필수 여부
      상세 설명
      이미지명필수생성할 이미지의 이름
      • 영문, 숫자, 공백과 특수문자(- _)를 사용하여 200자 이내로 입력
      표. Image 서비스 정보 입력 항목
  5. 입력 정보를 확인하고, 완료 버튼을 클릭하세요.

    • 생성이 완료되면, 모든 서비스 > Compute > GPU Server > Image 목록 페이지에서 생성한 자원을 확인하세요.
안내
  • Image를 생성하면 생성된 Image를 내부 저장소로 사용되는 Object Storage에 저장하게됩니다. 따라서 Image 저장에 대한 Object Storage 사용 요금이 부과 됩니다.
  • Active 상태인 GPU Server로부터 생성된 이미지의 파일 시스템은 무결성을 보장할 수 없으므로 서버 정지 후 이미지 생성을 권장합니다.

ServiceWatch 세부 모니터링 활성화하기

기본적으로 GPU Server는 ServiceWatch와 Virtual Server 네임스페이스의 기본 모니터링으로 연계되어 있습니다. 필요에 따라 세부 모니터링을 활성화하여 운영 문제를 보다 신속하게 식별하고 조치를 취할 수 있습니다. ServiceWatch에 대한 자세한 내용은 ServiceWatch 개요를 참조하세요.

참고
GPU Server는 Virtual Server와 동일한 네임스페이스의 기본 모니터링과 세부 모니터링을 제공됩니다. GPU Server의 GPU 지표는 ServiceWatch Agent로 제공될 예정입니다. (25년 12월 예정)
주의
기본 모니터링은 무료로 제공되지만, 세부 모니터링을 활성화하면 추가 요금이 부과됩니다. 이용에 유의하세요.

GPU Server의 ServiceWatch 세부 모니터링 활성화하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 ServiceWatch 세부 모니터링 활성화할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
  4. GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 수정 버튼을 클릭하세요. ServiceWatch 세부 모니터링 수정 팝업창으로 이동합니다.
  5. ServiceWatch 세부 모니터링 수정 팝업창에서 활성화 선택한 후, 안내 문구를 확인하고 확인 버튼을 클릭하세요.
  6. GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 항목을 확인하세요.

ServiceWatch 세부 모니터링 비활성화 하기

주의
비용 효율화를 위해 세부 모니터링 비활성화가 필요합니다. 반드시 필요한 경우에만 세부 모니터링을 활성화를 유지하고, 나머지는 세부 모니터링을 비활성화하세요.

GPU Server의 ServiceWatch 세부 모니터링 비활성화하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 ServiceWatch 세부 모니터링 비활성화할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
  4. GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 수정 버튼을 클릭하세요. ServiceWatch 세부 모니터링 수정 팝업창으로 이동합니다.
  5. ServiceWatch 세부 모니터링 수정 팝업창에서 활성화 선택 해제한 후, 안내 문구를 확인하고 확인 버튼을 클릭하세요.
  6. GPU Server 상세 페이지에서 ServiceWatch 세부 모니터링 항목을 확인하세요.

GPU Server 관리 부가 기능

GPU Server 서버 관리를 위해 Console 로그 조회, Dump 생성, Rebuild를 할 수 있습니다. GPU Server의 Console 로그 조회, Dump 생성, Rebuild를 하려면 다음 절차를 따르세요.

콘솔 로그 확인하기

GPU Server의 현재 콘솔 로그를 확인할 수 있습니다.

GPU Server의 콘솔 로그 확인하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 콘솔 로그를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
  4. GPU Server 상세 페이지에서 콘솔 로그 버튼을 클릭하세요. 콘솔 로그 팝업창으로 이동합니다.
  5. 콘솔 로그 팝업창에서 출력된 콘솔 로그를 확인합니다.

Dump 생성하기

GPU Server의 Dump 파일을 생성하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
  4. GPU Server 상세 페이지에서 Dump 생성 버튼을 클릭하세요.
    • Dump 파일은 GPU Server 안에 생성됩니다.

Rebuild 수행하기

기존 GPU Server 서버의 모든 데이터와 설정을 삭제하고, 새로운 서버로 Rebuild하여 구성할 수 있습니다.

GPU Server의 Rebuild를 수행하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 Rebuild를 수행할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
  4. GPU Server 상세 페이지에서 Rebuild 버튼을 클릭하세요.
    • GPU Server Rebuild 중에는 서버 상태가 Rebuilding로 변경되었다가 Rebuild가 완료되면 Rebuild 수행 전 상태로 돌아옵니다.
    • GPU Server 상태에 대한 자세한 내용은 GPU Server 상세 정보 확인하기를 참고하세요.

GPU Server 해지하기

사용하지 않는 GPU Server를 해지하면 운영 비용을 절감할 수 있습니다. 단, GPU Server를 해지하면 운영 중인 서비스가 즉시 중단될 수 있으므로 서비스 중단 시 발생하는 영향을 충분히 고려한 후 해지 작업을 진행해야 합니다.

주의
서비스 해지 후에는 데이터를 복구할 수 없으므로 주의해주세요.

GPU Server를 해지하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
  3. GPU Server 목록 페이지에서 해지할 자원을 선택하고, 서비스 해지 버튼을 클릭하세요.
    • 연결된 스토리지의 해지는 Delete on termination 설정에 따라 다르오니, 해지 제약 사항을 참고하세요.
  4. 해지가 완료되면, GPU Server 목록 페이지에서 자원이 해지되었는지 확인하세요.

해지 제약 사항

GPU Server 해지 요청 시 해지가 불가한 경우에는 팝업창으로 안내합니다. 아래 케이스를 참고하세요.

해지 불가
  • File Storage가 연결된 경우는 File Storage 연결을 먼저 해지해주세요.
  • LB Pool이 연결된 경우는 LB Pool 연결을 먼저 해지해 주세요.
  • Lock이 설정된 경우는 Lock 설정을 미사용으로 변경 후 재시도 해주세요.

연결된 스토리지의 해지는 Delete on termination 설정에 따라 달라집니다.

Delete on termination 설정 별 삭제
  • Delete on termination 설정 여부에 따라 볼륨 삭제 여부도 달라집니다.
    • Delete on termination 미설정 시: GPU Server를 해지해도 해당 볼륨이 삭제되지 않습니다.
    • Delete on termination 설정 시: GPU Server를 해지하면 해당 볼륨이 삭제됩니다.
  • Snapshot이 존재하는 볼륨은 Delete on termination이 설정되어도 삭제되지 않습니다.
  • Multi attach 볼륨은 삭제하려는 서버가 볼륨에 연결된 마지막 남은 서버일 때만 삭제됩니다.

2.1 - Image 관리하기

사용자는 Samsung Cloud Platform Console을 통해 GPU Server 서비스 내 Image 서비스의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 해당 서비스를 생성할 수 있습니다.

Image 생성하기

가동 중인 GPU Server 서버의 Image를 생성할 수 있습니다. GPU Server의 Image를 생성하려면 Image 생성하기를 참고해주세요.

Image 상세 정보 확인하기

Image 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. Image 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

Image 서비스의 상세 정보를 확인하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
  3. Image 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Image 상세 페이지로 이동합니다.
    • Image 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.
      구분상세 설명
      이미지 상태사용자가 생성한 Image의 상태
      • Active: 사용 가능한 상태
      • Queued: Image 생성 생성 시, Image가 업로드 되어 처리 대기 중인 상태
      • Importing: Image 생성 생성 시, Image가 업로드 되어 처리 중인 상태
      다른 Account로 공유Image를 다른 Account로 공유 가능
      • Image의 Visibility가 Shared 상태이어야만 다른 Account로 공유 가능
      이미지 삭제Image를 삭제하는 버튼
      • Image를 삭제하면 복구 불가
      표. GPU Server Image 상태 정보 및 부가 기능

상세 정보

Image 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분상세 설명
서비스서비스명
자원 유형자원 유형
SRNSamsung Cloud Platform에서의 고유 자원 ID
  • GPU Server Image의 SRN을 의미
자원명Image 이름
자원 IDImage ID
생성자Image를 생성한 사용자
생성 일시Image를 생성한 일시
수정자Image를 수정한 사용자
수정 일시Image를 수정한 일시
이미지명Image 이름
최소 디스크Image의 최소 디스크 용량(GB)
  • 최소 디스크 수정이 필요한 경우에는 수정 버튼을 클릭하여 설정
최소 RAMImage의 최소 RAM 용량(GB)
OS 타입Image의 OS 타입
OS hash algorithmOS hash algorithm 방식
Visibility이미지에 대한 접근 권한을 표시
  • Private은 프로젝트 내에서만 사용이 가능하고, Shared는 프로젝트 간 공유가 가능
Protected이미지 삭제 불가 여부를 선택
  • 사용을 체크하면 이미지를 실수로 삭제하지 않도록 방지 가능
  • 해당 설정은 이미지 생성 이후 변경 가능
이미지 파일 URL이미지 생성 시 업로드 한 이미지 파일 URL
  • GPU Server 상세페이지에서 이미지 생성 메뉴로 만든 이미지의 경우 표시되지 않음
공유 현황다른 Account로 이미지를 공유하고 있는 현황
  • 승인 Account ID: 공유가 승인된 Account의 ID
  • 수정 일시: 다른 Account로 공유를 요청한 일시, 이후 공유 상태가 Pending → Accepted 변경되면 해당 일시로 업데이트됨
  • 상태: 승인 상태
    • Accepted: 승인되어 공유하고 있음
    • Pending: 승인을 기다리고 있음
  • 삭제: 공유가 중지됨
표. Image 상세 정보 탭 항목

태그

Image 목록 페이지에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.

구분상세 설명
태그 목록태그 목록
  • 태그의 Key, Value 정보 확인 가능
  • 태그는 자원 당 최대 50개까지 추가 가능
  • 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택 가능
표. Image 태그 탭 항목

작업 이력

Image 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분상세 설명
작업 이력 목록자원 변경 이력
  • 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인
표. GPU Server Image 작업 이력 탭 상세 정보 항목

Image 자원 관리하기

생성된 Image 의 제어 및 관리 기능을 설명합니다.

다른 Account로 공유하기

Image를 다른 Account로 공유하려면 다음 절차를 따르세요.

  1. 공유할 Account에 접속하여 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
  3. Image 목록 페이지에서 제어할 Image를 클릭하세요. Image 상세 페이지로 이동합니다.
  4. 다른 Account로 공유 버튼을 클릭하세요. 다른 Account로 이미지 공유 페이지로 이동합니다.
    • 다른 Account로 공유 기능을 통해 Image를 다른 Account로 공유할 수 있습니다. Image를 다른 Account로 공유하려면 Image의 Visibility가 Shared이어야 합니다.
  5. 다른 Account로 이미지 공유 페이지에서 필요한 정보를 입력하고 완료 버튼을 클릭하세요.
    구분
    필수 여부
    상세 설명
    이미지명-공유할 이미지의 이름
    • 입력 불가
    이미지 ID-공유할 이미지 ID
    • 입력 불가
    공유 Account ID필수공유할 다른 Account ID 입력
    • 영문, 숫자, 특수문자-를 사용하여 64자 이내로 입력
    표. 다른 Account로 이미지 공유 필수 입력 항목
  6. Image 상세 페이지의 공유 현황에서 정보를 확인할 수 있습니다.
    • 최초 요청 시에는 상태가 Pending 이고, 공유 받을 Account에서 승인이 완료되면 Accepted로 변경됩니다.
안내
현재 사용자의 Image 파일 업로드를 통해 생성한 Image만 다른 Account로 공유가 가능합니다. 가동 중인 GPU Server의 Image로 Custom Image를 생성한 경우 다른 Account로 공유가 되지 않으며 해당 기능은 제공 예정이니 참고하세요.

다른 Account로부터 공유받기

Image를 다른 Account로부터 공유받으려면 다음 절차를 따르세요.

  1. 공유 받을 Account에 접속하여 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
  3. Image 목록 페이지에서 이미지 공유 받기 버튼을 클릭하세요. 이미지 공유 받기 팝업창으로 이동합니다.
  4. 이미지 공유 받기 팝업창에서 공유 받고자 하는 Image의 자원 ID를 입력하고, 확인 버튼을 클릭하세요.
  5. 이미지 공유 받기가 완료되면 Image 목록에서 공유받은 Image를 확인할 수 있습니다.

Image 삭제하기

사용하지 않는 Image를 삭제할 수 있습니다. 단, Image를 삭제하면 복구할 수 없으므로 Image 삭제 시에는 발생하는 영향을 충분히 고려한 후 삭제 작업을 진행해야 합니다.

주의
서비스 삭제 후에는 데이터를 복구할 수 없으므로 주의해주세요.

Image를 삭제하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Image 메뉴를 클릭하세요. Image 목록 페이지로 이동합니다.
  3. Image 목록 페이지에서 삭제할 자원을 선택하고, 삭제 버튼을 클릭하세요.
    • Image 목록 페이지에서 다수의 Image 체크 박스를 선택하고, 자원 목록 상단의 삭제 버튼을 클릭하세요.
  4. 삭제가 완료되면 Image 목록 페이지에서 자원이 삭제되었는지 확인하세요.

2.2 - Keypair 관리하기

사용자는 Samsung Cloud Platform Console을 통해 GPU Server 서비스 내 Keypair의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.

Keypair 생성하기

Samsung Cloud Platform Console에서 GPU Server 서비스를 사용하면서 Keypair 서비스를 생성하여 사용할 수 있습니다.

Keypair 생성하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
  3. Keypair 목록 페이지에서 Keypair 생성 버튼을 클릭하세요. Keypair 생성 페이지로 이동합니다.
    • 서비스 정보 입력 영역에서 필요한 정보를 입력하세요.
      구분
      필수 여부
      상세 설명
      Keypair명필수생성할 Keypair의 이름
      • 영문, 숫자, 공백과 특수문자(-, _)를 사용하여 255자 이내로 입력
      Keypair 유형필수ssh
      표. Keypair 서비스 정보 입력 항목
    • 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
      구분
      필수 여부
      상세 설명
      태그선택태그 추가
      • 자원 당 최대 50개까지 추가 가능
      • 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
      표. Keypair 추가 정보 입력 항목
      주의
      • 생성 완료 후 최초 1회에 한해서 Key를 다운로드할 수 있습니다. 재발급이 불가능하므로, 다운로드 되었는지 확인하세요.
      • 다운로드 받은 Private Key는 안전한 곳에 저장하세요.
  4. 입력 정보를 확인하고, 완료 버튼을 클릭하세요.
    • 생성이 완료되면, Keypair 목록 페이지에서 생성한 자원을 확인하세요.

Keypair 상세 정보 확인하기

Keypair 서비스는 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다. Keypair 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.

Keypair 상세 정보를 확인하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
  3. Keypair 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Keypair 상세 페이지로 이동합니다.
    • Keypair 상세 페이지에는 상태 정보 및 부가 기능 정보가 표시되며, 상세 정보, 태그, 작업 이력 탭으로 구성됩니다.

상세 정보

Keypair 목록 페이지에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.

구분상세 설명
서비스서비스명
자원 유형자원 유형
SRNSamsung Cloud Platform에서의 고유 자원 ID
  • Keypair 에서는 Keypair SRN을 의미
자원명Keypair 이름
자원 IDKeypair의 고유 자원 ID
생성자Keypair를 생성한 사용자
생성 일시Keypair를 생성한 일시
수정자Keypair 정보를 수정한 사용자
수정 일시Keypair정보를 수정한 일시
Keypair명Keypair 이름
FingerprintKey를 식별하기 위한 고유한 값
사용자 IDKeypair 생성한 사용자 ID
공개 키공개 키 정보
표. Keypair 상세 정보 탭 항목

태그

Keypair 목록 페이지에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.

구분상세 설명
태그 목록태그 목록
  • 태그의 Key, Value 정보 확인 가능
  • 태그는 자원 당 최대 50개까지 추가 가능
  • 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택
표. Keypair 태그 탭 항목

작업 이력

Keypair 목록 페이지에서 선택한 자원의 작업 이력을 확인할 수 있습니다.

구분상세 설명
작업 이력 목록자원 변경 이력
  • 작업 일시, 자원 ID, 자원명, 작업 내역, 이벤트 토픽, 작업 결과, 작업자 정보 확인
표. Keypair 작업 이력 탭 상세 정보 항목

Keypair 자원 관리하기

Keypair의 제어 및 관리 기능을 설명합니다.

공개 키 가져오기

공개 키 가져오기를 하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.

  2. Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.

  3. Keypair 목록 페이지에서 상단의 더보기 버튼을 클릭하여 공개 키 가져오기 버튼을 클릭하세요. 공개 키 가져오기 페이지로 이동합니다.

    • 필수 정보 입력 영역에 필요한 정보를 입력 또는 선택하세요.
      구분
      필수 여부
      상세 설명
      Keypair명필수생성할 Keypair 이름
      Keypair 유형필수ssh
      공개 키필수공개 키 입력
      • 파일 불러오기: 파일 첨부 버튼을 선택하여 공개 키 파일을 첨부
        • 첨부 파일은 다음의 확장자 파일(.pem)만 가능
      • 공개 키 입력: 복사한 공개 키 값을 붙여넣기
        • Keypair 상세 페이지에서 공개 키 값을 복사 가능
      표. 공개 키 가져오기 필수 입력 항목
  4. 입력한 정보를 확인하고, 완료 버튼을 클릭하세요.

    • 생성이 완료되면, Keypair 목록 페이지에서 생성한 자원을 확인하세요.

Keypair 삭제하기

사용하지 않는 Keypair를 삭제할 수 있습니다. 단, Keypair를 삭제하면 복구할 수 없으므로 사전에 충분한 영향도 검토 후 삭제를 진행하시기 바랍니다.

주의
서비스 삭제 후에는 데이터를 복구할 수 없으므로 주의해주세요.

Keypair를 삭제하려면 다음 절차를 따르세요.

  1. 모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
  2. Service Home 페이지에서 Keypair 메뉴를 클릭하세요. Keypair 목록 페이지로 이동합니다.
  3. Keypair 목록 페이지에서 삭제할 자원을 선택하고, 삭제 버튼을 클릭하세요.
  • Keypair 목록 페이지에서 다수의 Keypair 체크 박스를 선택하고, 자원 목록 상단의 삭제 버튼을 클릭하세요.
  1. 삭제가 완료되면 Keypair 목록 페이지에서 자원이 삭제되었는지 확인하세요.

2.3 - GPU Server에서 Multi-instance GPU 사용하기

GPU Server를 생성한 후 GPU Server의 VM(Guest OS)에서 MIG (Multi-instance GPU) 기능을 활성화하고 Instance를 생성해 사용할 수 있습니다.

Multi-instance GPU (NVIDIA A100) 살펴보기

NVIDIA A100은 NVIDIA 암페어(Ampere) 아키텍처를 기반으로 하는 Multi-instance GPU(MIG)로, 최대 7개의 독립된 GPU Instance로 안전하게 분할되어 CUDA (Compute Unified Device Architecture, 연산통합 장치설계) Application을 운용할 수 있습니다. NVIDIA A100은 고대역폭 메모리(HBM: high bandwidth memory)와 캐시를 활용하는 동시에 GPU 사용에 최적화된 방식으로 컴퓨팅 자원을 할당함으로써 다수의 사용자들에게 독립적인 GPU 자원을 제공할 수 있습니다. 사용자는 각 워크로드의 병렬 실행을 통해 GPU 최대 연산 용량에 도달하지 않은 워크로드를 활용할 수 있으므로, GPU 사용율을 극대화할 수 있습니다.

Multi-instance GPU 구성도
그림. Multi-instance GPU 구성도

Multi-instance GPU 기능 사용하기

Multi-instance GPU 기능을 사용하려면 Samsung Cloud Platform에서 GPU Server 서비스를 생성한 후 A100 GPU가 할당된 VM Instance(GuestOS)를 생성해야 합니다. GPU Server 생성 완료 후, 아래의 MIG 적용 순서와 MIG 해제 순서를 따라 적용해볼 수 있습니다.

Multi-instance GPU 생성
그림. Multi-instance GPU 생성

MIG 적용 순서
MIG 활성화 → GPU Instance 생성 → Compute Instance 생성 → MIG 사용
MIG 해제 순서
Compute Instance 삭제 → GPU Instance 삭제 → MIG 기능 해제(비활성화)

참고
  • MIG 기능을 사용하기 위한 시스템 요구사항은 다음과 같습니다(NVIDIA - Supported GPUs 참고).
    • CUDA toolkit 11, NVIDIA driver 450.80.02 또는 이후 버전
    • CUDA toolkit 11을 지원하는 리눅스 배포 운영체제
  • 컨테이너 또는 쿠버네티스 서비스 운용 시 MIG 기능을 사용하기 위한 요구사항은 다음과 같습니다.
    • NVIDIA Container Toolkit(nvidia-docker2) v 2.5.0 또는 이후 버전
    • NVIDIA K8s Device Plugin v 0.7.0 또는 이후 버전
    • NVIDIA gpu-feature-discovery v 0.2.0 또는 이후 버전

MIG 적용 및 사용하기

MIG를 활성화하고 Instance를 생성해 작업을 할당하려면 다음 절차를 따르세요.

MIG 적용 순서
MIG 활성화 → GPU Instance 생성 → Compute Instance 생성 → MIG 사용

MIG 활성화

  1. MIG를 적용하기 전 VM Instance(GuestOS)에서 GPU 상태를 확인하세요.

    • MIG modeDisabled 상태인지 확인하세요.
      배경색 변경
      $ nvidia-smi
      Mon Sep 27 08:37:08 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
      | N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
      |                               |                      |             Disabled |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      $ nvidia-smi
      Mon Sep 27 08:37:08 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
      | N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
      |                               |                      |             Disabled |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      코드블록. nvidia-smi 명령어 - GPU 비활성화 상태 확인 (1)
      배경색 변경
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
      코드블록. nvidia-smi 명령어 - GPU 비활성화 상태 확인 (2)
  2. VM Instance(GuestOS)에서 GPU별로 MIG를 활성화(Enable)하고 VM Instance를 재부팅하세요.

    배경색 변경
    $ nvidia-smi –I 0 –mig 1
    Enabled MIG mode for GPU 00000000:05:00.0
    All done.
    
    # reboot
    $ nvidia-smi –I 0 –mig 1
    Enabled MIG mode for GPU 00000000:05:00.0
    All done.
    
    # reboot
    코드블록. nvidia-smi 명령어 - MIG 활성화

참고

GPU 모니터링 에이전트가 다음과 같은 경고 메시지를 표시하는 경우, MIG를 활성화하기 전에 nvsm 및 dcgm 서비스를 중단하세요.

Warning: MIG mode is in pending enable state for GPU 00000000:05:00.0: In use by another client. 00000000:05:00.0 is currently being used by one or more other processes (e.g. CUDA application or a monitoring application such as another instance of nvidia-smi).

# systemctl stop nvsm
# systemctl stop dcgm
  • MIG 작업을 마친 후 nvsm 및 dcgm 서비스를 다시 시작하세요.
  1. VM Instance(GuestOS)에서 MIG를 적용한 후 GPU 상태를 확인하세요.
    • MIG modeEnabled 상태인지 확인하세요.
      배경색 변경
      $ nvidia-smi
      Mon Sep 27 09:44:33 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
      | N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
      |                               |                      |              Enabled |
      +-------------------------------+----------------------+----------------------+
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      | No MIG devices found                                                        |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      $ nvidia-smi
      Mon Sep 27 09:44:33 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
      | N/A   32C   P0    59W / 400W  |      0MiB / 81251MiB |      0%      Default |
      |                               |                      |              Enabled |
      +-------------------------------+----------------------+----------------------+
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      | No MIG devices found                                                        |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      코드블록. nvidia-smi 명령어 - GPU 활성화 상태 확인 (1)
      배경색 변경
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
      코드블록. nvidia-smi 명령어 - GPU 활성화 상태 확인 (2)

GPU Instance 생성

MIG 활성화하고 상태를 확인하였다면, GPU Instance를 생성할 수 있습니다.

  1. 생성할 수 있는 MIG GPU Instance 프로파일 목록을 확인하세요.

    배경색 변경
    $ nvidia-smi mig -i [GPU ID] -lgip
    $ nvidia-smi mig -i [GPU ID] -lgip
    코드블록. nvidia-smi 명령어 - MIG GPU Instance 프로파일 목록 확인

    배경색 변경
    $ nvidia-smi mig -i 0 -lgip
    +-----------------------------------------------------------------------------+
    | GPU instance profiles:                                                      |
    | GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
    |                              Free/Total   GiB              CE    JPEG  OFA  |
    |=============================================================================|
    |   0 MIG 1g.10gb        19    7/7         9.50       No     14     0     0   |
    |                                                             1     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 1g.10gb+me     20    1/1         9.50       No     14     0     0   |
    |                                                             1     1     1   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 2g.20gb        14    3/3         19.50      No     28     1     0   |
    |                                                             2     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 3g.40gb         9    2/2         39.50      No     42     2     0   |
    |                                                             3     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 4g.40gb         5    1/1         39.50      No     56     2     0   |
    |                                                             4     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 7g.80gb         0    1/1         79.25      No     98     0     0   |
    |                                                             7     1     1   |
    +-----------------------------------------------------------------------------+
    $ nvidia-smi mig -i 0 -lgip
    +-----------------------------------------------------------------------------+
    | GPU instance profiles:                                                      |
    | GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
    |                              Free/Total   GiB              CE    JPEG  OFA  |
    |=============================================================================|
    |   0 MIG 1g.10gb        19    7/7         9.50       No     14     0     0   |
    |                                                             1     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 1g.10gb+me     20    1/1         9.50       No     14     0     0   |
    |                                                             1     1     1   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 2g.20gb        14    3/3         19.50      No     28     1     0   |
    |                                                             2     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 3g.40gb         9    2/2         39.50      No     42     2     0   |
    |                                                             3     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 4g.40gb         5    1/1         39.50      No     56     2     0   |
    |                                                             4     0     0   |
    +-----------------------------------------------------------------------------+
    |   0 MIG 7g.80gb         0    1/1         79.25      No     98     0     0   |
    |                                                             7     1     1   |
    +-----------------------------------------------------------------------------+
    코드블록. MIG GPU Instance 프로파일 목록
참고
A100 GPU Instance 프로파일은 NVIDIA A100 MIG Profile의 예시를 참고하세요.
MIG Device Naming
그림. MIG Device Naming
Profile NameFraction of MemoryFraction of SMsHardware UnitsL2 Cache SizeNumber of Instances Available
MIG 1g.10gb1/81/70 NVDECs /0 JPEG /0 OFA1/87
MIG 1g.10gb+me1/81/71 NVDEC /1 JPEG /1 OFA1/81 (A single 1g profile can include media extensions)
MIG 2g.20gb2/82/71 NVDECs /0 JPEG /0 OFA2/83
MIG 3g.40gb4/83/72 NVDECs /0 JPEG /0 OFA4/82
MIG 4g.40gb4/84/72 NVDECs /0 JPEG /0 OFA4/81
MIG 7g.80gbFull7/75 NVDECs /1 JPEG /1 OFAFull1
표. NVIDIA A100 MIG Profile
참고
MIG 1g.10gb+me 프로파일은 R470 드라이버와 함께 시작하는 경우에만 사용할 수 있습니다.
  1. MIG GPU Instance를 생성한 후 확인하세요.
    • GPU Instance 생성

      배경색 변경
      $ nvidia-smi mig -i [GPU ID] -cgi [Profile ID]
      $ nvidia-smi mig -i [GPU ID] -cgi [Profile ID]
      코드블록. nvidia-smi 명령어 - GPU Instance 생성
      배경색 변경
      $ nvidia-smi mig -i 0 -cgi 0
      Successfully created GPU instance ID 0 on GPU 0 using profile MIG 7g.80gb (ID 0)
      $ nvidia-smi mig -i 0 -cgi 0
      Successfully created GPU instance ID 0 on GPU 0 using profile MIG 7g.80gb (ID 0)
      코드블록. nvidia-smi 명령어 - GPU Instance 생성 예시

    • GPU Instance 확인

      배경색 변경
      $ nvidia-smi mig -i [GPU ID] -lgi
      $ nvidia-smi mig -i [GPU ID] -lgi
      코드블록. nvidia-smi 명령어 - GPU Instance 확인
      배경색 변경
      $ nvidia-smi mig -i 0 -lgi
      +--------------------------------------------------------+
      | GPU instances:                                         |
      | GPU   Name               Profile  Instance  Placement  |
      |                            ID       ID      Start:Size |
      |========================================================|
      |   0  MIG 7g.80gb            0        0         0:8     |
      +--------------------------------------------------------+
      $ nvidia-smi mig -i 0 -lgi
      +--------------------------------------------------------+
      | GPU instances:                                         |
      | GPU   Name               Profile  Instance  Placement  |
      |                            ID       ID      Start:Size |
      |========================================================|
      |   0  MIG 7g.80gb            0        0         0:8     |
      +--------------------------------------------------------+
      코드블록. nvidia-smi 명령어 - GPU Instance 확인 예시

Compute Instance 생성

GPU Instance를 생성하였다면, Compute Instance를 생성할 수 있습니다.

  1. 생성할 수 있는 MIG Compute Instance 프로파일을 확인하세요.

    배경색 변경
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
    코드블록. nvidia-smi 명령어 - MIG Compute Instance 프로파일 확인
    배경색 변경
    $ nvidia-smi mig -i 0 -gi 0 -lcip
    +---------------------------------------------------------------------------------+
    | Compute instance profiles:                                                      |
    | GPU     GPU     Name            Profile  Instances   Exclusive      Shared      |
    | GPU   Instance                     ID    Free/Total     SM       DEC  ENC  OFA  |
    |         ID                                                       CE   JPEG      |
    |=================================================================================|
    |   0      0      MIG 1c.7g.80gb     0      7/7           14       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 2c.7g.80gb     1      3/3           28       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 3c.7g.80gb     2      2/2           42       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 4c.7g.80gb     3      1/1           56       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 7g.80gb        4*     1/1           98       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    $ nvidia-smi mig -i 0 -gi 0 -lcip
    +---------------------------------------------------------------------------------+
    | Compute instance profiles:                                                      |
    | GPU     GPU     Name            Profile  Instances   Exclusive      Shared      |
    | GPU   Instance                     ID    Free/Total     SM       DEC  ENC  OFA  |
    |         ID                                                       CE   JPEG      |
    |=================================================================================|
    |   0      0      MIG 1c.7g.80gb     0      7/7           14       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 2c.7g.80gb     1      3/3           28       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 3c.7g.80gb     2      2/2           42       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 4c.7g.80gb     3      1/1           56       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    |   0      0      MIG 7g.80gb        4*     1/1           98       5    0    1    |
    |                                                                  7    1         |
    +---------------------------------------------------------------------------------+
    코드블록. MIG Compute Instance 프로파일 목록 예시

  2. MIG Compute Instance를 생성하고 확인하세요.

    • MIG Compute Instance 생성
      배경색 변경
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -cci [Compute Profile ID]
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -cci [Compute Profile ID]
      코드블록. nvidia-smi 명령어 - MIG Compute Instance 생성
      배경색 변경
      $ nvidia-smi mig -i 0 -gi 0 -cci 4
      Successfully created compute instance ID 0 on GPU instance ID 0 using profile MIG 7g.80gb(ID 4)
      $ nvidia-smi mig -i 0 -gi 0 -cci 4
      Successfully created compute instance ID 0 on GPU instance ID 0 using profile MIG 7g.80gb(ID 4)
      코드블록. nvidia-smi 명령어 - MIG Compute Instance 생성 예시
    • MIG Compute Instance 확인
      배경색 변경
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –lci
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –lci
      코드블록. nvidia-smi 명령어 - MIG Compute Instance 확인
      배경색 변경
      $ nvidia-smi mig -i 0 -gi 0 –lci
      +-----------------------------------------------------------------+
      | Compute instance profiles:                                      |
      | GPU     GPU     Name            Profile  Instances   Placement  |
      | GPU   Instance                     ID      ID        Start:Size |
      |         ID                                                      |
      |=================================================================|
      |   0      0      MIG 7g.80gb         4       0            0:7    |
      +-----------------------------------------------------------------+
      $ nvidia-smi mig -i 0 -gi 0 –lci
      +-----------------------------------------------------------------+
      | Compute instance profiles:                                      |
      | GPU     GPU     Name            Profile  Instances   Placement  |
      | GPU   Instance                     ID      ID        Start:Size |
      |         ID                                                      |
      |=================================================================|
      |   0      0      MIG 7g.80gb         4       0            0:7    |
      +-----------------------------------------------------------------+
      코드블록. MIG Compute Instance 확인 예시
      배경색 변경
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
        MIG 7g.80gb     Device  0: (UUID: MIG-53e20040-758b-5ecb-948e-c626d03a9a32)
      $ nvidia-smi –L
      GPU 0: NVIDIA A100-SXM-80GB (UUID: GPU-c956838f-494a-92b2-6818-56eb28fe25e0)
        MIG 7g.80gb     Device  0: (UUID: MIG-53e20040-758b-5ecb-948e-c626d03a9a32)
      코드블록. nvidia-smi 명령어 - GPU 상태 확인 (1)
      배경색 변경
      $ nvidia-smi
      Mon Sep 27 09:52:17 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
      | N/A   32C   P0    49W / 400W  |      0MiB / 81251MiB |     N/A      Default |
      |                               |                      |              Enabled |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      |   0    0   0    0 |     0MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
      |                   |     1MiB / 13107... |           |                       |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      $ nvidia-smi
      Mon Sep 27 09:52:17 2021
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------|
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                   On |
      | N/A   32C   P0    49W / 400W  |      0MiB / 81251MiB |     N/A      Default |
      |                               |                      |              Enabled |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      |   0    0   0    0 |     0MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
      |                   |     1MiB / 13107... |           |                       |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      | No running processes found                                                  |
      +-----------------------------------------------------------------------------+
      코드블록. nvidia-smi 명령어 - GPU 상태 확인 (2)

MIG 사용

  1. MIG Instance를 사용해 Job을 수행하세요.
    • 작업 수행 예시
      배경색 변경
      $ docker run --gpus '"device=[GPU ID]:[MIG ID]"' -rm nvcr.io/nvidia/cuda nvidia-smi
      $ docker run --gpus '"device=[GPU ID]:[MIG ID]"' -rm nvcr.io/nvidia/cuda nvidia-smi
      코드블록. 작업 수행 예시
    • 아래와 같이 작업을 수행한 예시를 확인해볼 수 있습니다.
      배경색 변경
      $ docker run --gpus '"device=0:0"' -rm -it --network=host --shm-size=1g --ipc=host -v /root/.ssh/:/root/.ssh
      
      ================
      == TensorFlow ==
      ================
      
      NVIDIA Release 21.08-tf1 (build 26012104)
      TensorFlow Version 1.15.5
      
      Container image Copyright (c) 2021, NVIDIA CORPORATION. All right reserved.
      ...
      
      # Python 프로세스 실행
      root@d622a93c9281:/workspace# python /workspace/nvidia-examples/cnn/resnet.py --num_iter 100 
      ...
      PY 3.8.10 (default, Jun 2 2021, 10:49:15)
      [GCC 9.4.0]
      TF 1.15.5
      ...
      $ docker run --gpus '"device=0:0"' -rm -it --network=host --shm-size=1g --ipc=host -v /root/.ssh/:/root/.ssh
      
      ================
      == TensorFlow ==
      ================
      
      NVIDIA Release 21.08-tf1 (build 26012104)
      TensorFlow Version 1.15.5
      
      Container image Copyright (c) 2021, NVIDIA CORPORATION. All right reserved.
      ...
      
      # Python 프로세스 실행
      root@d622a93c9281:/workspace# python /workspace/nvidia-examples/cnn/resnet.py --num_iter 100 
      ...
      PY 3.8.10 (default, Jun 2 2021, 10:49:15)
      [GCC 9.4.0]
      TF 1.15.5
      ...
      코드블록. 작업 수행 결과
  2. GPU 사용률을 확인하세요. (JOB 프로세스 생성)
    • Job이 구동될 때 MIG 디바이스에 프로세스가 할당되고 사용률이 증가하는 것을 확인할 수 있습니다.
      배경색 변경
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
      $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -lcip
      코드블록. nvidia-smi 명령어 - GPU 사용률 확인
    • 아래와 같이 GPU 사용률을 확인할 수 있습니다.
      배경색 변경
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      |   0    0   0    0 | 66562MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
      |                   |     5MiB / 13107... |           |                       |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |   0     0    0     17483      C   python                           66559MiB |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | MIG devices:                                                                |
      +-----------------------------------------------------------------------------+
      |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
      |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
      |                   |                     |        ECC|                       |
      |=============================================================================|
      |   0    0   0    0 | 66562MiB / 81251MiB | 98      0 |  7   0    5    1    1 |
      |                   |     5MiB / 13107... |           |                       |
      +-----------------------------------------------------------------------------+
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |   0     0    0     17483      C   python                           66559MiB |
      +-----------------------------------------------------------------------------+
      코드블록. GPU 사용률 확인 예시

MIG Instance 삭제 및 해제하기

MIG Instance를 삭제하고 MIG를 해제하려면 다음 절차를 따르세요.

MIG 해제 순서
Compute Instance 삭제 → GPU Instance 삭제 → MIG 기능 해제(비활성화)

Compute Instance 삭제

  • Compute Instance를 삭제하세요.
    배경색 변경
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dci
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -ci [Compute Instance] –dci
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dci
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] -ci [Compute Instance] –dci
    코드블록. nvidia-smi 명령어 - Compute Instance 삭제
    배경색 변경
    $ nvidia-smi mig -i 0 -gi 0 –lci
    +-----------------------------------------------------------------+
    | Compute instance profiles:                                      |
    | GPU     GPU     Name            Profile  Instances   Placement  |
    | GPU   Instance                     ID      ID        Start:Size |
    |         ID                                                      |
    |=================================================================|
    |   0      0      MIG 7g.80gb         4       0            0:7    |
    +-----------------------------------------------------------------+
    $ nvidia-smi mig -i 0 -gi 0 –lci
    +-----------------------------------------------------------------+
    | Compute instance profiles:                                      |
    | GPU     GPU     Name            Profile  Instances   Placement  |
    | GPU   Instance                     ID      ID        Start:Size |
    |         ID                                                      |
    |=================================================================|
    |   0      0      MIG 7g.80gb         4       0            0:7    |
    +-----------------------------------------------------------------+
    코드블록. MIG Compute Instance 확인 예시
    배경색 변경
    $ nvidia-smi mig -i 0 -gi 0 –dci
    Successfully destroyed compute instance ID  0 from GPU instance ID  0
    $ nvidia-smi mig -i 0 -gi 0 –dci
    Successfully destroyed compute instance ID  0 from GPU instance ID  0
    코드블록. Compute Instance 삭제 예시
    배경색 변경
    $ nvidia-smi mig -i 0 -gi 0 –lci
    No compute instances found: Not found
    $ nvidia-smi mig -i 0 -gi 0 –lci
    No compute instances found: Not found
    코드블록. Compute Instance 삭제 확인

GPU Instance 삭제

  • GPU Instance를 삭제하세요.
    배경색 변경
    $ nvidia-smi mig -i [GPU ID] –dgi
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dgi
    $ nvidia-smi mig -i [GPU ID] –dgi
    $ nvidia-smi mig -i [GPU ID] -gi [GPU Instance ID] –dgi
    코드블록. nvidia-smi 명령어 - GPU Instance 삭제
    배경색 변경
    $ nvidia-smi mig -i 0 -lgi
    +--------------------------------------------------------+
    | GPU instances:                                         |
    | GPU   Name               Profile  Instance  Placement  |
    |                            ID       ID      Start:Size |
    |========================================================|
    |   0  MIG 7g.80gb            0        0         0:8     |
    +--------------------------------------------------------+
    $ nvidia-smi mig -i 0 -lgi
    +--------------------------------------------------------+
    | GPU instances:                                         |
    | GPU   Name               Profile  Instance  Placement  |
    |                            ID       ID      Start:Size |
    |========================================================|
    |   0  MIG 7g.80gb            0        0         0:8     |
    +--------------------------------------------------------+
    코드블록. nvidia-smi 명령어 - GPU Instance 확인 예시
    배경색 변경
    $ nvidia-smi mig -i 0 -dgi
    Successfully destroyed GPU instance ID  0 from GPU  0
    $ nvidia-smi mig -i 0 -dgi
    Successfully destroyed GPU instance ID  0 from GPU  0
    코드블록. nvidia-smi 명령어 - GPU Instance 삭제 예시
    배경색 변경
    $ nvidia-smi mig -i 0 -lgi
    No GPU instances found: Not found
    $ nvidia-smi mig -i 0 -lgi
    No GPU instances found: Not found
    코드블록. nvidia-smi 명령어 - GPU Instance 삭제 예시

MIG 기능 해제(비활성화)

  • MIG를 비활성화(Disable)한 후 재부팅하세요.
    배경색 변경
    $ nvidia-smi -mig 0
    Disabled MIG Mode for GPU 00000000:05:00.0
    
    All done.
    $ nvidia-smi -mig 0
    Disabled MIG Mode for GPU 00000000:05:00.0
    
    All done.
    코드블록. nvidia-smi 명령어 - MIG 비활성화
    배경색 변경
    $ nvidia-smi
    Mon Sep 30 05:18:28 2021
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
    |-------------------------------+----------------------+----------------------|
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
    | N/A   33C   P0    60W / 400W  |      0MiB / 81251MiB |      0%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    +-----------------------------------------------------------------------------+
    | MIG devices:                                                                |
    +-----------------------------------------------------------------------------+
    |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
    |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
    |                   |                     |        ECC|                       |
    |=============================================================================|
    | No MIG devices found                                                        |
    +-----------------------------------------------------------------------------+
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    | No running processes found                                                  |
    +-----------------------------------------------------------------------------+
    $ nvidia-smi
    Mon Sep 30 05:18:28 2021
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
    |-------------------------------+----------------------+----------------------|
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  NVDIA A100-SXM...  Off   | 00000000:05:00.0 Off |                    0 |
    | N/A   33C   P0    60W / 400W  |      0MiB / 81251MiB |      0%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    +-----------------------------------------------------------------------------+
    | MIG devices:                                                                |
    +-----------------------------------------------------------------------------+
    |  GPU  GI  CI  MIG |        Memory-Usage |        Vol|        Shared         |
    |       ID  ID  Dev |          BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
    |                   |                     |        ECC|                       |
    |=============================================================================|
    | No MIG devices found                                                        |
    +-----------------------------------------------------------------------------+
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI       PID   Type   Process name                   GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    | No running processes found                                                  |
    +-----------------------------------------------------------------------------+
    코드블록. nvidia-smi 명령어 - GPU 상태 확인

2.4 - GPU Server에서 NVSwitch 사용하기

GPU Server를 생성한 후 GPU Server의 VM(Guest OS)에서 NVSwitch 기능을 활성화하고 GPU 간 P2P(GPU to GPU)통신을 빠르게 사용할 수 있습니다.

Multi GPU를 위한 NVIDIA NVSwitch 살펴보기

NVIDIA A100 GPU서버는 NVIDIA 암페어(Ampere) 아키텍처를 기반으로 하는 멀티 GPU로, 베이스보드에는 8개의 Ampere 80 GB GPU가 장착되어 있습니다. 베이스보드에 장착된 GPU들은 NVLink 포트를 통해 6개의 NVSwitch와 연결됩니다. 베이스보드에 있는 GPU 간 통신은 600 GBps 대역폭 전체를 활용해 이루어집니다. 이런 이유로 A100 GPU 서버에 장착된 8개의 GPU가 마치 하나처럼 연결되어 동작 할 수 있으므로, GPU to GPU 사용률을 극대화 할 수 있습니다.

  • NVLink(25 GBps) 12개 Lane 8 GPU 구성도
NVLink(25 GBps) 12개 Lane 8 GPU 구성도
그림. NVLink(25 GBps) 12개 Lane 8 GPU 구성도
  • NVSwitch(600 GBps) 6개 8 GPU 구성도
NVSwitch(600 GBps) 6개 8 GPU 구성도
그림. NVSwitch(600 GBps) 6개 8 GPU 구성도

GPU NVSwitch 생성하기

GPU NVSwitch 기능을 사용하려면 Samsung Cloud Platform에서 GPU Server 서비스를 생성한 후, A100 GPU 8개가 할당된 VM Instance(GuestOS)를 생성하고 Fabricmanager를 활성화합니다.

주의
  • NVSwitch는 단일 GPU Server에 8개의 A100 GPU를 할당한 상품(g1v128a8 (vCPU 128 | Memory 1920G | A100(80GB)*8))의 경우에만 Fabricmanager를 활성화하여 사용할 수 있습니다.
  • 현재 Windows OS로 생성된 GPU Server에서는 NVSwitch (Fabricmanager)를 지원하지 않습니다.

NVSwitch 설치 및 동작 확인하기(Fabricmanager 활성화)

NVSwitch를 구동하려면 GPU Instance에서 Fabricmanager를 설치하고 다음 절차를 따르세요.

  1. GPU 서버에 NVIDIA GPU Driver (470.52.02 Version)를 설치하세요.

    배경색 변경
    $ add-apt-repository ppa:graphics-drivers/ppa
    $ apt-get update
    $ apt-get install nvidia-driver-470-server
    $ add-apt-repository ppa:graphics-drivers/ppa
    $ apt-get update
    $ apt-get install nvidia-driver-470-server
    코드블록. NVIDIA GPU Driver 설치

  2. GPU 서버에 NVIDIA Fabric Manager (470 Version)를 설치하고 구동하세요(For NVSwitch).

    배경색 변경
    $ apt-get install cuda-drivers-fabricmanager-470
    $ systemctl enable nvidia-fabricmanager
    $ systemctl start nvidia-fabricmanager
    $ apt-get install cuda-drivers-fabricmanager-470
    $ systemctl enable nvidia-fabricmanager
    $ systemctl start nvidia-fabricmanager
    코드블록. NVIDIA Fabric Manager 설치 및 구동

  3. GPU 서버에 NVIDIA Fabric Manager 구동 상태를 확인하세요.

    • 정상 구동 시 active (running) 표시
      배경색 변경
      $ systemctl status nvidia-fabricmanager
      $ systemctl status nvidia-fabricmanager
      코드블록. NVIDIA Fabric Manager 구동 상태 확인
NVSwitch 설치 - Fabric Manager 구동 상태 확인
그림. NVSwitch 설치 - Fabric Manager 구동 상태 확인
  1. GPU 서버에 NVSwitch 구동 상태를 확인하세요.
    • 정상 구동 시 NV12 표시
      배경색 변경
      $ nvidia-smi topo --matrix
      $ nvidia-smi topo --matrix
      코드블록. NVSwitch 구동 상태 확인
NVSwitch 설치 - NVSwitch 구동 상태 확인
그림. NVSwitch 설치 - NVSwitch 구동 상태 확인

2.5 - ServiceWatch Agent 설치하기

사용자는 GPU Server에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.

참고
ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 각 서비스로부터 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.

ServiceWatch Agent

GPU Server에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.

구분상세 설명
Prometheus Exporter특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
  • 서버의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음.
    • GPU Server에서 OS 지표 수집을 위해서 Virtual Server와 마찬가지로 Node Exporter를 사용할 수 있으며 자세한 내용은 Virtual Server > ServiceWatch Agent 참고
Open Telemetry Collector분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
  • ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함.
표. Prometheus Exporter와 Open Telemetry Collector 설명
주의

GPU Server에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.

  • Kubernetes Engine이 구성되어 있는 GPU Server에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.

GPU 지표를 위한 Prometheus Exporter 설치 (for Ubuntu)

GPU Server의 지표를 수집하기 위한 Prometheus Exporter를 아래의 순서에 따라 설치합니다.

NVDIA Driver 설치 확인

  • 설치되어 있는 NVDIA Driver를 확인합니다.
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    535.183.06
    driver_version
    535.183.06
    ...
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치

참고
NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.
안내
아래 설치 명령어는 인터넷이 사용 가능한 환경에서 가능합니다. 만약 인터넷이 안되는 환경이라면, https://developer.download.nvidia.com/compute/cuda/repos/ 에서 libnvdia-nscq를 다운로드받아 업로드해야 합니다.
  1. cuda-keyring를 설치합니다.

    배경색 변경
    wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb
    wget https://developer.download.nvidia.com/compute/cuda/repos/<distro>/<arch>/cuda-keyring_1.1-1_all.deb
    코드블록. NSCQ library 다운로드 명령어
    배경색 변경
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    apt update
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    apt update
    코드블록. NSCQ library 설치 명령어
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    
    535.183.06
    driver_version
    535.183.06
    ...
    
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

  2. libnvidia-nscq를 설치합니다.

    배경색 변경
    apt-cache policy libnvidia-nscq-535
    apt-cache policy libnvidia-nscq-535
    코드블록. NSCQ library apt-cache 명령어
    배경색 변경
    libnvidia-nscq-535:
      Installed: (none)
      Candidate: 535.247.01-1
      Version table:
         535.247.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.216.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.01-1 600
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.54.03-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvidia-nscq-535:
      Installed: (none)
      Candidate: 535.247.01-1
      Version table:
         535.247.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.216.01-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.06-1 600  # Driver 와 일치 하는 버전으로 설치
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.183.01-1 600
    ...
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         535.54.03-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NSCQ library apt-cache 명령어 결과
    배경색 변경
    apt install libnvidia-nscq-535=535.183.06-1
    apt install libnvidia-nscq-535=535.183.06-1
    코드블록. NSCQ library 설치 명령어

안내

NVDIA Driver의 버전과 같은 버전으로 설치해야 합니다.

  • 예시) driver version: 535.183.06, libnvdia-nscq version: 535.183.06-1

NVSwitch Device Monitoring API(NVSDM) Library 설치

참고
Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.
  • NVSDM library 설치합니다.
    배경색 변경
    apt-cache policy libnvsdm
    apt-cache policy libnvsdm
    코드블록. NVSDM library apt-cache 명령어
    배경색 변경
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NVSDM library apt-cache 명령어 결과
    배경색 변경
    apt install libnvsdm=580.105.08-1
    apt install libnvsdm=580.105.08-1
    코드블록. NVSDM library 설치

NVIDIA DCGM 설치 (for Ubuntu)

아래의 순서에 따라 DCGM Exporter를 설치합니다.

  1. DCGM(datacenter-gpu-manager) 설치
  2. datacenter-gpu-manager-exporter 설치
  3. DCGM 서비스 활성화 및 시작

DCGM(datacenter-gpu-manager) 설치

NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.

  1. CUDA 버전을 확인합니다.
    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어
  2. datacenter-gpu-manager-cuda를 설치합니다.
    배경색 변경
    apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    apt install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    코드블록. datacenter-gpu-manager-cuda 설치 명령어

datacenter-gpu-manager-exporter 설치

NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.

  1. datacenter-gpu-manager-exporter를 설치합니다.
    배경색 변경
    apt install datacenter-gpu-manager-exporter
    apt install datacenter-gpu-manager-exporter
    코드블록. datacenter-gpu-manager-exporter 설치 명령어
  2. DCGM Exporter 설정 파일을 확인합니다.
    배경색 변경
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 명령어
    배경색 변경
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시
  3. DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.
    배경색 변경
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    코드블록. datacenter-gpu-manager-exporter metric 설정 예시
참고
GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집은 제거하거나 비활성화해야 과도한 요금이 부과되지 않습니다.

DCGM 서비스 활성화 및 시작

  1. nvdia-dcgm 서비스 활성화 및 시작작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm
    systemctl enable --now nvidia-dcgm
    코드블록. nvdia-dcgm 서비스 활성화 및 시작작 명령어

  2. nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm-exporter
    systemctl enable --now nvidia-dcgm-exporter
    코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내
DCGM Exporter 설정을 완료하였다면, ServiceWatch에서 제공하는 Open Telemetry Collector를 설치하여 SerivceWatch Agent 설정을 완료하셔야 합니다.
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.

GPU 지표를 위한 Prometheus Exporter 설치 (for RHEL)

ServiceWatch Agent를 GPU Server의 지표를 수집하기 위해 아래의 순서에 따라 설치합니다.

NVDIA Driver 설치 확인 (for RHEL)

  1. 설치되어 있는 NVDIA Driver를 확인합니다.
    배경색 변경
    nvidia-smi --query-gpu driver_version --format csv
    nvidia-smi --query-gpu driver_version --format csv
    코드블록. NVDIA Driver 버전 확인 명령어
    배경색 변경
    driver_version
    535.183.06
    ...
    
    535.183.06
    driver_version
    535.183.06
    ...
    
    535.183.06
    코드블록. NVDIA Driver 버전 확인 예시

NVSwitch Configuration and Query (NSCQ) Library 설치 (for RHEL)

참고

NVSwitch Configuration and Query (NSCQ) Library는 Hopper or earlier Generation GPUs 인 경우에 필요합니다.

  • RHEL의 경우 libnvdia-nscq가 설치되어 있는지 확인 후 설치합니다.
안내
아래 설치 명령어는 인터넷이 사용 가능한 환경에서 가능합니다. 만약 인터넷이 안되는 환경이라면, https://developer.download.nvidia.com/compute/cuda/repos/ 에서 libnvdia-nscq를 다운로드 받아 업로드해야 합니다.
  1. libnvdia-nscq 패키지 확인합니다.

    배경색 변경
    rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64
    rpm -qa | grep libnvidia-nscq libnvidia-nscq-535-535.183.06-1.x86_64
    코드블록. NSCQ library 패키지 확인

  2. DNF에 CUDA Repository를 추가합니다.

    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가

  3. NVDIA Driver 상태 초기화

    배경색 변경
    dnf module reset nvidia-driver
    dnf module reset nvidia-driver
    코드블록. NVIDIA Driver DNF 모듈의 상태 초기화
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Disabling module profiles:
    nvidia-driver/default
    nvidia-driver/fm
    Resetting modules:
    nvidia-driver
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:03:15 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Disabling module profiles:
    nvidia-driver/default
    nvidia-driver/fm
    Resetting modules:
    nvidia-driver
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    코드블록. NVIDIA Driver DNF 모듈의 상태 초기화 결과 예시

  4. NVDIA Driver 모듈을 활성화합니다.

    배경색 변경
    dnf module enable nvidia-driver:535-open
    dnf module enable nvidia-driver:535-open
    코드블록. NVDIA Driver 모듈 활성화
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Enabling module streams:
    nvidia-driver 535-open
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:04:22 ago on Wed 19 Nov 2025 01:23:48 AM EST.
    Dependencies resolved.
    =============================================
    Package Architecture Version Repository Size
    =============================================
    Enabling module streams:
    nvidia-driver 535-open
    
    Transaction Summary
    =============================================
    
    Is this ok [y/N]: y
    코드블록. NVDIA Driver 모듈 활성화 결과 예시

  5. libnvdia-nscq 모듈 목록을 확인합니다.

    배경색 변경
    dnf list libnvidia-nscq-535 --showduplicates
    dnf list libnvidia-nscq-535 --showduplicates
    코드블록. libnvdia-nscq 모듈 목록 확인

  6. libnvdia-nscq를 설치합니다.

    배경색 변경
    dnf install libnvidia-nscq-535-535.183.06-1
    dnf install libnvidia-nscq-535-535.183.06-1
    코드블록. libnvdia-nscq 설치 명령어

NVSwitch Device Monitoring API(NVSDM) Library 설치 (for RHEL)

참고
Blackwell 이후 GPU Architecture 에서는 NVSDM Library 설치가 필요합니다. NVDIA Driver 버전 560 이하는 NVSDM Library가 제공되지 않습니다.
  1. NVSDM library 모듈 목록을 확인합니다.

    배경색 변경
    dnf list libnvsdm --showduplicates
    dnf list libnvsdm --showduplicates
    코드블록. NVSDM library 모듈 목록 확인
    배경색 변경
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    libnvsdm:
      Installed: (none)
      Candidate: 580.105.08-1
      Version table:
         580.105.08-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.95.05-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.82.07-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
         580.65.06-1 600
            600 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages
    코드블록. NVSDM library 모듈 목록 확인 결과 예시

  2. libnvsdm 설치합니다.

    배경색 변경
    dnf install libnvsdm-580.105.08-1
    dnf install libnvsdm-580.105.08-1
    코드블록. NVSDM library 설치
    배경색 변경
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
    Dependencies resolved.
    =========================================================================
    Package Architecture Version Repository Size
    =========================================================================
    Installing:
    libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
    Installing dependencies:
    infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
    libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k
    
    Transaction Summary
    =========================================================================
    Install 3 Packages
    
    Total download size: 1.0 M
    Installed size: 3.2 M
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Last metadata expiration check: 0:08:18 ago on Wed 19 Nov 2025 01:05:28 AM EST.
    Dependencies resolved.
    =========================================================================
    Package Architecture Version Repository Size
    =========================================================================
    Installing:
    libnvsdm x86_64 580.105.08-1 cuda-rhel8-x86_64 675 k
    Installing dependencies:
    infiniband-diags x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 323 k
    libibumad x86_64 48.0-1.el8 rhel-8-for-x86_64-baseos-rpms 34 k
    
    Transaction Summary
    =========================================================================
    Install 3 Packages
    
    Total download size: 1.0 M
    Installed size: 3.2 M
    Is this ok [y/N]: y
    코드블록. NVSDM library 설치 명령어 결과 예시

NVIDIA DCGM 설치 (for RHEL)

아래의 순서에 따라 Node Exporter를 설치합니다.

  1. DCGM(datacenter-gpu-manager) 설치
  2. datacenter-gpu-manager-exporter 설치
  3. DCGM 서비스 활성화 및 시작

DCGM(datacenter-gpu-manager) 설치 (for RHEL)

NVIDIA의 데이터센터 GPU Manager(DCGM) 도구의 특정 버전을 가리키며, 이는 NVIDIA 데이터센터 GPU를 관리하고 모니터링하기 위한 패키지입니다. 특히, cuda12는 이 관리 도구가 CUDA 12 버전에 맞춰 설치됨을 나타내며, datacenter-gpu-manager-4는 DCGM의 4.x 버전을 의미합니다. 이 도구는 GPU 상태 모니터링, 진단, 경고 시스템 및 전력/클럭 관리를 포함한 다양한 기능을 제공합니다.

  1. DNF에 CUDA Repository를 추가합니다.
    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가
  2. CUDA 버전을 확인합니다.
    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어
  3. datacenter-gpu-manager-cuda 모듈 목록을 확인합니다.
    배경색 변경
    dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates
    dnf list datacenter-gpu-manager-4-cuda${CUDA_VERSION} --showduplicates
    코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:00:34 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.0.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.1.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.2-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.2.3-2    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.3.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.0-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.1-1    cuda-rhel8-x86_64
    datacenter-gpu-manager-4-cuda12.x86_64   1:4.4.2-1    cuda-rhel8-x86_64
    코드블록. datacenter-gpu-manager-cuda 모듈 목록 확인 결과 예시
  4. datacenter-gpu-manager-cuda 설치합니다.
    배경색 변경
    dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    dnf install datacenter-gpu-manager-4-cuda${CUDA_VERSION}
    코드블록. datacenter-gpu-manager-cuda 설치
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ===================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ===================================================================================================
    Installing:
     datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
    Installing dependencies:
     datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
    Installing weak dependencies:
     datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
     datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M
    
    Transaction Summary
    ====================================================================================================
    Install  4 Packages
    ...
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ===================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ===================================================================================================
    Installing:
     datacenter-gpu-manager-4-cuda12               x86_64         1:4.4.2-1   cuda-rhel8-x86_64   554 M
    Installing dependencies:
     datacenter-gpu-manager-4-core                 x86_64         1:4.4.2-1   cuda-rhel8-x86_64   9.9 M
    Installing weak dependencies:
     datacenter-gpu-manager-4-proprietary          x86_64         1:4.4.2-1   cuda-rhel8-x86_64   5.3 M
     datacenter-gpu-manager-4-proprietary-cuda12   x86_64         1:4.4.2-1   cuda-rhel8-x86_64   289 M
    
    Transaction Summary
    ====================================================================================================
    Install  4 Packages
    ...
    Is this ok [y/N]: y
    코드블록. datacenter-gpu-manager-cuda 설치 결과 예시

datacenter-gpu-manager-exporter 설치 (for RHEL)

NVIDIA Data Center GPU Manager(DCGM) 기반으로 GPU 사용량, 메모리 사용량, 온도, 전력 소비 등 다양한 GPU 메트릭을 수집하여 Prometheus와 같은 모니터링 시스템에서 사용할 수 있도록 노출하는 도구입니다.

  1. DNF에 CUDA Repository를 추가합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)

    배경색 변경
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
    코드블록. DNF Repository 추가

  2. CUDA 버전을 확인합니다. (해당 명령어를 이미 수행했다면, 다음 단계로 넘어갑니다.)

    배경색 변경
    nvidia-smi | grep CUDA
    nvidia-smi | grep CUDA
    코드블록. CUDA 버전 확인
    배경색 변경
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    | NVIDIA-SMI 535.183.06             Driver Version: 535.183.06     CUDA Version: 12.2     |
    코드블록. CUDA 버전 확인 결과 예시
    배경색 변경
    CUDA_VERSION=12
    CUDA_VERSION=12
    코드블록. CUDA 버전 설정 명령어

  3. datacenter-gpu-manager-exporter 모듈 목록을 확인합니다.

    배경색 변경
    dnf list datacenter-gpu-manager-exporter --showduplicates
    dnf list datacenter-gpu-manager-exporter --showduplicates
    코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:02:11 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Available Packages
    datacenter-gpu-manager-exporter.x86_64   4.0.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.1.3-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.0-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.1-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.5.2-1   cuda-rhel8-x86_64
    datacenter-gpu-manager-exporter.x86_64   4.6.0-1   cuda-rhel8-x86_64
    코드블록. datacenter-gpu-manager-exporter 모듈 목록 확인 결과 예시

  4. datacenter-gpu-manager-cuda 설치합니다. dcgm-exporter 4.5.X 는 glibc 2.34 이상을 요구하지만, RHEL9 에서 glibc 2.34는 제공하므로 버전을 4.1.3-1 로 지정하여 설치합니다.

    배경색 변경
    dnf install datacenter-gpu-manager-exporter-4.1.3-1
    dnf install datacenter-gpu-manager-exporter-4.1.3-1
    코드블록. datacenter-gpu-manager-cuda 설치
    배경색 변경
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ====================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ====================================================================================================
    Installing:
     datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M
    
    ...
    Is this ok [y/N]: y
    Updating Subscription Management repositories.
    Unable to read consumer identity
    
    This system is not registered with an entitlement server. You can use subscription-manager to register.
    
    Last metadata expiration check: 0:07:12 ago on Wed 19 Nov 2025 12:26:56 AM EST.
    Dependencies resolved.
    ====================================================================================================
     Package                                       Architecture   Version     Repository          Size
    ====================================================================================================
    Installing:
     datacenter-gpu-manager-exporter               x86_64         4.1.3-1     cuda-rhel8-x86_64   26 M
    
    ...
    Is this ok [y/N]: y
    코드블록. datacenter-gpu-manager-cuda 설치 결과 예시
    배경색 변경
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    cat /usr/lib/systemd/system/nvidia-dcgm-exporter.service | grep ExecStart
    코드블록. datacenter-gpu-manager-exporter 설정 파일
    배경색 변경
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    ExecStart=/usr/bin/dcgm-exporter -f /etc/dcgm-exporter/default-counters.csv
    코드블록. datacenter-gpu-manager-exporter 설정 파일 확인 결과 예시

  5. DCGM Exporter 설치 시 제공되는 설정을 확인하고 필요한 메트릭은 #을 제거하고, 불필요한 메트릭은 #을 추가합니다.

    배경색 변경
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    vi /etc/dcgm-exporter/default-counters.csv
    ## Example ##
    ...
    DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, gauge, Ratio of cycles the tensor (HMMA) pipe is active.
    DCGM_FI_PROF_DRAM_ACTIVE,        gauge, Ratio of cycles the device memory interface is active sending or receiving data.
    # DCGM_FI_PROF_PIPE_FP64_ACTIVE,   gauge, Ratio of cycles the fp64 pipes are active.
    # DCGM_FI_PROF_PIPE_FP32_ACTIVE,   gauge, Ratio of cycles the fp32 pipes are active.
    ...
    코드블록. datacenter-gpu-manager-exporter metric 설정 예시

참고
GPU DCGM Exporter로 수집 가능한 지표와 설정 방법은 DCGM Exporter 지표를 참고하세요.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집은 제거하거나 비활성화해야 과도한 요금이 부과되지 않습니다.

DCGM 서비스 활성화 및 시작 (for RHEL)

  1. nvdia-dcgm 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm
    systemctl enable --now nvidia-dcgm
    코드블록. nvdia-dcgm 서비스 활성화 및 시작 명령어

  2. nvdia-dcgm-exporter 서비스 활성화 및 시작합니다.

    배경색 변경
    systemctl enable --now nvidia-dcgm-exporter
    systemctl enable --now nvidia-dcgm-exporter
    코드블록. nvdia-dcgm-exporter 서비스 활성화 및 시작 명령어

안내
DCGM Exporter 설정을 완료하였다면, ServiceWatch에서 제공하는 Open Telemetry Collector를 설치하여 SerivceWatch Agent 설정을 완료하셔야 합니다.
자세한 내용은 ServiceWatch > ServiceWatch Agent 사용하기 참고하세요.

DCGM Exporter 지표

DCGM Exporter 주요 지표

DCGM Exporter에서 제공하는 지표 중, 주요 GPU 지표는 아래와 같습니다.

CategoryDCGM FieldPrometheus Metric TypeSummary
ClocksDCGM_FI_DEV_SM_CLOCKgaugeSM clock frequency (in MHz)
ClocksDCGM_FI_DEV_MEM_CLOCKgaugeMemory clock frequency (in MHz)
TemperatureDCGM_FI_DEV_GPU_TEMPgaugeGPU temperature (in C)
PowerDCGM_FI_DEV_POWER_USAGEgaugePower draw (in W)
UtilizationDCGM_FI_DEV_GPU_UTILgaugeGPU utilization (in %)
UtilizationDCGM_FI_DEV_MEM_COPY_UTILgaugeMemory utilization (in %)
Memory UsageDCGM_FI_DEV_FB_FREEgaugeFrame buffer memory free (in MiB)
Memory UsageDCGM_FI_DEV_FB_USEDgaugeFrame buffer memory used (in MiB)
NvlinkDCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL(8 GPU only)counterTotal number of NVLink bandwidth counters for all lanes
표. DCGM Exporter가 제공하는 GPU 주요 지표

DCGM Exporter 지표 수집 설정

DCGM Exporter의 기본 설정되어 있는 지표는 DCGM Exporter > 기본 지표를 참고하세요.

  • 기본 설정 외에 추가로 설정할 지표는 default-counters.csv에서 #를 제거합니다.
  • 기본 설정된 지표 중 수집을 원하지 않는 지표는 #를 추가하거나 해당 항목을 삭제합니다.
배경색 변경
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...
# Format
# If line starts with a '#' it is considered a comment
# DCGM FIELD, Prometheus metric type, help message

# Clocks
DCGM_FI_DEV_SM_CLOCK,  gauge, SM clock frequency (in MHz).
DCGM_FI_DEV_MEM_CLOCK, gauge, Memory clock frequency (in MHz).

# Temperature
DCGM_FI_DEV_MEMORY_TEMP, gauge, Memory temperature (in C).
DCGM_FI_DEV_GPU_TEMP,    gauge, GPU temperature (in C).

# Power
DCGM_FI_DEV_POWER_USAGE,              gauge, Power draw (in W).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION, counter, Total energy consumption since boot (in mJ).

# PCIE
# DCGM_FI_PROF_PCIE_TX_BYTES,  counter, Total number of bytes transmitted through PCIe TX via NVML.
# DCGM_FI_PROF_PCIE_RX_BYTES,  counter, Total number of bytes received through PCIe RX via NVML.
...
코드블록. default-counters.csv 설정 예시

3 - API Reference

API Reference

4 - CLI Reference

CLI Reference

5 - Release Note

GPU Server

2025.10.23
FEATURE 신규 기능 추가 및 ServiceWatch 서비스 연계 기능 제공
  • ServiceWatch 서비스 연계 제공
    • ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.
  • GPU Server 생성 시 RHEL 이미지를 선택할 수 있습니다.
  • Keypair 관리 기능이 추가되었습니다.
    • Keypair를 생성하여 사용하거나 공개 키를 가져와 적용할 수 있습니다.
2025.07.01
FEATURE GPU Server 기능 추가, Image 공유 방법 변경 및 GPU Server 사용 가이드 추가
  • GPU Server 기능 추가
    • IP, Public NAT IP, Private NAT IP 설정 기능이 추가되었습니다.
    • LLM 이용을 위한 LLM Endpoint가 제공됩니다.
  • Account 간 Image 공유 방법이 변경되었습니다.
    • 공유용 Image를 새로 생성하여 공유할 수 있습니다.
  • GPU Server 사용 가이드 추가
2025.04.28
FEATURE OS 이미지 추가
  • GPU Server RHEL OS 및 GPU 드라이버 버전이 추가되었습니다.
2025.02.27
FEATURE 공통 기능 변경
  • GPU Server 기능 추가
    • GPU Server에서 NAT 설정 기능이 추가되었습니다.
  • Samsung Cloud Platform 공통 기능 변경
    • Account, IAM 및 Service Home, 태그 등 공통 CX 변경 사항을 반영하였습니다.
2024.10.01
NEW GPU Server 서비스 정식 버전 출시
  • GPU Server 서비스를 정식 출시하였습니다.
  • CPU, GPU, 메모리 등 서버에서 제공하는 인프라 자원을 개별 구매할 필요 없이 필요한 시점에 필요한 만큼 할당 받아 사용할 수 있는 가상화 컴퓨팅 서비스를 출시하였습니다.