1 - Overview
서비스 개요
Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.
제공 기능
Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.
- 자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
- 네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
- 스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
- 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
- 모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.
- Terraform 제공: Terraform을 통한 IaC 환경을 제공합니다.
구성 요소
Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.
GPU Type별 사양
GPU (Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.
다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.
| 구분 | H100 Type | B300 Type |
|---|---|---|
| GPU Architecture | NVIDIA Hopper | NVIDIA Blackwell Ultra |
| GPU Memory | 80 GiB | 268 GiB |
| GPU Transistors | 80 billion 4N TSMC | 208 billion 4NP TSMC |
| FP16 Tensor Core (Dense) | 989 TFLOPs | 2.25 PFLOPs |
| FP8 Tensor Core (Dense) | 1979 TFLOPs | 4.5 PFLOPs |
| FP4 Tensor Core (Dense) | 미지원 | 13.5 PFLOPs |
| GPU Memory Bandwidth | 3,352 GB/s HBM3 | 8 TB/s HBM3e |
| NVLink 성능 | NVLink 4 | NVLink 5 |
| NVLink Signaling Rate | 25 GB/s (x18) | 50 GB/s (x18) |
| NVSwitch GPU간 대역폭 | 900 GB/s | 1.8 TB/s |
| 총 NVSwitch 집계 대역폭 | 7.2 TB/s | 14.4 TB/s |
OS 및 GPU 드라이버 버전
Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.
| OS | OS 버전 | GPU 드라이버버전 |
|---|---|---|
| Ubuntu | 22.04 | 535.86.10, 535.183.06 |
| Ubuntu | 24.04 | 580.105.08 |
서버 타입
Multi-node GPU Cluster에서 제공하는 서버 타입의 형식은 다음과 같습니다.
- 예: 서버 타입이 g2c96h8_metal 인 경우
| 구분 | 예시 | 상세 설명 |
|---|---|---|
| 서버 세대 | g2 | 제공하는 서버 세대
|
| CPU | c96 | Core 개수
|
| GPU | h8 | GPU 종류 및 수량
|
선행 서비스
해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.
| 서비스 카테고리 | 서비스 | 상세 설명 |
|---|---|---|
| Networking | VPC | 클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스 |
1.1 - 서버 타입
Multi-node GPU Cluster 서버 타입
Multi-node GPU Cluster는 제공하는 GPU Type에 따라 구분되며, GPU Node를 생성할 때 선택하는 서버 타입에 따라 Multi-node GPU Cluster에 사용되는 GPU가 결정됩니다. Multi-node GPU Cluster에서 실행하려는 애플리케이션의 사양에 따라 서버 타입을 선택하세요.
Multi-node GPU Cluster에서 지원하는 서버 타입은 다음 형식과 같습니다.
- 예: 서버 타입이 g2c96h8_metal인 경우
구분 예시 상세 설명 서버 세대 g2 제공하는 서버 세대 - g2
- g는 GPU 서버 사양을 의미
- 2은 세대를 의미
CPU c96 Core 개수 - c96: 할당 Core는 물리 코어
GPU h8 GPU 종류 및 수량 - h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미
표. Multi-node GPU Cluster 서버 타입 형식 - g2
g2 서버 타입
g2 서버 타입은 NVIDIA H100 SXM GPU를 사용하는 GPU Bare Metal Server로 대규모 고성능 AI 연산에 적합합니다.
- 8개의 NVIDIA Hopper Architecture 기반 H100 GPU 제공
- GPU 당 1,979 TFLOPS FP8 Tensor Core 성능 제공, 989 TFLOPS FP16 Tensor Core 성능 제공
- 최대 96개의 vCPU 및 2,048 GB의 메모리를 지원
- 최대 1,600 Gb/s NVIDIA InfiniBand RDMA 네트워크 지원
- 최대 100 Gbps의 서비스 네트워크
- 노드 내 NVSwitch를 통한 900 GB/s의 GPU P2P 통신
| 서버 타입 | GPU | GPU Memory | CPU(Core) | Memory | Disk | GPU P2P |
|---|---|---|---|---|---|---|
| g2c96h8_metal | H100 | 640 GiB | 96 vCore | 2 TB | SSD (OS) 960 GB * 2, NVMeSSD 3.84 TB * 4 | 900 GB/s NVSwitch |
g3 서버 타입
g3 서버 타입은 NVIDIA B300 SXM GPU를 사용하는 GPU Bare Metal Server로 대규모 고성능 AI 연산 뿐만 아니라 생성형 AI를 위한 LLM 추론 및 AI 배포에 적합합니다.
- 8개의 NVIDIA Blackwell Ultra Architecture 기반 B300 GPU 제공
- GPU 당 13.5 PFLOPS FP4 Tensor Core, 4.5 PFLOPS FP8 Tensor Core 성능 제공
- 최대 128개의 vCPU 및 4,096 GB의 메모리를 지원
- 최대 6,400 Gb/s NVIDIA InfiniBand RDMA 네트워크 지원
- 최대 100 Gbps의 서비스 네트워크
- 노드 내 NVSwitch를 통한 1.8 TB/s의 GPU P2P 통신
| 서버 타입 | GPU | GPU Memory | CPU(Core) | Memory | Disk | GPU P2P |
|---|---|---|---|---|---|---|
| g3c128b8_metal | B300 | 2.1 TiB | 128 vCore | 4 TB | SSD (OS) 960 GB * 2, NVMeSSD 3.84 TB * 4 | 1.8 TB/s NVSwitch |
1.2 - 모니터링 지표
Samsung Cloud Platform의 정책에 따라 2026년 9월 Cloud Monitoring 서비스 종료 예정입니다.
이에 따라 2026년 9월 릴리스 이후부터는 더 이상 Cloud Monitoring을 통한 Samsung Cloud Platform의 자원 모니터링이 불가능하게 됩니다.
새로운 대안 서비스로, 2025년 10월에 출시된 ServiceWatch를 활용하여 자원 모니터링을 지속적으로 진행하실 수 있습니다.
ServiceWatch는 보다 현대적이고 강력한 기능을 제공하며, Cloud Monitoring을 대체하여 원활한 모니터링 환경을 제공합니다.
Cloud Monitoring Agent를 통해 지표 및 로그 수집을 하고 있다면, ServiceWatch Agent로 변경이 필요합니다.
ServiceWatch에 대한 자세한 내용은 ServiceWatch 개요를 참고하세요.
ServiceWatch Agent에 대한 자세한 내용은 ServiceWatch Agent를 참고하세요.
Multi-node GPU Cluster 모니터링 지표
아래 표는 Cloud Monitoring을 통해 확인할 수 있는 Multi-node GPU Cluster의 모니터링 지표를 나타냅니다.
Multi-node GPU Cluster [Cluster]
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Memory Total [Basic] | 사용할 수 있는 메모리의 bytes | bytes |
| Memory Used [Basic] | 현재 사용되는 메모리의 bytes | bytes |
| Memory Swap In [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Swap Out [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Free [Basic] | 사용하지 않은 메모리의 bytes | bytes |
| Disk Read Bytes [Basic] | 읽기 bytes | bytes |
| Disk Read Requests [Basic] | 읽기 요청 수 | cnt |
| Disk Write Bytes [Basic] | 쓰기bytes | bytes |
| Disk Write Requests [Basic] | 쓰기 요청 수 | cnt |
| CPU Usage [Basic] | 1분간 평균 시스템 CPU 사용률 | % |
| Instance State [Basic] | Instance 상태 | state |
| Network In Bytes [Basic] | 수신 bytes | bytes |
| Network In Dropped [Basic] | 수신 패킷 드롭 | cnt |
| Network In Packets [Basic] | 수신 패킷 수 | cnt |
| Network Out Bytes [Basic] | 송신 bytes | bytes |
| Network Out Dropped [Basic] | 송신 패킷 드롭 | cnt |
| Network Out Packets [Basic] | 송신 패킷 수 | cnt |
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Cluster GPU Count | Cluster 내 GPU Count SUM
| cnt |
| Cluster GPU Count In Use | Cluster 내 Job이 수행중인 GPU 수
| cnt |
| Cluster GPU Usage | Cluster 내 GPU Utilization AVG
| % |
| Cluster GPU Memory Usage [Avg] | Cluster 내 GPU Memory Uti. AVG
| % |
Multi-node GPU Cluster [Node]
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| Memory Total [Basic] | 사용할 수 있는 메모리의 bytes | bytes |
| Memory Used [Basic] | 현재 사용되는 메모리의 bytes | bytes |
| Memory Swap In [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Swap Out [Basic] | 교체된 메모리의 bytes | bytes |
| Memory Free [Basic] | 사용하지 않은 메모리의 bytes | bytes |
| Disk Read Bytes [Basic] | 읽기 bytes | bytes |
| Disk Read Requests [Basic] | 읽기 요청 수 | cnt |
| Disk Write Bytes [Basic] | 쓰기bytes | bytes |
| Disk Write Requests [Basic] | 쓰기 요청 수 | cnt |
| CPU Usage [Basic] | 1분간 평균 시스템 CPU 사용률 | % |
| Instance State [Basic] | Instance 상태 | state |
| Network In Bytes [Basic] | 수신 bytes | bytes |
| Network In Dropped [Basic] | 수신 패킷 드롭 | cnt |
| Network In Packets [Basic] | 수신 패킷 수 | cnt |
| Network Out Bytes [Basic] | 송신 bytes | bytes |
| Network Out Dropped [Basic] | 송신 패킷 드롭 | cnt |
| Network Out Packets [Basic] | 송신 패킷 수 | cnt |
| 성능 항목 | 상세 설명 | 단위 |
|---|---|---|
| GPU Count | gpu 개수 | cnt |
| GPU Temperature | gpu 온도 | ℃ |
| GPU Usage | utilization | % |
| GPU Usage [Avg] | GPU 전체 평균 사용율(%) | % |
| GPU Power Cap | GPU의 최대 전력 용량 | W |
| GPU Power Usage | GPU의 현재 전력 사용량 | W |
| GPU Memory Usage [Avg] | GPU Memory Uti. AVG | % |
| GPU Count in use | Node 내 Job이 수행중인 GPU 수 | cnt |
| Execution Status for nvidia-smi | nvidia-smi 명령어 실행결과 | status |
| Core Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기) | % |
| Core Usage [System] | 커널 공간에서 소요된 CPU 시간의 비율 | % |
| Core Usage [User] | 사용자 공간에서 소요된 CPU 시간의 비율 | % |
| CPU Cores | 호스트에 있는 CPU 코어의 수입니다. 정규화되지 않은 비율의 최대 값은 코어의 100%*입니다. 정규화되지 않은 비율에는 이 값이 이미 반영되어 있으며 최대 값은 코어의 100%*입니다. | cnt |
| CPU Usage [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%) | % |
| CPU Usage [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage [System] | 커널에서 사용한 CPU 시간의 백분율 (core 4개 모두를 100%사용하는 경우 : 400%) | % |
| CPU Usage [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. (core 4개 모두를 100% 사용하는 경우 400%) | % |
| CPU Usage/Core [Active] | Idle 및 IOWait 상태 이외에 사용된 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| CPU Usage/Core [Idle] | 유휴 상태로 소요된 CPU 시간의 비율입니다. | % |
| CPU Usage/Core [IO Wait] | 대기 상태로 소요된 CPU 시간의 비율(디스크 대기)입니다. | % |
| CPU Usage/Core [System] | 커널에서 사용한 CPU 시간의 백분율 (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| CPU Usage/Core [User] | 사용자 영역에서 사용한 CPU 시간의 백분율. (core 수로 정규화된 값, core 4개 모두를 100% 사용하는 경우 100%) | % |
| Disk CPU Usage [IO Request] | 장치에 대한 입출력 요청이 실행된 CPU 시간의 비율입니다(장치의 대역폭 활용도). 이 값이 100%에 가까우면 장치 포화 상태가 됩니다. | % |
| Disk Queue Size [Avg] | 장치에 대해 실행된 요청의 평균 대기열 길이입니다. | num |
| Disk Read Bytes | 장치에서 읽는 초당 바이트 수입니다. | bytes |
| Disk Read Bytes [Delta Avg] | 개별 disk들의 system.diskio.read.bytes_delta의 평균 | bytes |
| Disk Read Bytes [Delta Max] | 개별 disk들의 system.diskio.read.bytes_delta의 최대 | bytes |
| Disk Read Bytes [Delta Min] | 개별 disk들의 system.diskio.read.bytes_delta의 최소 | bytes |
| Disk Read Bytes [Delta Sum] | 개별 disk들의 system.diskio.read.bytes_delta의 합 | bytes |
| Disk Read Bytes [Delta] | 개별 disk의 system.diskio.read.bytes 값의 delta | bytes |
| Disk Read Bytes [Success] | 성공적으로 읽은 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 읽어들인 섹터 수에 512를 곱한 값 | bytes |
| Disk Read Requests | 1초동안 디스크 디바이스의 읽기 요청 수 | cnt |
| Disk Read Requests [Delta Avg] | 개별 disk들의 system.diskio.read.count_delta의 평균 | cnt |
| Disk Read Requests [Delta Max] | 개별 disk들의 system.diskio.read.count_delta의 최대 | cnt |
| Disk Read Requests [Delta Min] | 개별 disk들의 system.diskio.read.count_delta의 최소 | cnt |
| Disk Read Requests [Delta Sum] | 개별 disk들의 system.diskio.read.count_delta의 합 | cnt |
| Disk Read Requests [Success Delta] | 개별 disk의 system.diskio.read.count 의 delta | cnt |
| Disk Read Requests [Success] | 성공적으로 완료된 총 읽기 수 | cnt |
| Disk Request Size [Avg] | 장치에 대해 실행된 요청의 평균 크기(단위: 섹터)입니다. | num |
| Disk Service Time [Avg] | 장치에 대해 실행된 입력 요청의 평균 서비스 시간(밀리초)입니다. | ms |
| Disk Wait Time [Avg] | 지원할 장치에 대해 실행된 요청에 소요된 평균 시간입니다. | ms |
| Disk Wait Time [Read] | 디스크 평균 대기 시간 | ms |
| Disk Wait Time [Write] | 디스크 평균 대기 시간 | ms |
| Disk Write Bytes [Delta Avg] | 개별 disk들의 system.diskio.write.bytes_delta의 평균 | bytes |
| Disk Write Bytes [Delta Max] | 개별 disk들의 system.diskio.write.bytes_delta의 최대 | bytes |
| Disk Write Bytes [Delta Min] | 개별 disk들의 system.diskio.write.bytes_delta의 최소 | bytes |
| Disk Write Bytes [Delta Sum] | 개별 disk들의 system.diskio.write.bytes_delta의 합 | bytes |
| Disk Write Bytes [Delta] | 개별 disk의 system.diskio.write.bytes 값의 delta | bytes |
| Disk Write Bytes [Success] | 성공적으로 쓰여진 총 바이트 수. Linux에서는 섹터 크기를 512로 가정하고, 쓰여진 섹터 수에 512를 곱한 값 | bytes |
| Disk Write Requests | 1초동안 디스크 디바이스의 쓰기 요청 수 | cnt |
| Disk Write Requests [Delta Avg] | 개별 disk들의 system.diskio.write.count_delta의 평균 | cnt |
| Disk Write Requests [Delta Max] | 개별 disk들의 system.diskio.write.count_delta의 최대 | cnt |
| Disk Write Requests [Delta Min] | 개별 disk들의 system.diskio.write.count_delta의 최소 | cnt |
| Disk Write Requests [Delta Sum] | 개별 disk들의 system.diskio.write.count_delta의 합 | cnt |
| Disk Write Requests [Success Delta] | 개별 disk의 system.diskio.write.count 의 delta | cnt |
| Disk Write Requests [Success] | 성공적으로 완료된 총 쓰기 수 | cnt |
| Disk Writes Bytes | 장치에 쓰는 초당 바이트 수입니다. | bytes |
| Filesystem Hang Check | filesystem(local/NFS) hang 체크 (정상:1, 비정상:0) | status |
| Filesystem Nodes | 파일 시스템의 총 파일 노드 수입니다. | cnt |
| Filesystem Nodes [Free] | 파일 시스템의 총 가용 파일 노드 수입니다. | cnt |
| Filesystem Size [Available] | 권한 없는 사용자가 사용할 수 있는 디스크 공간(바이트)입니다. | bytes |
| Filesystem Size [Free] | 사용 가능한 디스크 공간 (bytes) | bytes |
| Filesystem Size [Total] | 총 디스크 공간 (bytes) | bytes |
| Filesystem Usage | 사용한 디스크 공간 백분율 | % |
| Filesystem Usage [Avg] | 개별 filesystem.used.pct들의 평균 | % |
| Filesystem Usage [Inode] | inode 사용률 | % |
| Filesystem Usage [Max] | 개별 filesystem.used.pct 중에 max | % |
| Filesystem Usage [Min] | 개별 filesystem.used.pct 중에 min | % |
| Filesystem Usage [Total] | - | % |
| Filesystem Used | 사용한 디스크 공간 (bytes) | bytes |
| Filesystem Used [Inode] | inode 사용량 | bytes |
| Memory Free | 사용 가능한 총 메모리 양 (bytes). 시스템 캐시 및 버퍼에서 사용하는 메모리는 포함하지 않음 (system.memory.actual.free 참조). | bytes |
| Memory Free [Actual] | 실제 사용가능한 memory (bytes). OS 에 따라 계산방식이 다르며, Linux 에서는 /proc/ meminfo 에서 MemAvailable 이거나 meminfo 를 사용할 수 없는 경우에는 사용 가능한 메모리와 캐시 및 버퍼에서 계산함. OSX 에서는 사용가능한 메모리와 비활성 메모리의 합계. Windows 에서는 system.memory.free 와 같은 값. | bytes |
| Memory Free [Swap] | 사용가능한 swap memory. | bytes |
| Memory Total | 총 memory | bytes |
| Memory Total [Swap] | 총 swap memory. | bytes |
| Memory Usage | 사용한 memory의 백분율
| % |
| Memory Usage [Actual] | 실제 사용된 memory의 백분율
| % |
| Memory Usage [Cache Swap] | cache 된 swap 사용률 | % |
| Memory Usage [Swap] | 사용한 swap memory의 백분율 | % |
| Memory Used | 사용한 memory | bytes |
| Memory Used [Actual] | 실제 사용된 memory (bytes). 총 memory 에서 사용된 memory 를 뺀 값. 사용가능 메모리는 OS 마다 다르게 계산됨 (system.actual.free 참조) | bytes |
| Memory Used [Swap] | 사용한 swap memory. | bytes |
| Collisions | 네트워크 충돌 | cnt |
| Network In Bytes | 수신된 byte 수 | bytes |
| Network In Bytes [Delta Avg] | 개별 network들의 system.network.in.bytes_delta의 평균 | bytes |
| Network In Bytes [Delta Max] | 개별 network들의 system.network.in.bytes_delta의 최대 | bytes |
| Network In Bytes [Delta Min] | 개별 network들의 system.network.in.bytes_delta의 최소 | bytes |
| Network In Bytes [Delta Sum] | 개별 network 들의 system.network.in.bytes_delta의 합 | bytes |
| Network In Bytes [Delta] | 수신된 byte 수의 delta | bytes |
| Network In Dropped | 들어온 packet 중 삭제된 패킷의 수 | cnt |
| Network In Errors | 수신 중의 error 수 | cnt |
| Network In Packets | 수신된 packet 수 | cnt |
| Network In Packets [Delta Avg] | 개별 network들의 system.network.in.packets_delta의 평균 | cnt |
| Network In Packets [Delta Max] | 개별 network들의 system.network.in.packets_delta의 최대 | cnt |
| Network In Packets [Delta Min] | 개별 network들의 system.network.in.packets_delta의 최소 | cnt |
| Network In Packets [Delta Sum] | 개별 network들의 system.network.in.packets_delta의 합 | cnt |
| Network In Packets [Delta] | 수신된 packet 수의 delta | cnt |
| Network Out Bytes | 송신된 byte 수 | bytes |
| Network Out Bytes [Delta Avg] | 개별 network들의 system.network.out.bytes_delta의 평균 | bytes |
| Network Out Bytes [Delta Max] | 개별 network들의 system.network.out.bytes_delta의 최대 | bytes |
| Network Out Bytes [Delta Min] | 개별 network들의 system.network.out.bytes_delta의 최소 | bytes |
| Network Out Bytes [Delta Sum] | 개별 network들의 system.network.out.bytes_delta의 합 | bytes |
| Network Out Bytes [Delta] | 송신된 byte 수의 delta | bytes |
| Network Out Dropped | 나가는 packet 중 삭제된 packet 수. 이 값은 운영체제에서 보고되지 않으므로 Darwin 과 BSD에서 항상 0임 | cnt |
| Network Out Errors | 송신 중의 error 수 | cnt |
| Network Out Packets | 송신된 packet 수 | cnt |
| Network Out Packets [Delta Avg] | 개별 network들의 system.network.out.packets_delta의 평균 | cnt |
| Network Out Packets [Delta Max] | 개별 network들의 system.network.out.packets_delta의 최대 | cnt |
| Network Out Packets [Delta Min] | 개별 network들의 system.network.out.packets_delta의 최소 | cnt |
| Network Out Packets [Delta Sum] | 개별 network들의 system.network.out.packets_delta의 합 | cnt |
| Network Out Packets [Delta] | 송신된 packet 수의 delta | cnt |
| Open Connections [TCP] | 열려 있는 모든 TCP 연결 | cnt |
| Open Connections [UDP] | 열려 있는 모든 UDP 연결 | cnt |
| Port Usage | 접속가능한 port 사용률 | % |
| SYN Sent Sockets | SYN_SENT 상태의 소켓 수 (로컬에서 원격 접속시) | cnt |
| Kernel PID Max | kernel.pid_max 값 | cnt |
| Kernel Thread Max | kernel.threads-max 값 | cnt |
| Process CPU Usage | 마지막 업데이트 후 프로세스에서 소비한 CPU 시간의 백분율. 이 값은 Unix 시스템에서 top 명령으로 표시되는 프로세스의 %CPU 값과 유사 | % |
| Process CPU Usage/Core | 마지막 이벤트 이후 프로세스에서 사용한 CPU 시간의 백분율. 코어 수로 정규화되며 0~100% 사이의 값 | % |
| Process Memory Usage | main memory (RAM) 에서 프로세스가 차지하는 비율 | % |
| Process Memory Used | Resident Set 사이즈. 프로세스가 RAM 에서 차지한 메모리 양. Windows 에서는 current working set 사이즈 | bytes |
| Process PID | 프로세스 pid | PID |
| Process PPID | 부모 프로세스의 pid | PID |
| Processes [Dead] | dead processes 수 | cnt |
| Processes [Idle] | idle processes 수 | cnt |
| Processes [Running] | running processes 수 | cnt |
| Processes [Sleeping] | sleeping processes 수 | cnt |
| Processes [Stopped] | stopped processes 수 | cnt |
| Processes [Total] | 총 processes 수 | cnt |
| Processes [Unknown] | 상태를 검색할 수 없거나 알 수 없는 processes 수 | cnt |
| Processes [Zombie] | 좀비 processes 수 | cnt |
| Running Process Usage | process 사용률 | % |
| Running Processes | running processes 수 | cnt |
| Running Thread Usage | thread 사용률 | % |
| Running Threads | running processes 에서 실행중인 thread 수 총합 | cnt |
| Instance Status | 인스턴스 상태 | state |
| Context Switches | context switch 수 (초당) | cnt |
| Load/Core [1 min] | 마지막 1 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [15 min] | 마지막 15 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Load/Core [5 min] | 마지막 5 분 동안의 로드를 코어 수로 나눈 값 | cnt |
| Multipaths [Active] | 외장 스토리지 연결 path status = active 카운트 | cnt |
| Multipaths [Failed] | 외장 스토리지 연결 path status = failed 카운트 | cnt |
| Multipaths [Faulty] | 외장 스토리지 연결 path status = faulty 카운트 | cnt |
| NTP Offset | last sample의 measured offset (NTP 서버와 로컬환경 간의 시간 차이) | num |
| Run Queue Length | 실행 대기열 길이 | num |
| Uptime | OS 가동시간(uptime). (milliseconds) | ms |
| Context Switchies | CPU context switch 수 (초당) | cnt |
| Disk Read Bytes [Sec] | windows logical 디스크에서 1초동안 읽어들인 바이트 수 | cnt |
| Disk Read Time [Avg] | 데이터 읽기 평균 시간 (초) | sec |
| Disk Transfer Time [Avg] | 디스크 average wait time | sec |
| Disk Usage | 디스크 사용률 | % |
| Disk Write Bytes [Sec] | windows logical 디스크에서 1초동안 쓰여진 바이트 수 | cnt |
| Disk Write Time [Avg] | 데이터 쓰기 평균 시간 (초) | sec |
| Pagingfile Usage | paging file 사용률 | % |
| Pool Used [Non Paged] | 커널 메모리 중 Nonpaged Pool 사용량 | bytes |
| Pool Used [Paged] | 커널 메모리 중 Paged Pool 사용량 | bytes |
| Process [Running] | 현재 동작 중인 프로세스 수 | cnt |
| Threads [Running] | 현재 동작 중인 thread 수 | cnt |
| Threads [Waiting] | 프로세서 시간을 기다리는 thread 수 | cnt |
2 - How-to guides
사용자는 Samsung Cloud Platform Console을 통해 Multi-node GPU Cluster 서비스의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.
Multi-node GPU Cluster 시작하기
Samsung Cloud Platform Console에서 Multi-node GPU Cluster 서비스를 생성하여 사용할 수 있습니다.
본 서비스는 GPU Node와 Cluster Fabric 서비스로 구성되어 있습니다.
GPU Node 생성하기
Multi-node GPU Cluster 생성하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 생성 버튼을 클릭하세요. GPU Node생성 페이지로 이동합니다.
- GPU Node 생성 페이지에서 서비스 생성에 필요한 정보를 입력하고, 상세 옵션을 선택하세요.
- 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
구분 필수 여부상세 설명 이미지 필수 제공하는 이미지 종류 선택 - Ubuntu
이미지 버전 필수 선택한 이미지의 버전 선택 - 제공하는 서버 이미지의 버전 리스트 제공
표. GPU Node 이미지 및 버전 선택 항목 - 서비스 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 서버 수 필수 동시 생성할 GPU Node 서버 개수 - 숫자만 입력 가능하며 최소 생성 서버수는 2대 입니다.
- 최초 구성 시에만 2대 이상으로 생성하며 증설은 1대씩 가능합니다.
서비스 유형 > 서버 타입 필수 GPU Node 서버 타입 - 원하는 CPU, Memory, GPU, Disk 사양을 선택
- GPU Node에서 제공하는 서버 타입에 대한 자세한 내용은 Multi-node GPU Cluster 서버 타입을 참고
서비스 유형 > Planned Compute 필수 Planned Compute가 설정된 자원 현황 - 사용중: Planned Compute가 설정된 자원 중 사용 중인 개수
- 설정: Planned Compute가 설정된 자원의 개수
- Coverage 미리보기: 자원별 Planned Compute로 적용된 금액
- Planned Compute 서비스 신청: Planned Compute 서비스 신청 페이지로 이동
- 자세한 내용은 Planned Compute 신청하기를 참고
표. GPU Node 서비스 정보 입력 항목 - 필수 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 관리자 계정 필수 서버 접속 시 사용할 관리자 계정과 암호를 설정 - Ubuntu OS는 root로 고정하여 제공
서버명 Prefix 필수 선택한 서버 수가 2이상인 경우에 생성되는 각각의 GPU Node 구별을 위한 Prefix 입력 - 사용자 입력값(prefix) + ‘
-###’ 형태로 자동 생성됨
- 영문 소문자로 시작하며, 소문자, 숫자, 특수문자(
-)를 사용하여 3~11자 이내로 입력
- 특수문자(
-)로 끝나지 않음
네트워크 설정 필수 GPU Node가 설치될 네트워크를 설정 - VPC명:미리 생성한 VPC를 선택
- 일반 Subnet명: 미리 생성한 일반 Subnet을 선택
- IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력
- NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능합니다. 사용을 체크하면 NAT IP를 선택할 수 있습니다.(최초 생성시 서버 수 2대 이상으로만 생성 되니 자원 상세 페이지에서 수정)
- NAT IP: NAT IP를 선택
- 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성
- 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택
- Public IP를 생성하면 Public IP 요금 기준에 따라 요금이 부과됨
표. GPU Node 필수 정보 입력 항목 - Cluster 선택 영역에서 Cluster Fabric을 생성 또는 선택하세요.
구분 필수 여부상세 설명 Cluster Fabric 필수 GPU Direct RDMA를 함께 적용할 수 있는 GPU Node 서버의 모임 설정 - 동일 Cluster Fabric내에서만 최적의 GPU 성능 및 속도를 확보 가능
- 신규 Cluster Fabric을 생성할 경우, *신규 입력 > Node pool을 선택한 후, 생성할 Cluster Fabric 이름을 입력
- 기존에 생성된 Cluster Fabric에 추가하려면 기존 입력 > Node pool을 선택한 후, 기존에 생성된 Cluster Fabric을 선택
표. GPU Node Cluster Fabric 선택 항목 - 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 Lock 선택 Lock을 사용하면 서버 해지/시작/중지를 실행할 수 없도록 실수로 인한 동작을 방지 Init Script 선택 서버 시작 시 실행할 스크립트 - Init Script는 이미지 종류에 따라 다르게 선택해야 함
- Linux의 경우: Shell Script 또는 cloud-init 선택
태그 선택 태그 추가 - 자원당 최대 50개까지 추가가 가능
- 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
표. GPU Node 추가 정보 입력 항목 - Init Script는 이미지 종류에 따라 다르게 선택해야 함
- 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
- 요약 패널에서 생성한 상세 정보와 예상 청구 금액을 확인하고, 생성 버튼을 클릭하세요.
- 생성이 완료되면, GPU Node 목록 페이지에서 생성한 자원을 확인하세요.
- 서비스 생성 시 GPU MIG/ECC 설정을 초기화합니다. 하지만 정확한 설정값을 적용하기 위하여 최초 한번 리부팅을 진행하고 설정값 적용 여부를 직접 확인한 후, 사용하세요.
- GPU MIG/ECC 설정 초기화에 대한 자세한 내용은 GPU MIG/ECC 설정 초기화 점검 가이드를 참고하세요.
GPU Node 상세 정보 확인하기
Multi-node GPU Cluster 서비스는 GPU Node의 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다.
GPU Node 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.
GPU Node의 상세 정보를 확인하려면 다음 절차를 따르세요.
모든 서비스 > Compute > Multi-node GPU Cluster > GPU Node 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
구분 필수 여부상세 설명 자원 ID 선택 사용자가 생성한 GPU Node ID Cluster Fabric명 필수 사용자가 생성한 Cluster Fabric 이름 서버명 필수 사용자가 생성한 GPU Node 이름 서버 타입 필수 GPU Node의 서버 타입 - 사용자가 생성한 자원의 Core수,메모리 용량, GPU 종류와 수를 확인 가능
이미지 필수 사용자가 생성한 GPU Node 이미지 버전 IP 필수 사용자가 생성한 GPU Node의 IP 상태 필수 사용자가 생성한 GPU Node의 상태 생성 일시 선택 GPU Node를 생성한 일시 표. GPU Node 자원 목록 항목
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
GPU Node 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Server 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
구분 상세 설명 GPU Node 상태 사용자가 생성한 GPU Node의 상태 - Creating: 서버 생성 중인 상태
- Running:: 생성 완료되어 사용 가능한 상태
- Editing:: IP 변경중인 상태
- Unknown: 오류 상태
- Starting: 서버 시작 중인 상태
- Stopping: 서버 중지 중인 상태
- Stopped: 서버 중지 완료 상태
- Terminating: 해지 중인 상태
- Terminated: 해지 완료 상태
서버 제어 서버 상태를 변경할 수 있는 버튼 - 시작: 중지된 서버를 시작
- 중지: 가동 중인 서버를 중지
서비스 해지 서비스를 해지하는 버튼 표. GPU Node 상태 정보 및 부가 기능
- GPU Server 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
상세 정보
GPU Node 목록 페이지의 상세 정보 탭에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 서비스 | 서비스명 |
| 자원 유형 | 자원 유형 |
| SRN | Samsung Cloud Platform에서의 고유 자원 ID
|
| 자원명 | 자원 이름
|
| 자원 ID | 서비스에서의 고유 자원 ID |
| 생성자 | 서비스를 생성한 사용자 |
| 생성 일시 | 서비스를 생성한 일시 |
| 수정자 | 서비스 정보를 수정한 사용자 |
| 수정 일시 | 서비스 정보를 수정한 일시 |
| 서버명 | 서버 이름 |
| Node pool | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| Cluster Fabric명 | 사용자가 생성한 Cluster Fabric 이름 |
| 이미지/버전 | 서버의 OS 이미지와 버전 |
| 서버 타입 | CPU, 메모리, GPU, 정보 표시 |
| Planned Compute | Planned Compute가 설정된 자원 현황
|
| Lock | Lock 사용/미사용 여부 표시
|
| 네트워크 | GPU Node의 네트워크 정보
|
| Block Storage | 서버에 연결된 Block Storage 정보
|
| Init Script | 서버 생성 시 입력한 Init Script 내용을 조회 |
태그
GPU Node 목록 페이지의 태그 탭에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 태그 목록 | 태그 목록
|
작업 이력
GPU Node 목록 페이지의 작업 이력 탭에서 선택한 자원의 작업 이력을 확인할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 작업 이력 목록 | 자원 변경 이력
|
GPU Node 가동 제어하기
생성된 GPU Node 자원의 서버 제어 및 관리 기능이 필요한 경우, GPU Node 목록 또는 GPU Node 상세 페이지에서 작업을 수행할 수 있습니다. 가동 중인 GPU Node 자원의 시작, 중지를 할 수 있습니다.
GPU Node 시작하기
중지(Stopped)된 GPU Node를 시작할 수 있습니다. GPU Node를 시작하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 더보기 버튼을 통해 시작 할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 시작 버튼을 클릭하여, 서버를 시작합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 중지하기
가동(Active)중인 GPU Node를 중지할 수 있습니다. GPU Node를 중지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 중지 버튼을 통해 제어할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 중지 버튼을 클릭하여, 서버를 중지합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 해지하기
사용하지 않는 GPU Node를 해지해 운영 비용을 절감할 수 있습니다. 단, 서비스를 해지하면 운영 중인 서비스가 즉시 중단될 수 있으므로 서비스 중단 시 발생하는 영향을 충분히 고려한 후 해지 작업을 진행해야 합니다.
GPU Node를 해지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 해지할 자원을 선택하고, 서비스 해지 버튼을 클릭하세요.
- 동일한 Cluster Fabric을 사용하는 자원은 동시에 해지할 수 있습니다.
- 해지가 완료되면, GPU Node 목록 페이지에서 자원이 해지되었는지 확인하세요.
GPU Node 해지가 불가한 경우는 아래와 같습니다.
- Block Storage(BM)가 연결된 경우: Block Storage(BM) 연결을 먼저 해지해 주세요.
- File Storage가 연결된 경우: File Storage 연결을 먼저 해지해주세요.
- Lock이 설정된 경우: Lock 설정을 미사용으로 변경 후 재시도 해주세요.
- 동시에 해지할 수 없는 서버가 포함된 경우: 해지 가능한 자원만 다시 선택하세요.
- 해지하려는 서버의 Cluster Fabric이 다른 경우: 동일한 Cluster Fabric을 사용하는 자원만 선택하세요.
2.1 - Cluster Fabric 관리
Cluster Fabric은 GPU Cluster에 포함된 서버들(GPU Node)의 관리를 도와주는 서비스입니다. Cluster Fabric을 이용하면 같은 Node pool에 있는 GPU Cluster간 서버를 이동할 수 있으며, 동일 GPU Cluster 내에서 GPU의 성능과 속도를 최적화 할 수 있습니다.
Cluster Fabric 생성하기
Cluster Fabric은 GPU Node를 생성 시 함께 생성할 수 있고, 또한 별도로 생성하거나 삭제할 수 없습니다. Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다.
GPU Node를 생성하지 않은 경우에는 GPU Node를 먼저 생성해주세요. 자세한 내용은 GPU Node 생성하기를 참고하세요.
Cluster Fabric 상세 정보 확인하기
- Cluster Fabric은 GPU Node를 생성 시 함께 생성할 수 있고, 또한 별도로 생성하거나 삭제할 수 없습니다.
- Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다.
- GPU Node를 생성하지 않은 경우에는 GPU Node를 먼저 생성해주세요. 자세한 내용은 GPU Node 생성하기를 참고하세요.
Cluster Fabric 목록 페이지와 Cluster Fabric 상세페이지에서 생성된 Cluster Fabric 목록과 상세 정보를 확인하고 서버를 이동할 수 있습니다.
모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 사용자가 생성한 GPU Cluster의 자원 목록을 조회 할 수 있습니다.
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
구분 필수 여부상세 설명 자원 ID 선택 사용자가 생성한 Cluster Fabric ID Cluster Fabric명 필수 사용자가 생성한 Cluster Fabric 이름 Node pool 선택 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 서버 수 선택 GPU Node의 수 서버 타입 선택 GPU Node의 서버 타입 - 사용자가 생성한 자원의 Core수,메모리 용량, GPU 종류와 수를 확인 가능
상태 선택 사용자가 생성한 Cluster Fabric의 상태 생성 일시 선택 Cluster Fabric을 생성한 일시 표. Cluster Fabric 자원 목록 항목
Cluster Fabric 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Cluster Fabric 상세 페이지로 이동합니다.
- Cluster Fabric 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
구분 상세 설명 Cluster Fabric 상태 사용자가 생성한 Cluster Fabric의 상태 - Creating: 클러스터 생성 중인 상태
- Active: 생성 완료되어 사용 가능한 상태
- Editing: IP 변경중인 상태
- Deleting: 해지 중인 상태
- Deleted: 해지 완료 상태
대상 서버 추가 다른 클러스터에 있는 서버를 해당 클러스터로 이동 할 수 있는 기능 표. Cluster Fabric 상태 정보 및 부가 기능
- Cluster Fabric 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
상세 정보
Cluster Fabric 목록 페이지의 상세 정보 탭에서 선택한 자원의 상세 정보를 확인하고, 다른 클러스터의 서버를 가져 올 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 서비스 | 서비스명 |
| 자원 유형 | 자원 유형 |
| SRN | Samsung Cloud Platform에서의 고유 자원 ID
|
| 자원명 | 자원 이름
|
| 자원 ID | 서비스에서의 고유 자원 ID |
| 생성자 | 서비스를 생성한 사용자 |
| 생성 일시 | 서비스를 생성한 일시 |
| 수정자 | 서비스 정보를 수정한 사용자 |
| 수정 일시 | 서비스 정보를 수정한 일시 |
| Cluster Fabric명 | 사용자가 생성한 Cluster Fabric 이름 |
| Node pool | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| 대상 서버 | Cluster Fabric에 묶여 있는 GPU Node 목록
|
Cluster Fabric 서버 가져오기
Cluster Fabric 상세 페이지의 대상 서버 추가 기능을 사용하여 다른 클러스터에 있는 서버를 가져와 선택한 클러스터에 추가할 수 있습니다.
- 모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Cluster Fabric 상세 페이지로 이동합니다.
- 상세 정보 탭의 대상 서버에서 오른쪽 추가 버튼을 클릭하세요.
- 대상 서버 추가 팝업창이 열립니다.
- Cluster Fabric에서 클러스터를 선택하세요.
- 선택한 클러스터에 묶여 있는 GPU Node가 조회되며 가져오려는 GPU Node를 선택하세요.
- 선택된 GPU Node는 하단에 GPU Node명이 나열됩니다.
- 확인 버튼을 눌러 완료 합니다.
- 취소 버튼을 누르면 작업이 취소됩니다.
- 대상 서버에서 추가한 GPU Node가 조회되는지 확인하세요.
- 대상 서버 추가 팝업창이 열립니다.
Cluster Fabric 해지하기
Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다. 자세한 내용은 GPU Node 해지하기를 참고하세요.
2.2 - ServiceWatch Agent 설치하기
사용자는 Multi-node GPU Cluster의 GPU Node에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.
ServiceWatch Agent
Multi-node GPU Cluster의 GPU Node에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.
| 구분 | 상세 설명 | |
|---|---|---|
| Prometheus Exporter | 특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
| |
| Open Telemetry Collector | 분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
|
GPU Node에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.
- Kubernetes Engine이 구성되어 있는 GPU Node에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
ServiceWatch Agent 활용을 위한 사전 설정
ServiceWatch Agent를 활용하기 위해서 ServiceWatch Agent를 위한 사전 환경 설정을 참고하여 사전 설정을 준비해주세요.
2.3 - Multi-node GPU Cluster 서비스 범위 및 점검 가이드
Multi-node GPU Cluster 서비스 범위
Multi-node GPU Cluster 서비스의 IaaS HW 레벨 문제 발생 시 Support Center의 문의하기를 통해 기술 지원을 받을 수 있습니다. 하지만 OS Kernel 업데이트 또는 애플리케이션 설치 등의 변경에 따른 리스크는 사용자의 영역이므로 기술 지원이 어려우니, 시스템 업데이트 등의 작업에 유의해 주시기 바랍니다.
IaaS HW 레벨 문제
- IPMI HW 모니터링 콘솔에서 발생하는 서버 내의 HW fault event 발생 메시지
- nvdia-smi 명령에서 확인되는 GPU HW 동작 오류
- InfiniBand HCA 카드 또는 InfiniBand Switch 점검에서 발생하는 HW 오류 메시지
IaaS HW 점검 가이드
Multi-node GPU Cluster 서비스를 신청한 후에는 점검 가이드에 따라 IaaS HW 레벨을 점검하는 것을 권장합니다.
Intel E810 드라이버 업데이트
Intel E810 드라이버의 버전을 확인하고 필요 시 다음 절차를 참고하여 업데이트를 진행하세요.
- 서버 제조사 Intel E810 드라이버 최소 권장 버전: 1.15.4 이상
- 드라이버 다운로드: Intel Network Adapter Driver for 800 Series Devices under Linux
lspci 명령을 이용하여 E810 NIC 장치의 유무를 확인할 수 있습니다.
E810 NIC가 유효한 경우, E810-C 정보로 다음과 같이 PCIe 장치가 확인됩니다(E810 NIC 장치가 없을 경우에는 해당 작업 미수행)
<div class="code-block-buttons">
<button class="code-block-download">
<div class="code-block-download-icon">
<svg width="14" height="16" viewBox="0 0 14 16" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M13.999 14.4353v-2.998C13.999 11.0232 13.6602 10.6853 13.2461 10.6853S12.5 11.0232 12.5 11.4373v2.2519H1.5V11.4373C1.5 11.0232 1.16211 10.6853.748047 10.6853.333984 10.6853 976563e-9 11.0232 976562e-9 11.4373v2.998C976562e-9 14.8494.333984 15.1892.748047 15.1892H13.2461c.414099999999999.0.7529-.3398.7529-.7539z" fill="#5135ff"/><path d="M1.41169 6.21654c.25876-.32345.73073-.37589 1.05417-.11713l3.78463 3.0277V1.56104c0-.41422.33578-.750005.75-.750005.41421.0.75.335785.75.750005V9.12208L11.5288 6.09941C11.8523 5.84065 12.3242 5.89309 12.583 6.21654 12.8418 6.53999 12.7893 7.01196 12.4659 7.27071L6.99734 11.6455 1.52882 7.27071c-.32345-.25875-.37589-.73072-.11713-1.05417z" fill="#5135ff"/></svg></div>
Sample Code Download
</button>
<button class="code-block-copy">
<div class="code-block-copy-icon">
<svg width="14" height="14" viewBox="0 0 14 14" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill-rule="evenodd" clip-rule="evenodd" d="M10 4.00012V1c0-.552285-.44772-1-1-1H1C.447715.0.0.447715.0 1V9c0 .55228.447715 1 1 1H3.99988v3.0001C3.99988 13.5515 4.44849 14 4.99988 14H10.0002l3.9997-3.9995V5c0-.55139-.448600000000001-.99988-1-.99988H10zM1.4 1.4V8.6H3.99988V5c0-.55139.44861-.99988 1-.99988H8.6V1.4H1.4zM5.3999 12.6H9.08295V9.78301C9.08295 9.39641 9.39635 9.08301 9.78295 9.08301H12.5999V5.40015h-7.2V12.6zm6.1375-2.117-1.0545 1.0544V10.483h1.0545z" fill="currentcolor"/></svg></div>
Copy Code
</button>
</div>
lspci | grep E810
0000:6a:00.0 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02) 0000:6a:00.1 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02)lspci | grep E810
0000:6a:00.0 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02) 0000:6a:00.1 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02)</div>
드라이버를 업데이트하려면 다음 절차를 따르세요.
기본 드라이버 tar 파일을 원하는 디렉토리로 이동하세요.
배경색 변경/usr/local/src/usr/local/src디렉토리 이동 예시 Archiver 파일을 untar / unzip하세요.
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.배경색 변경
tar zxf ice-x.x.x.tar.gztar zxf ice-x.x.x.tar.gzuntar 예시
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.
드라이버 src 디렉토리로 변경하세요.
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.배경색 변경
cd ice-x.x.x/src/cd ice-x.x.x/src/src 디렉토리로 변경 예시
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.
드라이버 모듈을 컴파일하세요.
배경색 변경make installmake install드라이버 모듈 컴파일 예시 업데이트가 끝난 후, 버전을 확인하세요.
배경색 변경lsmod | grep ice modinfo ice | grep versionlsmod | grep ice modinfo ice | grep version버전 확인 예시
NVIDIA driver 확인
NVIDIA driver를 확인(nvidia-smi topo, IB nv_peer_mem status)하여 IaaS HW 레벨을 점검하려면 다음 절차를 따르세요.
GPU 드라이버 상태를 확인하세요.
배경색 변경~$ nvidia-smi~$ nvidia-smiGPU 드라이버 상태 확인 코드 예시 배경색 변경Thu Jan 29 14:48:31 2026 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA A100-SXM4-80GB On | 00000000:00:05.0 Off | On | | N/A 36C P0 52W / 400W | 0MiB / 81920MiB | N/A Default | | | | Enabled | +-----------------------------------------+----------------------+----------------------+ | 1 NVIDIA A100-SXM4-80GB On | 00000000:00:06.0 Off | 0 | | N/A 36C P0 61W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 2 NVIDIA A100-SXM4-80GB On | 00000000:00:07.0 Off | 0 | | N/A 36C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 3 NVIDIA A100-SXM4-80GB On | 00000000:00:08.0 Off | 0 | | N/A 40C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 4 NVIDIA A100-SXM4-80GB On | 00000000:00:09.0 Off | 0 | | N/A 36C P0 63W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 5 NVIDIA A100-SXM4-80GB On | 00000000:00:0A.0 Off | 0 | | N/A 40C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 6 NVIDIA A100-SXM4-80GB On | 00000000:00:0B.0 Off | 0 | | N/A 39C P0 65W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 7 NVIDIA A100-SXM4-80GB On | 00000000:00:0C.0 Off | 0 | | N/A 39C P0 60W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | MIG devices: | +------------------+--------------------------------+-----------+-----------------------+ | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG | | | | ECC| | |==================+================================+===========+=======================| | No MIG devices found | +---------------------------------------------------------------------------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+Thu Jan 29 14:48:31 2026 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.183.06 Driver Version: 535.183.06 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA A100-SXM4-80GB On | 00000000:00:05.0 Off | On | | N/A 36C P0 52W / 400W | 0MiB / 81920MiB | N/A Default | | | | Enabled | +-----------------------------------------+----------------------+----------------------+ | 1 NVIDIA A100-SXM4-80GB On | 00000000:00:06.0 Off | 0 | | N/A 36C P0 61W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 2 NVIDIA A100-SXM4-80GB On | 00000000:00:07.0 Off | 0 | | N/A 36C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 3 NVIDIA A100-SXM4-80GB On | 00000000:00:08.0 Off | 0 | | N/A 40C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 4 NVIDIA A100-SXM4-80GB On | 00000000:00:09.0 Off | 0 | | N/A 36C P0 63W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 5 NVIDIA A100-SXM4-80GB On | 00000000:00:0A.0 Off | 0 | | N/A 40C P0 64W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 6 NVIDIA A100-SXM4-80GB On | 00000000:00:0B.0 Off | 0 | | N/A 39C P0 65W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 7 NVIDIA A100-SXM4-80GB On | 00000000:00:0C.0 Off | 0 | | N/A 39C P0 60W / 400W | 0MiB / 81920MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | MIG devices: | +------------------+--------------------------------+-----------+-----------------------+ | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG | | | | ECC| | |==================+================================+===========+=======================| | No MIG devices found | +---------------------------------------------------------------------------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+GPU 드라이버 상태 예시 NVSwitch 및 NVLink HW 상태를 확인하세요.
NVSwitch 상태 확인
배경색 변경~$ nvidia-smi nvlink --status~$ nvidia-smi nvlink --statusNVSwitch 상태 확인 예시 배경색 변경GPU 1: NVIDIA A100-SXM4-80GB (UUID: GPU-64a2f685-bb12-c4af-105c-0726ece9c8d7) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 2: NVIDIA A100-SXM4-80GB (UUID: GPU-2269851b-71cd-f6c7-50c5-ba1525cf3ce8) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 3: NVIDIA A100-SXM4-80GB (UUID: GPU-4c397bbf-95fc-5c29-918a-a429cbe45a7a) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 4: NVIDIA A100-SXM4-80GB (UUID: GPU-0e350204-9fb6-2cbe-538e-8f7849658eb8) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 5: NVIDIA A100-SXM4-80GB (UUID: GPU-45f0c453-4760-edd4-3af9-25c5ea7473a5) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 6: NVIDIA A100-SXM4-80GB (UUID: GPU-38409794-bb34-430e-3c50-90b42cb2bb72) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 7: NVIDIA A100-SXM4-80GB (UUID: GPU-3fb478aa-801b-eb64-55c2-0ffc3f2ce404) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/sGPU 1: NVIDIA A100-SXM4-80GB (UUID: GPU-64a2f685-bb12-c4af-105c-0726ece9c8d7) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 2: NVIDIA A100-SXM4-80GB (UUID: GPU-2269851b-71cd-f6c7-50c5-ba1525cf3ce8) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 3: NVIDIA A100-SXM4-80GB (UUID: GPU-4c397bbf-95fc-5c29-918a-a429cbe45a7a) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 4: NVIDIA A100-SXM4-80GB (UUID: GPU-0e350204-9fb6-2cbe-538e-8f7849658eb8) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 5: NVIDIA A100-SXM4-80GB (UUID: GPU-45f0c453-4760-edd4-3af9-25c5ea7473a5) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 6: NVIDIA A100-SXM4-80GB (UUID: GPU-38409794-bb34-430e-3c50-90b42cb2bb72) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/s GPU 7: NVIDIA A100-SXM4-80GB (UUID: GPU-3fb478aa-801b-eb64-55c2-0ffc3f2ce404) Link 0: 25 GB/s Link 1: 25 GB/s Link 2: 25 GB/s Link 3: 25 GB/s Link 4: 25 GB/s Link 5: 25 GB/s Link 6: 25 GB/s Link 7: 25 GB/s Link 8: 25 GB/s Link 9: 25 GB/s Link 10: 25 GB/s Link 11: 25 GB/sNVSwitch 상태 예시 NVLinks HW 상태 확인
배경색 변경~$ nvidia-smi topo -m~$ nvidia-smi topo -mNVLink HW 상태 확인 코드 예시 배경색 변경GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 CPU Affinity NUMA Affinity GPU NUMA ID GPU0 X NV12 NV12 NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU1 NV12 X NV12 NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU2 NV12 NV12 X NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU3 NV12 NV12 NV12 X NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU4 NV12 NV12 NV12 NV12 X NV12 NV12 NV12 0-127 0-7 N/A GPU5 NV12 NV12 NV12 NV12 NV12 X NV12 NV12 0-127 0-7 N/A GPU6 NV12 NV12 NV12 NV12 NV12 NV12 X NV12 0-127 0-7 N/A GPU7 NV12 NV12 NV12 NV12 NV12 NV12 NV12 X 0-127 0-7 N/A Legend: X = Self SYS = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) PIX = Connection traversing at most a single PCIe bridge NV# = Connection traversing a bonded set of # NVLinksGPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 CPU Affinity NUMA Affinity GPU NUMA ID GPU0 X NV12 NV12 NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU1 NV12 X NV12 NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU2 NV12 NV12 X NV12 NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU3 NV12 NV12 NV12 X NV12 NV12 NV12 NV12 0-127 0-7 N/A GPU4 NV12 NV12 NV12 NV12 X NV12 NV12 NV12 0-127 0-7 N/A GPU5 NV12 NV12 NV12 NV12 NV12 X NV12 NV12 0-127 0-7 N/A GPU6 NV12 NV12 NV12 NV12 NV12 NV12 X NV12 0-127 0-7 N/A GPU7 NV12 NV12 NV12 NV12 NV12 NV12 NV12 X 0-127 0-7 N/A Legend: X = Self SYS = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) PIX = Connection traversing at most a single PCIe bridge NV# = Connection traversing a bonded set of # NVLinksNVLink HW 상태 확인 코드 예시
InfiniBand(IB) HCA 카드 HW 상태와 Link를 확인하세요.
배경색 변경user@bm-dev-001:~$ ibdev2netdev -vuser@bm-dev-001:~$ ibdev2netdev -vHW 상태 확인 명령어 예시 배경색 변경cat: /sys/class/infiniband/mlx5_0/device/vpd: Permission denied 0000:45:00.0 mlx5_0 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs18 (Down) cat: /sys/class/infiniband/mlx5_1/device/vpd: Permission denied 0000:0e:00.0 mlx5_1 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs17 (Down) cat: /sys/class/infiniband/mlx5_2/device/vpd: Permission denied 0000:c5:00.0 mlx5_2 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs20 (Down) cat: /sys/class/infiniband/mlx5_3/device/vpd: Permission denied 0000:85:00.0 mlx5_3 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs19 (Down) user@bm-dev-001:~$cat: /sys/class/infiniband/mlx5_0/device/vpd: Permission denied 0000:45:00.0 mlx5_0 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs18 (Down) cat: /sys/class/infiniband/mlx5_1/device/vpd: Permission denied 0000:0e:00.0 mlx5_1 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs17 (Down) cat: /sys/class/infiniband/mlx5_2/device/vpd: Permission denied 0000:c5:00.0 mlx5_2 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs20 (Down) cat: /sys/class/infiniband/mlx5_3/device/vpd: Permission denied 0000:85:00.0 mlx5_3 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs19 (Down) user@bm-dev-001:~$HW 상태 확인 결과 예시 배경색 변경root@bm-dev-001:~# ibstatroot@bm-dev-001:~# ibstatLink 확인 명령어 예시 배경색 변경CA 'mlx5_0' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff5060ac System image GUID: 0x88e9a4ffff5060ac Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 8 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff5060ac Link layer: InfiniBand CA 'mlx5_1' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff504080 System image GUID: 0x88e9a4ffff504080 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 5 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff504080 Link layer: InfiniBand CA 'mlx5_2' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff505038 System image GUID: 0x88e9a4ffff505038 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 2 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff505038 Link layer: InfiniBand CA 'mlx5_3' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff504094 System image GUID: 0x88e9a4ffff504094 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 7 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff504094 Link layer: InfiniBandCA 'mlx5_0' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff5060ac System image GUID: 0x88e9a4ffff5060ac Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 8 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff5060ac Link layer: InfiniBand CA 'mlx5_1' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff504080 System image GUID: 0x88e9a4ffff504080 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 5 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff504080 Link layer: InfiniBand CA 'mlx5_2' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff505038 System image GUID: 0x88e9a4ffff505038 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 2 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff505038 Link layer: InfiniBand CA 'mlx5_3' CA type: MT4123 Number of ports: 1 Firmware version: 20.29.1016 Hardware version: 0 Node GUID: 0x88e9a4ffff504094 System image GUID: 0x88e9a4ffff504094 Port 1: State: Active Physical state: LinkUp Rate: 200 Base lid: 7 LMC: 0 SM lid: 1 Capability mask: 0x2651e848 Port GUID: 0x88e9a4ffff504094 Link layer: InfiniBandLink 확인 결과 예시
IB bandwidth 통신 확인
IB bandwidth 통신 상태를 확인(ib_send_bw)하여 IaaS HW 레벨을 점검하려면 다음 절차를 따르세요.
IB HCA 인터페이스의 이름을 확인하세요.
- 다음 예시에서 IB용 Port:
mlx5_0,mlx5_4,mlx_5_5,mlx5_8배경색 변경~$ ibdev2netdev -v~$ ibdev2netdev -vIB HCA 인터페이스 이름 확인 예시 배경색 변경0000:1a:00.0 mlx5_0 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp26s0 (Down) 0000:1b:00.0 mlx5_1 (MT4123 - 1028SN ) Mellanox ConnectX-6 Single Port VPI HDR QSFP Adapter fw 20.38.1002 port 1 (ACTIVE) ==> bond-nas (Up) 0000:3c:00.0 mlx5_2 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp60s0 (Down) 0000:4d:00.0 mlx5_3 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp77s0 (Down) 0000:5e:00.0 mlx5_4 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp94s0 (Down) 0000:9c:00.0 mlx5_5 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp156s0 (Down) 0000:9d:00.0 mlx5_6 (MT4123 - 1028SN ) Mellanox ConnectX-6 Single Port VPI HDR QSFP Adapter fw 20.38.1002 port 1 (ACTIVE) ==> bond-nas (Up) 0000:bc:00.0 mlx5_7 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp188s0 (Down) 0000:cc:00.0 mlx5_8 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp204s0 (Down) 0000:dc:00.0 mlx5_9 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp220s0 (Down)0000:1a:00.0 mlx5_0 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp26s0 (Down) 0000:1b:00.0 mlx5_1 (MT4123 - 1028SN ) Mellanox ConnectX-6 Single Port VPI HDR QSFP Adapter fw 20.38.1002 port 1 (ACTIVE) ==> bond-nas (Up) 0000:3c:00.0 mlx5_2 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp60s0 (Down) 0000:4d:00.0 mlx5_3 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp77s0 (Down) 0000:5e:00.0 mlx5_4 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp94s0 (Down) 0000:9c:00.0 mlx5_5 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp156s0 (Down) 0000:9d:00.0 mlx5_6 (MT4123 - 1028SN ) Mellanox ConnectX-6 Single Port VPI HDR QSFP Adapter fw 20.38.1002 port 1 (ACTIVE) ==> bond-nas (Up) 0000:bc:00.0 mlx5_7 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp188s0 (Down) 0000:cc:00.0 mlx5_8 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (ACTIVE) ==> ibp204s0 (Down) 0000:dc:00.0 mlx5_9 (MT4129 - 1028SN ) Nvidia ConnectX-7 Single Port Infiniband NDR OSFP Adapter fw 28.38.1002 port 1 (DOWN ) ==> ibp220s0 (Down)IB HCA 인터페이스 이름 확인 결과 예시
- 다음 예시에서 IB용 Port:
SERVER Side 명령어를 사용하여 상호 통신 상태를 확인하세요.
배경색 변경~$ ib_send_bw -d mlx5_0 -i 1 –F~$ ib_send_bw -d mlx5_0 -i 1 –FSERVER Side 명령어 예시 배경색 변경************************************ * Waiting for client to connect... * ************************************ --------------------------------------------------------------------------------------- Send BW Test Dual-port : OFF Device : mlx5_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF PCIe relax order: ON ibv_wr* API : ON TX depth : 128 CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x0f QPN 0x6d95 PSN 0xb974a remote address: LID 0x01 QPN 0x6dd2 PSN 0xc8a18c --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] 65536 1000 0.00 19827.40 0.317238 ---------------------------------------------------------------------------------------************************************ * Waiting for client to connect... * ************************************ --------------------------------------------------------------------------------------- Send BW Test Dual-port : OFF Device : mlx5_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF PCIe relax order: ON ibv_wr* API : ON TX depth : 128 CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x0f QPN 0x6d95 PSN 0xb974a remote address: LID 0x01 QPN 0x6dd2 PSN 0xc8a18c --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] 65536 1000 0.00 19827.40 0.317238 ---------------------------------------------------------------------------------------상호 통신 상태 확인 결과 예시 CLIENT Side 명령어를 사용하여 상호 통신 상태를 확인하세요.
배경색 변경~$ ib_send_bw -d mlx5_0 -i 1 -F <SERVER Side IP>~$ ib_send_bw -d mlx5_0 -i 1 -F <SERVER Side IP>CLIENT Side 명령어 예시 배경색 변경--------------------------------------------------------------------------------------- Send BW Test Dual-port : OFF Device : mlx5_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF PCIe relax order: ON ibv_wr* API : ON RX depth : 512 CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x01 QPN 0x6dd2 PSN 0xc8a18c remote address: LID 0x0f QPN 0x6d95 PSN 0xb974a --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] 65536 1000 19008.49 19006.37 0.304102 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ Send BW Test Dual-port : OFF Device : mlx5_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF PCIe relax order: ON ibv_wr* API : ON RX depth : 512 CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x01 QPN 0x6dd2 PSN 0xc8a18c remote address: LID 0x0f QPN 0x6d95 PSN 0xb974a --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] 65536 1000 19008.49 19006.37 0.304102 ---------------------------------------------------------------------------------------상호 통신 상태 확인 결과 예시
IB 서비스 유관 커널 모듈 확인
IB 서비스 유관 커널 모듈을 확인(lsmod)하여 IaaS HW 레벨을 점검하세요.
IB 서비스 유관 커널 모듈 확인 - nvidia_peermem
배경색 변경~$ lsmod | grep nvidia_peermem~$ lsmod | grep nvidia_peermemnvidia_peermem 확인 명령어 예시 배경색 변경nvidia_peermem 16384 0 ib_core 425984 9 rdma_cm,ib_ipoib,nvidia_peermem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm nvidia 56524800 451 nvidia_uvm,nvidia_peermem,nvidia_modesetnvidia_peermem 16384 0 ib_core 425984 9 rdma_cm,ib_ipoib,nvidia_peermem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm nvidia 56524800 451 nvidia_uvm,nvidia_peermem,nvidia_modesetnvidia_peermem 확인 결과 예시 IB 서비스 유관 커널 모듈 확인 - IB Card (HCA) driver
배경색 변경~$ lsmod|egrep 'ib_|_ib|mlx'~$ lsmod|egrep 'ib_|_ib|mlx'IB Card (HCA) driver 확인 명령어 예시 배경색 변경mlx5_ib 393216 0 ib_uverbs 163840 2 irdma,mlx5_ib ib_core 393216 3 irdma,ib_uverbs,mlx5_ib mlx5_core 1593344 1 mlx5_ib mlxfw 32768 1 mlx5_core psample 20480 1 mlx5_core tls 114688 1 mlx5_core pci_hyperv_intf 16384 1 mlx5_core ib_ipoib 139264 0 ib_cm 131072 2 rdma_cm,ib_ipoib ib_umad 40960 0 mlx5_ib 454656 0 ib_uverbs 135168 2 rdma_ucm,mlx5_ib ib_core 434176 9 rdma_cm,ib_ipoib,nvidia_peermem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm libcrc32c 16384 5 nf_conntrack,nf_nat,btrfs,nf_tables,raid456 mlx5_core 2064384 1 mlx5_ib mlx_compat 69632 11 rdma_cm,ib_ipoib,mlxdevm,iw_cm,ib_umad,ib_core,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm,mlx5_coremlx5_ib 393216 0 ib_uverbs 163840 2 irdma,mlx5_ib ib_core 393216 3 irdma,ib_uverbs,mlx5_ib mlx5_core 1593344 1 mlx5_ib mlxfw 32768 1 mlx5_core psample 20480 1 mlx5_core tls 114688 1 mlx5_core pci_hyperv_intf 16384 1 mlx5_core ib_ipoib 139264 0 ib_cm 131072 2 rdma_cm,ib_ipoib ib_umad 40960 0 mlx5_ib 454656 0 ib_uverbs 135168 2 rdma_ucm,mlx5_ib ib_core 434176 9 rdma_cm,ib_ipoib,nvidia_peermem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm libcrc32c 16384 5 nf_conntrack,nf_nat,btrfs,nf_tables,raid456 mlx5_core 2064384 1 mlx5_ib mlx_compat 69632 11 rdma_cm,ib_ipoib,mlxdevm,iw_cm,ib_umad,ib_core,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm,mlx5_coreIB Card (HCA) driver 확인 결과 예시
스토리지 물리 디스크 자원 및 Multi-Path 확인
스토리지 물리 디스크 자원 및 Multi-Path를 확인하여 IaaS HW 레벨을 점검하세요.
스토리지 물리 디스크 자원 확인 결과
배경색 변경root@bm-dev-002:/tmp# fdisk –lroot@bm-dev-002:/tmp# fdisk –l스토리지 물리 디스크 자원 확인 결과 예시 Multi-Path 확인 결과
배경색 변경root@bm-dev-002:/tmp# multipath –llroot@bm-dev-002:/tmp# multipath –llMulti-Path 확인 결과 예시
Multi-node GPU Cluster 신규 배포 후 Service Network 확인
다음 명령어를 이용하여 Bonding 및 Slave Interface의 MII Status가 up인지 확인하세요.
Service Network 확인 명령어
배경색 변경~$ cat /proc/net/bonding/bond-srv~$ cat /proc/net/bonding/bond-srvService Network 확인 명령어 예시 Service Network 확인 결과
배경색 변경Ethernet Channel Bonding Driver: v5.15.0-25-generic Bonding Mode: fault-tolerance (active-backup) Primary Slave: None Currently Active Slave: ens9f0 MII Status: up MII Polling Interval (ms): 100 Up Delay (ms): 0 Down Delay (ms): 0 Peer Notification Delay (ms): 0 Slave Interface: ens9f0 MII Status: up Speed: 100000 Mbps Duplex: full Link Failure Count: 0 Permanent HW addr: 30:3e:a7:02:35:70 Slave queue ID: 0 Slave Interface: ens11f0 MII Status: up Speed: 100000 Mbps Duplex: full Link Failure Count: 0 Permanent HW addr: 30:3e:a7:02:2f:e8 Slave queue ID: 0Ethernet Channel Bonding Driver: v5.15.0-25-generic Bonding Mode: fault-tolerance (active-backup) Primary Slave: None Currently Active Slave: ens9f0 MII Status: up MII Polling Interval (ms): 100 Up Delay (ms): 0 Down Delay (ms): 0 Peer Notification Delay (ms): 0 Slave Interface: ens9f0 MII Status: up Speed: 100000 Mbps Duplex: full Link Failure Count: 0 Permanent HW addr: 30:3e:a7:02:35:70 Slave queue ID: 0 Slave Interface: ens11f0 MII Status: up Speed: 100000 Mbps Duplex: full Link Failure Count: 0 Permanent HW addr: 30:3e:a7:02:2f:e8 Slave queue ID: 0Service Network 확인 결과 예시
Multi-node GPU Cluster 신규 배포 후 Time Server와 시간 동기화 확인
OS 이미지에는 chrony 데몬 설치 및 SCP NTP 서버 동기화가 설정되어 있습니다. 다음 명령어를 이용하여 MS Name 열에 ^*로 표기된 라인이 있는지 확인하세요.
chrony 데몬 source 및 동기화 상태 확인 명령어
배경색 변경~$ chronyc sources -V~$ chronyc sources -V상태 확인 명령어 예시 chrony 데몬 상태 확인 결과
배경색 변경MS Name/IP address Stratum Poll Reach LastRx Last sample =============================================================================== ^* 198.19.0.54 4 10 377 1040 -16us[ -37us] +/- 9982usMS Name/IP address Stratum Poll Reach LastRx Last sample =============================================================================== ^* 198.19.0.54 4 10 377 1040 -16us[ -37us] +/- 9982uschrony 데몬 상태 확인 결과 예시
3 - Release Note
Multi-node GPU Cluster
- Ubuntu 이미지 24.04 버전이 추가되었습니다.
- B300 GPU 서버 타입이 추가되었습니다.
- Terraform을 통한 IaC 환경을 제공합니다.
- GPU Node 목록에서 여러 자원을 동시에 해지할 수 있습니다.
- 동일한 DataSet, Cluster Fabric을 사용하는 노드여야 합니다.
- Cloud Monitoring과 연계하였습니다.
- Cloud Monitoring에서 주요 성능 항목을 실시간으로 확인할 수 있습니다.
- Multi-node GPU Cluster 서비스를 출시하였습니다.
- 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화없이 제공하는 서비스를 제공합니다.