Overview
서비스 개요
Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.
제공 기능
Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.
- 자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
- 네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
- 스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
- 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
- 모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.
구성 요소
Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.
GPU(H100)
GPU(Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.
다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.
| 구분 | H100 Type |
|---|---|
| 상품 제공 방식 | Bare Metal |
| GPU Architecture | NNVIDIA Hopper |
| GPU Memory | 80GB |
| GPU Transistors | 80 billion 4N TSMC |
| GPU Tensor Performance(FP16기준) | 989.4 TFLOPs, 1,978.9 TFLOPs* |
| GPU Memory Bandwidth | 3,352 GB/sec HBM3 |
| GPU CUDA Cores | 16,896 Cores |
| GPU Tensor Cores | 528(4th Generation) |
| NVLink 성능 | NVLink 4 |
| 총 NVLink 대역폭 | 900 GB/s |
| NVLink Signaling Rate | 25 Gbps (x18) |
| NVSwitch 성능 | NVSwitch 3 |
| NVSwitch GPU간 대역폭 | 900 GB/s |
| 총 NVSwitch 집계 대역폭 | 7.2TB/s |
- With Sparsity
OS 및 GPU 드라이버 버전
Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.
| OS | OS 버전 | GPU 드라이버버전 |
|---|---|---|
| Ubuntu | 22.04 | 535.86.10, 535.183.06 |
서버 타입
Multi-node GPU Cluster에서 제공하는 서버 타입은 다음과 같습니다. Multi-node GPU Cluster에서 제공하는 서버 타입에 대한 자세한 설명은 Multi-node GPU Cluster 서버 타입을 참고하세요.
g2c96h8_metal
| 구분 | 예시 | 상세 설명 |
|---|---|---|
| 서버 세대 | g2 | 제공하는 서버 세대
|
| CPU | c96 | Core 개수
|
| GPU | h8 | GPU 종류 및 수량
|
선행 서비스
해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.
| 서비스 카테고리 | 서비스 | 상세 설명 |
|---|---|---|
| Networking | VPC | 클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스 |