Overview

서비스 개요

Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.

제공 기능

Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.

  • 자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
  • 네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
  • 스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
  • 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
  • 모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.
  • Terraform 제공: Terraform을 통한 IaC 환경을 제공합니다.

구성 요소

Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.

GPU Type별 사양

GPU (Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.

다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.

구분H100 TypeB300 Type
GPU ArchitectureNVIDIA HopperNVIDIA Blackwell Ultra
GPU Memory80 GB268 GB
GPU Transistors80 billion 4N TSMC208 billion 4NP TSMC
FP16 Tensor Core (Dense)989 TFLOPs2.25 PFLOPs
FP8 Tensor Core (Dense)1979 TFLOPs4.5 PFLOPs
FP4 Tensor Core (Dense)미지원13.5 PFLOPs
GPU Memory Bandwidth3,352 GB/s HBM38 TB/s HBM3e
NVLink 성능NVLink 4NVLink 5
NVLink Signaling Rate25 GB/s (x18)50 GB/s (x18)
NVSwitch GPU간 대역폭900 GB/s1.8 TB/s
총 NVSwitch 집계 대역폭7.2 TB/s14.4 TB/s
표. GPU Type 사양

OS 및 GPU 드라이버 버전

Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.

OSOS 버전GPU 드라이버버전
Ubuntu22.04535.86.10, 535.183.06
Ubuntu24.04580.105.08
표. Multi-node GPU Cluster OS 및 GPU 드라이버 버전

서버 타입

Multi-node GPU Cluster에서 제공하는 서버 타입의 형식은 다음과 같습니다.

  • 예: 서버 타입이 g3c128_metal 인 경우
구분예시상세 설명
서버 세대g2제공하는 서버 세대
  • g2: g는 GPU 서버를 의미하고, 2는 세대를 의미
CPUc96Core 개수
  • c96: 할당 Core는 물리 코어
GPUh8GPU 종류 및 수량
  • h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미
표. Multi-node GPU Cluster 서버 타입 형식
참고
Multi-node GPU Cluster에서 제공하는 서버 타입에 대한 자세한 설명은 Multi-node GPU Cluster 서버 타입을 참고하세요.

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.

서비스 카테고리서비스상세 설명
NetworkingVPC클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
표. Multi-node GPU Cluster 선행 서비스
Release Note
서버 타입