Overview

서비스 개요

Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 서비스과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.

제공 기능

Multi-node GPU Cluster는 다음과 같은 기능을 제공하고 있습니다.

  • 자동 프로비저닝(Auto Provisioning) 및 관리: 웹 기반 Console을 통해 GPU 8장을 장착한 표준 GPU Bare Metal 모델의 서버를 프로비저닝부터 자원 및 비용 관리까지 손쉽게 사용 가능합니다.
  • 네트워크 연결: Bare Metal Server 2대 이상을 고속 인터커넥트를 통해 다수의 GPU를 클러스터링 할 수 있으며 GPU Direct RDMA (Remote Direct Memory Access) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
  • 스토리지 연결: OS 디스크 외 다양한 추가 연결 스토리지를 제공합니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage와 Block Storage 및 Object Storage도 연계하여 사용 가능합니다.
  • 네트워크 설정 관리: 서버의 서브넷/IP는 최초 생성시 설정된 값을 간편하게 변경 가능합니다. NAT IP는 필요에 따라 사용/해지를 설정할 수 있는 관리기능을 제공하고 있습니다.
  • 모니터링: 컴퓨팅 자원에 해당하는 CPU, GPU, Memory, Disk 등의 모니터링 정보를 Cloud Monitoring 을 통해 확인할 수 있습니다. Multi-node GPU Cluster의 Cloud Monitoring 서비스를 사용하기 위해 Agent 를 설치해야 합니다. 안정적인 서비스 이용을 위해 Agent를 반드시 설치해주세요. 자세한 내용은 Multi-node GPU Cluster 모니터링 지표 를 참고하세요.

구성 요소

Multi-node GPU Cluster는 GPU를 Bare Metal Sever 유형으로 표준 이미지와 서버 타입을 제공하고 있습니다. NVSwitch 및 NVLink가 제공됩니다.

GPU(H100)

GPU(Graphic Processing Unit)는 많은 양의 데이터를 빠르게 처리하는 병렬 연산에 특화되어 있어 인공지능(AI), 데이터 분석 등 분야에서 대규모 병렬 연산 처리를 가능하게 합니다.

다음은 Multi-node GPU Cluster 서비스에서 제공하는 GPU Type의 사양입니다.

구분H100 Type
상품 제공 방식Bare Metal
GPU ArchitectureNNVIDIA Hopper
GPU Memory80GB
GPU Transistors80 billion 4N TSMC
GPU Tensor Performance(FP16기준)989.4 TFLOPs, 1,978.9 TFLOPs*
GPU Memory Bandwidth3,352 GB/sec HBM3
GPU CUDA Cores16,896 Cores
GPU Tensor Cores528(4th Generation)
NVLink 성능NVLink 4
총 NVLink 대역폭900 GB/s
NVLink Signaling Rate25 Gbps (x18)
NVSwitch 성능NVSwitch 3
NVSwitch GPU간 대역폭900 GB/s
총 NVSwitch 집계 대역폭7.2TB/s
  • With Sparsity
표. GPU Type 사양

OS 및 GPU 드라이버 버전

Multi-node GPU Cluster에서 지원하는 운영체제(OS)는 다음과 같습니다.

OSOS 버전GPU 드라이버버전
Ubuntu22.04535.86.10, 535.183.06
표. Multi-node GPU Cluster OS 및 GPU 드라이버 버전

서버 타입

Multi-node GPU Cluster에서 제공하는 서버 타입은 다음과 같습니다. Multi-node GPU Cluster에서 제공하는 서버 타입에 대한 자세한 설명은 Multi-node GPU Cluster 서버 타입을 참고하세요.

g2c96h8_metal
구분예시상세 설명
서버 세대g2제공하는 서버 세대
  • g2: g는 GPU 서버를 의미하고, 2는 세대를 의미
CPUc96Core 개수
  • c96: 할당 Core는 물리 코어
GPUh8GPU 종류 및 수량
  • h8: h는 GPU 종류를 의미하고, 8은 GPU 수량을 의미
표. Multi-node GPU Cluster 서버 타입 형식

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해주세요.

서비스 카테고리서비스상세 설명
NetworkingVPC클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
표. Multi-node GPU Cluster 선행 서비스
Release Note
서버 타입