How-to guides
사용자는 Samsung Cloud Platform Console을 통해 Multi-node GPU Cluster 서비스의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.
Multi-node GPU Cluster 시작하기
Samsung Cloud Platform Console에서 Multi-node GPU Cluster 서비스를 생성하여 사용할 수 있습니다.
본 서비스는 GPU Node와 Cluster Fabric 서비스로 구성되어 있습니다.
GPU Node 생성하기
Multi-node GPU Cluster 생성하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 생성 버튼을 클릭하세요. GPU Node생성 페이지로 이동합니다.
- GPU Node 생성 페이지에서 서비스 생성에 필요한 정보를 입력하고, 상세 옵션을 선택하세요.
- 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
구분 필수 여부상세 설명 이미지 필수 제공하는 이미지 종류 선택 - Ubuntu
이미지 버전 필수 선택한 이미지의 버전 선택 - 제공하는 서버 이미지의 버전 리스트 제공
표. GPU Node 이미지 및 버전 선택 항목 - 서비스 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 서버 수 필수 동시 생성할 GPU Node 서버 개수 - 숫자만 입력 가능하며 최소 생성 서버수는 2대 입니다.
- 최초 구성 시에만 2대 이상으로 생성하며 증설은 1대씩 가능합니다.
서비스 유형 > 서버 타입 필수 GPU Node 서버 타입 - 원하는 CPU, Memory, GPU, Disk 사양을 선택
- GPU Node에서 제공하는 서버 타입에 대한 자세한 내용은 Multi-node GPU Cluster 서버 타입을 참고
서비스 유형 > Planned Compute 필수 Planned Compute가 설정된 자원 현황 - 사용중: Planned Compute가 설정된 자원 중 사용 중인 개수
- 설정: Planned Compute가 설정된 자원의 개수
- Coverage 미리보기: 자원별 Planned Compute로 적용된 금액
- Planned Compute 서비스 신청: Planned Compute 서비스 신청 페이지로 이동
- 자세한 내용은 Planned Compute 신청하기를 참고
표. GPU Node 서비스 정보 입력 항목 - 필수 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 관리자 계정 필수 서버 접속 시 사용할 관리자 계정과 암호를 설정 - Ubuntu OS는 root로 고정하여 제공
서버명 Prefix 필수 선택한 서버 수가 2이상인 경우에 생성되는 각각의 GPU Node 구별을 위한 Prefix 입력 - 사용자 입력값(prefix) + ‘
-###’ 형태로 자동 생성됨
- 영문 소문자로 시작하며, 소문자, 숫자, 특수문자(
-)를 사용하여 3~11자 이내로 입력
- 특수문자(
-)로 끝나지 않음
네트워크 설정 필수 GPU Node가 설치될 네트워크를 설정 - VPC명:미리 생성한 VPC를 선택
- 일반 Subnet명: 미리 생성한 일반 Subnet을 선택
- IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력
- NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능합니다. 사용을 체크하면 NAT IP를 선택할 수 있습니다.(최초 생성시 서버 수 2대 이상으로만 생성 되니 자원 상세 페이지에서 수정)
- NAT IP: NAT IP를 선택
- 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성
- 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택
- Public IP를 생성하면 Public IP 요금 기준에 따라 요금이 부과됨
표. GPU Node 필수 정보 입력 항목 - Cluster 선택 영역에서 Cluster Fabric을 생성 또는 선택하세요.
구분 필수 여부상세 설명 Cluster Fabric 필수 GPU Direct RDMA를 함께 적용할 수 있는 GPU Node 서버의 모임 설정 - 동일 Cluster Fabric내에서만 최적의 GPU 성능 및 속도를 확보 가능
- 신규 Cluster Fabric을 생성할 경우, *신규 입력 > Node pool을 선택한 후, 생성할 Cluster Fabric 이름을 입력
- 기존에 생성된 Cluster Fabric에 추가하려면 기존 입력 > Node pool을 선택한 후, 기존에 생성된 Cluster Fabric을 선택
표. GPU Node Cluster Fabric 선택 항목 - 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
구분 필수 여부상세 설명 Lock 선택 Lock을 사용하면 서버 해지/시작/중지를 실행할 수 없도록 실수로 인한 동작을 방지 Init Script 선택 서버 시작 시 실행할 스크립트 - Init Script는 이미지 종류에 따라 다르게 선택해야 함
- Linux의 경우: Shell Script 또는 cloud-init 선택
태그 선택 태그 추가 - 자원당 최대 50개까지 추가가 가능
- 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
표. GPU Node 추가 정보 입력 항목 - Init Script는 이미지 종류에 따라 다르게 선택해야 함
- 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
- 요약 패널에서 생성한 상세 정보와 예상 청구 금액을 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, GPU Node 목록 페이지에서 생성한 자원을 확인하세요.
- 서비스 생성 시 GPU MIG/ECC 설정을 초기화합니다. 하지만 정확한 설정값을 적용하기 위하여 최초 한번 리부팅을 진행하고 설정값 적용 여부를 직접 확인한 후, 사용하세요.
- GPU MIG/ECC 설정 초기화에 대한 자세한 내용은 GPU MIG/ECC 설정 초기화 점검 가이드를 참고하세요.
GPU Node 상세 정보 확인하기
Multi-node GPU Cluster 서비스는 GPU Node의 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다.
GPU Node 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.
GPU Node의 상세 정보를 확인하려면 다음 절차를 따르세요.
모든 서비스 > Compute > Multi-node GPU Cluster > GPU Node 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
구분 필수 여부상세 설명 자원 ID 선택 사용자가 생성한 GPU Node ID Cluster Fabric명 필수 사용자가 생성한 Cluster Fabric 이름 서버명 필수 사용자가 생성한 GPU Node 이름 서버 타입 필수 GPU Node의 서버 타입 - 사용자가 생성한 자원의 Core수,메모리 용량, GPU 종류와 수를 확인 가능
이미지 필수 사용자가 생성한 GPU Node 이미지 버전 IP 필수 사용자가 생성한 GPU Node의 IP 상태 필수 사용자가 생성한 GPU Node의 상태 생성 일시 선택 GPU Node를 생성한 일시 표. GPU Node 자원 목록 항목
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
GPU Node 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Server 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
구분 상세 설명 GPU Node 상태 사용자가 생성한 GPU Node의 상태 - Creating: 서버 생성 중인 상태
- Running:: 생성 완료되어 사용 가능한 상태
- Editing:: IP 변경중인 상태
- Unknown: 오류 상태
- Starting: 서버 시작 중인 상태
- Stopping: 서버 중지 중인 상태
- Stopped: 서버 중지 완료 상태
- Terminating: 해지 중인 상태
- Terminated: 해지 완료 상태
서버 제어 서버 상태를 변경할 수 있는 버튼 - 시작: 중지된 서버를 시작
- 중지: 가동 중인 서버를 중지
서비스 해지 서비스를 해지하는 버튼 표. GPU Node 상태 정보 및 부가 기능
- GPU Server 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
상세 정보
GPU Node 목록 페이지의 상세 정보 탭에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 서비스 | 서비스명 |
| 자원 유형 | 자원 유형 |
| SRN | Samsung Cloud Platform에서의 고유 자원 ID
|
| 자원명 | 자원 이름
|
| 자원 ID | 서비스에서의 고유 자원 ID |
| 생성자 | 서비스를 생성한 사용자 |
| 생성 일시 | 서비스를 생성한 일시 |
| 수정자 | 서비스 정보를 수정한 사용자 |
| 수정 일시 | 서비스 정보를 수정한 일시 |
| 서버명 | 서버 이름 |
| Node pool | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| Cluster Fabric명 | 사용자가 생성한 Cluster Fabric 이름 |
| 이미지/버전 | 서버의 OS 이미지와 버전 |
| 서버 타입 | CPU, 메모리, GPU, 정보 표시 |
| Planned Compute | Planned Compute가 설정된 자원 현황
|
| Lock | Lock 사용/미사용 여부 표시
|
| 네트워크 | GPU Node의 네트워크 정보
|
| Block Storage | 서버에 연결된 Block Storage 정보
|
| Init Script | 서버 생성 시 입력한 Init Script 내용을 조회 |
태그
GPU Node 목록 페이지의 태그 탭에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 태그 목록 | 태그 목록
|
작업 이력
GPU Node 목록 페이지의 작업 이력 탭에서 선택한 자원의 작업 이력을 확인할 수 있습니다.
| 구분 | 상세 설명 |
|---|---|
| 작업 이력 목록 | 자원 변경 이력
|
GPU Node 가동 제어하기
생성된 GPU Node 자원의 서버 제어 및 관리 기능이 필요한 경우, GPU Node 목록 또는 GPU Node 상세 페이지에서 작업을 수행할 수 있습니다. 가동 중인 GPU Node 자원의 시작, 중지를 할 수 있습니다.
GPU Node 시작하기
중지(Stopped)된 GPU Node를 시작할 수 있습니다. GPU Node를 시작하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 더보기 버튼을 통해 시작 할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 시작 버튼을 클릭하여, 서버를 시작합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 중지하기
가동(Active)중인 GPU Node를 중지할 수 있습니다. GPU Node를 중지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 중지 버튼을 통해 제어할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 중지 버튼을 클릭하여, 서버를 중지합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 해지하기
사용하지 않는 GPU Node를 해지해 운영 비용을 절감할 수 있습니다. 단, 서비스를 해지하면 운영 중인 서비스가 즉시 중단될 수 있으므로 서비스 중단 시 발생하는 영향을 충분히 고려한 후 해지 작업을 진행해야 합니다.
GPU Node를 해지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 해지할 자원을 선택하고, 서비스 해지 버튼을 클릭하세요.
- 동일한 Cluster Fabric을 사용하는 자원은 동시에 해지할 수 있습니다.
- 해지가 완료되면, GPU Node 목록 페이지에서 자원이 해지되었는지 확인하세요.
GPU Node 해지가 불가한 경우는 아래와 같습니다.
- Block Storage(BM)가 연결된 경우: Block Storage(BM) 연결을 먼저 해지해 주세요.
- File Storage가 연결된 경우: File Storage 연결을 먼저 해지해주세요.
- Lock이 설정된 경우: Lock 설정을 미사용으로 변경 후 재시도 해주세요.
- 동시에 해지할 수 없는 서버가 포함된 경우: 해지 가능한 자원만 다시 선택하세요.
- 해지하려는 서버의 Cluster Fabric이 다른 경우: 동일한 Cluster Fabric을 사용하는 자원만 선택하세요.