How-to guides
사용자는 Samsung Cloud Platform Console을 통해 Multi-node GPU Cluster 서비스의 필수 정보를 입력하고, 상세 옵션을 선택하여 해당 서비스를 생성할 수 있습니다.
Multi-node GPU Cluster 시작하기
Samsung Cloud Platform Console에서 Multi-node GPU Cluster 서비스를 생성하여 사용할 수 있습니다.
본 서비스는 GPU Node와 Cluster Fabric 서비스로 구성되어 있습니다.
GPU Node 생성하기
Multi-node GPU Cluster 생성하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 생성 버튼을 클릭하세요. GPU Node생성 페이지로 이동합니다.
- GPU Node 생성 페이지에서 서비스 생성에 필요한 정보를 입력하고, 상세 옵션을 선택하세요.
- 이미지 및 버전 선택 영역에서 필요한 정보를 선택하세요.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| 이미지 | 필수 | 제공하는 이미지 종류 선택 |
| 이미지 버전 | 필수 | 선택한 이미지의 버전 선택 |
표. GPU Node 이미지 및 버전 선택 항목
- 서비스 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| 서버 수 | 필수 | 동시 생성할 GPU Node 서버 개수- 숫자만 입력 가능하며 최소 생성 서버수는 2대 입니다.
- 최초 구성 시에만 2대 이상으로 생성하며 증설은 1대씩 가능합니다.
|
| 서비스 유형 > 서버 타입 | 필수 | GPU Node 서버 타입- 원하는 CPU, Memory, GPU, Disk 사양을 선택
|
| 서비스 유형 > Planned Compute | 필수 | Planned Compute가 설정된 자원 현황- 사용중: Planned Compute가 설정된 자원 중 사용 중인 개수
- 설정: Planned Compute가 설정된 자원의 개수
- Coverage 미리보기: 자원별 Planned Compute로 적용된 금액
- Planned Compute 서비스 신청: Planned Compute 서비스 신청 페이지로 이동
|
표. GPU Node 서비스 정보 입력 항목
- 필수 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| 관리자 계정 | 필수 | 서버 접속 시 사용할 관리자 계정과 암호를 설정 |
| 서버명 Prefix | 필수 | 선택한 서버 수가 2이상인 경우에 생성되는 각각의 GPU Node 구별을 위한 Prefix 입력- 사용자 입력값(prefix) + ‘
-###’ 형태로 자동 생성됨
- 영문 소문자로 시작하며, 소문자, 숫자, 특수문자(
-)를 사용하여 3~11자 이내로 입력
|
| 네트워크 설정 | 필수 | GPU Node가 설치될 네트워크를 설정- 일반 Subnet명: 미리 생성한 일반 Subnet을 선택
- IP는 자동 생성과 사용자 입력을 선택할 수 있으며, 입력을 선택하면 사용자가 IP를 직접 입력
- NAT: 서버 수가 1대이고 VPC에 Internet Gateway가 연결되어 있어야 사용 가능합니다. 사용을 체크하면 NAT IP를 선택할 수 있습니다.(최초 생성시 서버 수 2대 이상으로만 생성 되니 자원 상세 페이지에서 수정)
- NAT IP: NAT IP를 선택
- 선택할 NAT IP가 없는 경우, 신규 생성 버튼을 클릭하여 Public IP를 생성
- 새로고침 버튼을 클릭하여, 생성한 Public IP를 확인하고 선택
- Public IP를 생성하면 Public IP 요금 기준에 따라 요금이 부과됨
|
표. GPU Node 필수 정보 입력 항목
- Cluster 선택 영역에서 Cluster Fabric을 생성 또는 선택하세요.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| Cluster Fabric | 필수 | GPU Direct RDMA를 함께 적용할 수 있는 GPU Node 서버의 모임 설정- 동일 Cluster Fabric내에서만 최적의 GPU 성능 및 속도를 확보 가능
- 신규 Cluster Fabric을 생성할 경우, *신규 입력 > Node pool을 선택한 후, 생성할 Cluster Fabric 이름을 입력
- 기존에 생성된 Cluster Fabric에 추가하려면 기존 입력 > Node pool을 선택한 후, 기존에 생성된 Cluster Fabric을 선택
|
표. GPU Node Cluster Fabric 선택 항목
- 추가 정보 입력 영역에서 필요한 정보를 입력 또는 선택하세요.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| Lock | 선택 | Lock을 사용하면 서버 해지/시작/중지를 실행할 수 없도록 실수로 인한 동작을 방지 |
| Init Script | 선택 | 서버 시작 시 실행할 스크립트- Init Script는 이미지 종류에 따라 다르게 선택해야 함
- Linux의 경우: Shell Script 또는 cloud-init 선택
|
| 태그 | 선택 | 태그 추가- 태그 추가 버튼을 클릭한 후 Key, Value 값을 입력 또는 선택
|
표. GPU Node 추가 정보 입력 항목
- 요약 패널에서 생성한 상세 정보와 예상 청구 금액을 확인하고, 완료 버튼을 클릭하세요.
- 생성이 완료되면, GPU Node 목록 페이지에서 생성한 자원을 확인하세요.
주의
- 서비스 생성 시 GPU MIG/ECC 설정을 초기화합니다. 하지만 정확한 설정값을 적용하기 위하여 최초 한번 리부팅을 진행하고 설정값 적용 여부를 직접 확인한 후, 사용하세요.
- GPU MIG/ECC 설정 초기화에 대한 자세한 내용은 GPU MIG/ECC 설정 초기화 점검 가이드를 참고하세요.
GPU Node 상세 정보 확인하기
Multi-node GPU Cluster 서비스는 GPU Node의 전체 자원 목록과 상세 정보를 확인하고 수정할 수 있습니다.
GPU Node 상세 페이지에서는 상세 정보, 태그, 작업 이력 탭으로 구성되어 있습니다.
GPU Node의 상세 정보를 확인하려면 다음 절차를 따르세요.
모든 서비스 > Compute > Multi-node GPU Cluster > GPU Node 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| 자원 ID | 선택 | 사용자가 생성한 GPU Node ID |
| Cluster Fabric명 | 필수 | 사용자가 생성한 Cluster Fabric 이름 |
| 서버명 | 필수 | 사용자가 생성한 GPU Node 이름 |
| 서버 타입 | 필수 | GPU Node의 서버 타입- 사용자가 생성한 자원의 Core수,메모리 용량, GPU 종류와 수를 확인 가능
|
| 이미지 | 필수 | 사용자가 생성한 GPU Node 이미지 버전 |
| IP | 필수 | 사용자가 생성한 GPU Node의 IP |
| 상태 | 필수 | 사용자가 생성한 GPU Node의 상태 |
| 생성 일시 | 선택 | GPU Node를 생성한 일시 |
표. GPU Node 자원 목록 항목
GPU Node 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Server 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
| 구분 | 상세 설명 |
|---|
| GPU Node 상태 | 사용자가 생성한 GPU Node의 상태- Running:: 생성 완료되어 사용 가능한 상태
|
| 서버 제어 | 서버 상태를 변경할 수 있는 버튼 |
| 서비스 해지 | 서비스를 해지하는 버튼 |
표. GPU Node 상태 정보 및 부가 기능
상세 정보
GPU Node 목록 페이지의 상세 정보 탭에서 선택한 자원의 상세 정보를 확인하고, 필요한 경우 정보를 수정할 수 있습니다.
| 구분 | 상세 설명 |
|---|
| 서비스 | 서비스명 |
| 자원 유형 | 자원 유형 |
| SRN | Samsung Cloud Platform에서의 고유 자원 ID- GPU Node에서는 GPU Node SRN을 의미
|
| 자원명 | 자원 이름- GPU Node 서비스에서는 GPU Node명을 의미
|
| 자원 ID | 서비스에서의 고유 자원 ID |
| 생성자 | 서비스를 생성한 사용자 |
| 생성 일시 | 서비스를 생성한 일시 |
| 수정자 | 서비스 정보를 수정한 사용자 |
| 수정 일시 | 서비스 정보를 수정한 일시 |
| 서버명 | 서버 이름 |
| Node pool | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| Cluster Fabric명 | 사용자가 생성한 Cluster Fabric 이름 |
| 이미지/버전 | 서버의 OS 이미지와 버전 |
| 서버 타입 | CPU, 메모리, GPU, 정보 표시 |
| Planned Compute | Planned Compute가 설정된 자원 현황 |
| Lock | Lock 사용/미사용 여부 표시- Lock을 사용하면 서버 해지/시작/중지를 실행할 수 없도록 하여 실수로 인한 동작을 방지
- Lock 속성값 변경이 필요한 경우에는 수정 버튼을 클릭하여 설정
|
| 네트워크 | GPU Node의 네트워크 정보- VPC명, 일반 Subnet명, IP, IP 상태, NAT IP, NAT IP 상태
|
| Block Storage | 서버에 연결된 Block Storage 정보 |
| Init Script | 서버 생성 시 입력한 Init Script 내용을 조회 |
표. GPU Node 상세 정보 탭 항목
태그
GPU Node 목록 페이지의 태그 탭에서 선택한 자원의 태그 정보를 확인하고, 추가하거나 변경 또는 삭제할 수 있습니다.
| 구분 | 상세 설명 |
|---|
| 태그 목록 | 태그 목록- 태그 입력 시 기존에 생성된 Key와 Value 목록을 검색하여 선택
|
표. GPU Node 태그 탭 항목
작업 이력
GPU Node 목록 페이지의 작업 이력 탭에서 선택한 자원의 작업 이력을 확인할 수 있습니다.
| 구분 | 상세 설명 |
|---|
| 작업 이력 목록 | 자원 변경 이력- 작업 내역, 작업 일시, 자원 유형, 자원명, 이벤트 토픽, 작업 결과, 작업자 정보 확인
|
표. GPU Node 작업 이력 탭 상세 정보 항목
GPU Node 가동 제어하기
생성된 GPU Node 자원의 서버 제어 및 관리 기능이 필요한 경우, GPU Node 목록 또는 GPU Node 상세 페이지에서 작업을 수행할 수 있습니다.
가동 중인 GPU Node 자원의 시작, 중지를 할 수 있습니다.
GPU Node 시작하기
중지(Stopped)된 GPU Node를 시작할 수 있습니다. GPU Node를 시작하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 더보기 버튼을 통해 시작 할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 시작 버튼을 클릭하여, 서버를 시작합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 중지하기
가동(Active)중인 GPU Node를 중지할 수 있습니다. GPU Node를 중지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Cluster 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 GPU Node 메뉴를 클릭하세요. GPU Node 목록 페이지로 이동합니다.
- GPU Node 목록 페이지에서 개별 또는 여러 대 서버를 체크 박스 선택 후 상단의 중지 버튼을 통해 제어할 수 있습니다.
- GPU Node 목록 페이지에서 자원을 클릭하세요. GPU Node 상세 페이지로 이동합니다.
- GPU Node 상세 페이지에서 상단의 중지 버튼을 클릭하여, 서버를 중지합니다.
- 서버 상태를 확인하고 상태 변경을 완료하세요.
GPU Node 해지하기
사용하지 않는 GPU Node를 해지해 운영 비용을 절감할 수 있습니다. 단, 서비스를 해지하면 운영 중인 서비스가 즉시 중단될 수 있으므로 서비스 중단 시 발생하는 영향을 충분히 고려한 후 해지 작업을 진행해야 합니다.
주의
서비스 해지 후에는 데이터를 복구할 수 없으므로 주의해주세요.
GPU Node를 해지하려면 다음 절차를 따르세요.
- 모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 해지할 자원을 선택하고, 서비스 해지 버튼을 클릭하세요.
- 동일한 Cluster Fabric을 사용하는 자원은 동시에 해지할 수 있습니다.
- 해지가 완료되면, GPU Node 목록 페이지에서 자원이 해지되었는지 확인하세요.
안내
GPU Node 해지가 불가한 경우는 아래와 같습니다.
- Block Storage(BM)가 연결된 경우: Block Storage(BM) 연결을 먼저 해지해 주세요.
- File Storage가 연결된 경우: File Storage 연결을 먼저 해지해주세요.
- Lock이 설정된 경우: Lock 설정을 미사용으로 변경 후 재시도 해주세요.
- 동시에 해지할 수 없는 서버가 포함된 경우: 해지 가능한 자원만 다시 선택하세요.
- 해지하려는 서버의 Cluster Fabric이 다른 경우: 동일한 Cluster Fabric을 사용하는 자원만 선택하세요.
참고
Cluster Fabric 내에 있는 GPU Node가 전부 삭제되면 Cluster Fabric은 자동으로 삭제됩니다.
1 - Cluster Fabric 관리
Cluster Fabric은 GPU Cluster에 포함된 서버들(GPU Node)의 관리를 도와주는 서비스입니다. Cluster Fabric을 이용하면 같은 Node pool에 있는 GPU Cluster간 서버를 이동할 수 있으며, 동일 GPU Cluster 내에서 GPU의 성능과 속도를 최적화 할 수 있습니다.
Cluster Fabric 생성하기
Cluster Fabric은 GPU Node를 생성 시 함께 생성할 수 있고, 또한 별도로 생성하거나 삭제할 수 없습니다. Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다.
GPU Node를 생성하지 않은 경우에는 GPU Node를 먼저 생성해주세요. 자세한 내용은 GPU Node 생성하기를 참고하세요.
Cluster Fabric 상세 정보 확인하기
안내
- Cluster Fabric은 GPU Node를 생성 시 함께 생성할 수 있고, 또한 별도로 생성하거나 삭제할 수 없습니다.
- Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다.
- GPU Node를 생성하지 않은 경우에는 GPU Node를 먼저 생성해주세요. 자세한 내용은 GPU Node 생성하기를 참고하세요.
Cluster Fabric 목록 페이지와 Cluster Fabric 상세페이지에서 생성된 Cluster Fabric 목록과 상세 정보를 확인하고 서버를 이동할 수 있습니다.
모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 사용자가 생성한 GPU Cluster의 자원 목록을 조회 할 수 있습니다.
- 필수 컬럼 이외의 자원 항목은 설정 버튼을 통해 추가할 수 있습니다.
| 구분 | 필수 여부 | 상세 설명 |
|---|
| 자원 ID | 선택 | 사용자가 생성한 Cluster Fabric ID |
| Cluster Fabric명 | 필수 | 사용자가 생성한 Cluster Fabric 이름 |
| Node pool | 선택 | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| 서버 수 | 선택 | GPU Node의 수 |
| 서버 타입 | 선택 | GPU Node의 서버 타입- 사용자가 생성한 자원의 Core수,메모리 용량, GPU 종류와 수를 확인 가능
|
| 상태 | 선택 | 사용자가 생성한 Cluster Fabric의 상태 |
| 생성 일시 | 선택 | Cluster Fabric을 생성한 일시 |
표. Cluster Fabric 자원 목록 항목
Cluster Fabric 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Cluster Fabric 상세 페이지로 이동합니다.
- Cluster Fabric 상세 페이지 상단에는 상태 정보 및 부가 기능에 대한 설명이 표시됩니다.
| 구분 | 상세 설명 |
|---|
| Cluster Fabric 상태 | 사용자가 생성한 Cluster Fabric의 상태- Active: 생성 완료되어 사용 가능한 상태
|
| 대상 서버 추가 | 다른 클러스터에 있는 서버를 해당 클러스터로 이동 할 수 있는 기능 |
표. Cluster Fabric 상태 정보 및 부가 기능
상세 정보
Cluster Fabric 목록 페이지의 상세 정보 탭에서 선택한 자원의 상세 정보를 확인하고, 다른 클러스터의 서버를 가져 올 수 있습니다.
| 구분 | 상세 설명 |
|---|
| 서비스 | 서비스명 |
| 자원 유형 | 자원 유형 |
| SRN | Samsung Cloud Platform에서의 고유 자원 ID- Cluster Fabric에서는 Cluster Fabric SRN을 의미
|
| 자원명 | 자원 이름- Cluster Fabric 서비스에서는 Cluster Fabric명을 의미
|
| 자원 ID | 서비스에서의 고유 자원 ID |
| 생성자 | 서비스를 생성한 사용자 |
| 생성 일시 | 서비스를 생성한 일시 |
| 수정자 | 서비스 정보를 수정한 사용자 |
| 수정 일시 | 서비스 정보를 수정한 일시 |
| Cluster Fabric명 | 사용자가 생성한 Cluster Fabric 이름 |
| Node pool | 같은 Cluster Fabric으로 묶을 수 있는 Node의 모임 |
| 대상 서버 | Cluster Fabric에 묶여 있는 GPU Node 목록 |
표. Cluster Fabric 상세 정보 탭 항목
Cluster Fabric 서버 가져오기
Cluster Fabric 상세 페이지의 대상 서버 추가 기능을 사용하여 다른 클러스터에 있는 서버를 가져와 선택한 클러스터에 추가할 수 있습니다.
- 모든 서비스 > Compute > Multi-node GPU Server 메뉴를 클릭하세요. Multi-node GPU Cluster의 Service Home 페이지로 이동합니다.
- Service Home 페이지에서 Cluster Fabric 메뉴를 클릭하세요. Cluster Fabric 목록 페이지로 이동합니다.
- Cluster Fabric 목록 페이지에서 상세 정보를 확인할 자원을 클릭하세요. Cluster Fabric 상세 페이지로 이동합니다.
- 상세 정보 탭의 대상 서버에서 오른쪽 추가 버튼을 클릭하세요.
- 대상 서버 추가 팝업창이 열립니다.
- Cluster Fabric에서 클러스터를 선택하세요.
- 선택한 클러스터에 묶여 있는 GPU Node가 조회되며 가져오려는 GPU Node를 선택하세요.
- 선택된 GPU Node는 하단에 GPU Node명이 나열됩니다.
- 확인 버튼을 눌러 완료 합니다.
- 취소 버튼을 누르면 작업이 취소됩니다.
- 대상 서버에서 추가한 GPU Node가 조회되는지 확인하세요.
Cluster Fabric 해지하기
Cluster Fabric 내에 있는 GPU Node가 전부 해지되면 Cluster Fabric은 자동으로 삭제됩니다. 자세한 내용은 GPU Node 해지하기를 참고하세요.
2 - ServiceWatch Agent 설치하기
사용자는 Multi-node GPU Cluster의 GPU Node에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.
참고
ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.
ServiceWatch Agent
Multi-node GPU Cluster의 GPU Node에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다.
Prometheus Exporter와 Open Telemetry Collector 입니다.
| 구분 | 상세 설명 | |
|---|
| Prometheus Exporter | 특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공- GPU Node의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음.
- GPU Node를 위한 DCGM(NVIDIA Data Center GPU Manager) Exporter를 사용할 수 있음
| |
| Open Telemetry Collector | 분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할- ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함.
| |
표. Prometheus Exporter와 Open Telemetry Collector 설명
안내
GPU Node에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.
- Kubernetes Engine이 구성되어 있는 GPU Node에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
참고
GPU Node의 GPU 지표 수집을 위한 ServiceWatch Agent 가이드는 GPU Server와 동일하게 사용할 수 있습니다.
자세한 내용은
GPU Server > ServiceWatch Agent를 참고하세요.
3 - Multi-node GPU Cluster 서비스 범위 및 점검 가이드
Multi-node GPU Cluster 서비스 범위
Multi-node GPU Cluster 서비스의 IaaS HW 레벨 문제 발생 시 Support Center의 문의하기를 통해 기술 지원을 받을 수 있습니다. 하지만 OS Kernel 업데이트 또는 애플리케이션 설치 등의 변경에 따른 리스크는 사용자의 영역이므로 기술 지원이 어려우니, 시스템 업데이트 등의 작업에 유의해 주시기 바랍니다.
IaaS HW 레벨 문제
- IPMI(iLO) HW모니터링 콘솔에서 발생하는 서버 내의 HW fault event 발생 메시지
- nvdia-smi 명령에서 확인되는 GPU HW 동작 오류
- InfiniBand HCA 카드 또는 InfiniBand Switch 점검에서 발생하는 HW 오류 메시지
주의
Multi-node GPU Cluster 는 Ubuntu OS / NVDIA / Infiniband 의 Software Version 호환성에 민감한 서비스이므로, 사용자의 OS Kernel 업데이트 또는 애플리케이션 설치 등의 변경 이후 공식적인 기술지원이 불가합니다.
IaaS HW 점검 가이드
Multi-node GPU Cluster 서비스를 신청한 후에는 점검 가이드에 따라 IaaS HW 레벨을 점검하는 것을 권장합니다.
OS Kernel 및 Package holding
안내
- 패키지 버전의 자동 업데이트를 원하지 않을 경우,
apt-mark 명령어로 패키지 업데이트를 차단하는 것을 권장합니다. - Linux 커널이나 IB 관련된 패키지 버전의 업데이트 차단을 권장합니다.
OS Kernel 및 Package holding을 진행하려면 다음 절차를 따르세요.
- 다음 명령어를 사용하여 커널과 IB 관련된 패키지 버전을 확인하세요.
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | mlnx"
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | nvidia"
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | linux-image"
ii crash 7.2.8-1ubuntu1.20.04.1 amd64 kernel debugging utility, allowing gdb like syntax
ii dkms 2.8.1-5ubuntu2 all Dynamic Kernel Module Support Framework
ii dmeventd 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper event daemon
ii dmsetup 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper userspace library
ii iser-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo iser kernel modules
ii isert-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo isert kernel modules
ii kernel-mft-dkms 4.17.2-12 all DKMS support for kernel-mft kernel modules
ii kmod 27-1ubuntu2 amd64 tools for managing Linux kernel modules
ii knem 1.1.4.90mlnx1-OFED.5.1.2.5.0.1 amd64 userspace tools for the KNEM kernel module
ii knem-dkms 1.1.4.90mlnx1-OFED.5.1.2.5.0.1 all DKMS support for mlnx-ofed kernel modules
ii libaio1:amd64 0.3.112-5 amd64 Linux kernel AIO access library - shared library
ii libdevmapper-event1.02.1:amd64 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper event support library
ii libdevmapper1.02.1:amd64 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper userspace library
ii libdrm-amdgpu1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to amdgpu-specific kernel DRM services -- runtime
ii libdrm-common 2.4.107-8ubuntu1~20.04.2 all Userspace interface to kernel DRM services -- common files
ii libdrm-intel1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to intel-specific kernel DRM services -- runtime
ii libdrm-nouveau2:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to nouveau-specific kernel DRM services -- runtime
ii libdrm-radeon1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to radeon-specific kernel DRM services -- runtime
ii libdrm2:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to kernel DRM services -- runtime
ii linux-firmware 1.187.29 all Firmware for Linux kernel drivers
hi linux-generic 5.4.0.105.109 amd64 Complete Generic Linux kernel and headers
ii linux-headers-5.4.0-104 5.4.0-104.118 all Header files related to Linux kernel version 5.4.0
ii linux-headers-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel headers for version 5.4.0 on 64 bit x86 SMP
ii linux-headers-5.4.0-105 5.4.0-105.119 all Header files related to Linux kernel version 5.4.0
ii linux-headers-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel headers for version 5.4.0 on 64 bit x86 SMP
hi linux-headers-generic 5.4.0.105.109 amd64 Generic Linux kernel headers
ii linux-image-5.4.0-104-generic 5.4.0-104.118 amd64 Signed kernel image generic
ii linux-image-5.4.0-105-generic 5.4.0-105.119 amd64 Signed kernel image generic
hi linux-image-generic 5.4.0.105.109 amd64 Generic Linux kernel image
ii linux-libc-dev:amd64 5.4.0-105.119 amd64 Linux Kernel Headers for development
ii linux-modules-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-extra-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-extra-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii mlnx-ofed-kernel-dkms 5.4-OFED.5.4.3.0.3.1 all DKMS support for mlnx-ofed kernel modules
ii mlnx-ofed-kernel-utils 5.4-OFED.5.4.3.0.3.1 amd64 Userspace tools to restart and tune mlnx-ofed kernel modules
ii mlnx-tools 5.2.0-0.54303 amd64 Userspace tools to restart and tune MLNX_OFED kernel modules
ii nvidia-kernel-common-470 470.103.01-0ubuntu0.20.04.1 amd64 Shared files used with the kernel module
ii nvidia-kernel-source-470 470.103.01-0ubuntu0.20.04.1 amd64 NVIDIA kernel source package
ii nvidia-peer-memory 1.2-0 all nvidia peer memory kernel module.
ii nvidia-peer-memory-dkms 1.2-0 all DKMS support for nvidia-peer-memory kernel modules
ii rsyslog 8.2001.0-1ubuntu1.1 amd64 reliable system and kernel logging daemon
ii srp-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo srp kernel modules
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | mlnx"
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | nvidia"
root@bm-dev-001:~# dpkg -l | egrep -i "kernel | linux-image"
ii crash 7.2.8-1ubuntu1.20.04.1 amd64 kernel debugging utility, allowing gdb like syntax
ii dkms 2.8.1-5ubuntu2 all Dynamic Kernel Module Support Framework
ii dmeventd 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper event daemon
ii dmsetup 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper userspace library
ii iser-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo iser kernel modules
ii isert-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo isert kernel modules
ii kernel-mft-dkms 4.17.2-12 all DKMS support for kernel-mft kernel modules
ii kmod 27-1ubuntu2 amd64 tools for managing Linux kernel modules
ii knem 1.1.4.90mlnx1-OFED.5.1.2.5.0.1 amd64 userspace tools for the KNEM kernel module
ii knem-dkms 1.1.4.90mlnx1-OFED.5.1.2.5.0.1 all DKMS support for mlnx-ofed kernel modules
ii libaio1:amd64 0.3.112-5 amd64 Linux kernel AIO access library - shared library
ii libdevmapper-event1.02.1:amd64 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper event support library
ii libdevmapper1.02.1:amd64 2:1.02.167-1ubuntu1 amd64 Linux Kernel Device Mapper userspace library
ii libdrm-amdgpu1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to amdgpu-specific kernel DRM services -- runtime
ii libdrm-common 2.4.107-8ubuntu1~20.04.2 all Userspace interface to kernel DRM services -- common files
ii libdrm-intel1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to intel-specific kernel DRM services -- runtime
ii libdrm-nouveau2:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to nouveau-specific kernel DRM services -- runtime
ii libdrm-radeon1:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to radeon-specific kernel DRM services -- runtime
ii libdrm2:amd64 2.4.107-8ubuntu1~20.04.2 amd64 Userspace interface to kernel DRM services -- runtime
ii linux-firmware 1.187.29 all Firmware for Linux kernel drivers
hi linux-generic 5.4.0.105.109 amd64 Complete Generic Linux kernel and headers
ii linux-headers-5.4.0-104 5.4.0-104.118 all Header files related to Linux kernel version 5.4.0
ii linux-headers-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel headers for version 5.4.0 on 64 bit x86 SMP
ii linux-headers-5.4.0-105 5.4.0-105.119 all Header files related to Linux kernel version 5.4.0
ii linux-headers-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel headers for version 5.4.0 on 64 bit x86 SMP
hi linux-headers-generic 5.4.0.105.109 amd64 Generic Linux kernel headers
ii linux-image-5.4.0-104-generic 5.4.0-104.118 amd64 Signed kernel image generic
ii linux-image-5.4.0-105-generic 5.4.0-105.119 amd64 Signed kernel image generic
hi linux-image-generic 5.4.0.105.109 amd64 Generic Linux kernel image
ii linux-libc-dev:amd64 5.4.0-105.119 amd64 Linux Kernel Headers for development
ii linux-modules-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-extra-5.4.0-104-generic 5.4.0-104.118 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii linux-modules-extra-5.4.0-105-generic 5.4.0-105.119 amd64 Linux kernel extra modules for version 5.4.0 on 64 bit x86 SMP
ii mlnx-ofed-kernel-dkms 5.4-OFED.5.4.3.0.3.1 all DKMS support for mlnx-ofed kernel modules
ii mlnx-ofed-kernel-utils 5.4-OFED.5.4.3.0.3.1 amd64 Userspace tools to restart and tune mlnx-ofed kernel modules
ii mlnx-tools 5.2.0-0.54303 amd64 Userspace tools to restart and tune MLNX_OFED kernel modules
ii nvidia-kernel-common-470 470.103.01-0ubuntu0.20.04.1 amd64 Shared files used with the kernel module
ii nvidia-kernel-source-470 470.103.01-0ubuntu0.20.04.1 amd64 NVIDIA kernel source package
ii nvidia-peer-memory 1.2-0 all nvidia peer memory kernel module.
ii nvidia-peer-memory-dkms 1.2-0 all DKMS support for nvidia-peer-memory kernel modules
ii rsyslog 8.2001.0-1ubuntu1.1 amd64 reliable system and kernel logging daemon
ii srp-dkms 5.4-OFED.5.4.3.0.1.1 all DKMS support fo srp kernel modules
코드블록. 커널, IB 관련 패키지 버전 확인 - apt-mark 명령어를 사용하여 패키지 업데이트를 hold하세요.
Intel E810 드라이버 업데이트
Intel E810 드라이버의 버전을 확인하고, 권장 버전으로 업데이트하세요.
드라이버 업데이트 방법은 다음과 같습니다.
- 기본 드라이버 tar 파일을 원하는 디렉토리로 이동합니다.
예시: /home/username/ice 또는 /usr/local/src/ice
Archiver 파일을 untar / unzip하세요.
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.
드라이버 src 디렉토리로 변경하세요.
- x.x.x는 드라이버 tar 파일의 버전 번호입니다.
드라이버 모듈을 컴파일하세요.
업데이트가 끝난 후, 버전을 확인하세요.
lsmod | grep ice
modinfo ice | grep version
lsmod | grep ice
modinfo ice | grep version
코드블록. 버전 확인
NVIDIA driver 확인
참고
nvidia-smi topo, IB nv_peer_mem status 확인
NVIDIA driver를 확인(nvidia-smi topo, IB nv_peer_mem status)하여 IaaS HW 레벨을 점검하려면 다음 절차를 따르세요.
GPU 드라이버와 HW 상태를 확인하세요.
user@bm-dev-001:~$ nvidia-smi topo -m
GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 mlx5_0 mlx5_1 mlx5_2 mlx5_3 CPU Affinity NUMA Affinity
GPU0 X NV12 NV12 NV12 NV12 NV12 NV12 NV12 SYS PXB SYS SYS 48-63 3
GPU1 NV12 X NV12 NV12 NV12 NV12 NV12 NV12 SYS PXB SYS SYS 48-63 3
GPU2 NV12 NV12 X NV12 NV12 NV12 NV12 NV12 PXB SYS SYS SYS 16-31 1
GPU3 NV12 NV12 NV12 X NV12 NV12 NV12 NV12 PXB SYS SYS SYS 16-31 1
GPU4 NV12 NV12 NV12 NV12 X NV12 NV12 NV12 SYS SYS SYS PXB 112-127 7
GPU5 NV12 NV12 NV12 NV12 NV12 X NV12 NV12 SYS SYS SYS PXB 112-127 7
GPU6 NV12 NV12 NV12 NV12 NV12 NV12 X NV12 SYS SYS PXB SYS 80-95 5
GPU7 NV12 NV12 NV12 NV12 NV12 NV12 NV12 X SYS SYS PXB SYS 80-95 5
mlx5_0 SYS SYS PXB PXB SYS SYS SYS SYS X SYS SYS SYS
mlx5_1 PXB PXB SYS SYS SYS SYS SYS SYS SYS X SYS SYS
mlx5_2 SYS SYS SYS SYS SYS SYS PXB PXB SYS SYS X SYS
mlx5_3 SYS SYS SYS SYS PXB PXB SYS SYS SYS SYS SYS X
Legend:
X = Self
SYS = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
PIX = Connection traversing at most a single PCIe bridge
NV# = Connection traversing a bonded set of # NVLinks
user@bm-dev-001:~$ nvidia-smi topo -m
GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 mlx5_0 mlx5_1 mlx5_2 mlx5_3 CPU Affinity NUMA Affinity
GPU0 X NV12 NV12 NV12 NV12 NV12 NV12 NV12 SYS PXB SYS SYS 48-63 3
GPU1 NV12 X NV12 NV12 NV12 NV12 NV12 NV12 SYS PXB SYS SYS 48-63 3
GPU2 NV12 NV12 X NV12 NV12 NV12 NV12 NV12 PXB SYS SYS SYS 16-31 1
GPU3 NV12 NV12 NV12 X NV12 NV12 NV12 NV12 PXB SYS SYS SYS 16-31 1
GPU4 NV12 NV12 NV12 NV12 X NV12 NV12 NV12 SYS SYS SYS PXB 112-127 7
GPU5 NV12 NV12 NV12 NV12 NV12 X NV12 NV12 SYS SYS SYS PXB 112-127 7
GPU6 NV12 NV12 NV12 NV12 NV12 NV12 X NV12 SYS SYS PXB SYS 80-95 5
GPU7 NV12 NV12 NV12 NV12 NV12 NV12 NV12 X SYS SYS PXB SYS 80-95 5
mlx5_0 SYS SYS PXB PXB SYS SYS SYS SYS X SYS SYS SYS
mlx5_1 PXB PXB SYS SYS SYS SYS SYS SYS SYS X SYS SYS
mlx5_2 SYS SYS SYS SYS SYS SYS PXB PXB SYS SYS X SYS
mlx5_3 SYS SYS SYS SYS PXB PXB SYS SYS SYS SYS SYS X
Legend:
X = Self
SYS = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
PIX = Connection traversing at most a single PCIe bridge
NV# = Connection traversing a bonded set of # NVLinks
코드블록. GPU 드라이버 및 HW 상태 확인NVSwitch HW 상태를 확인하세요.
user@bm-dev-001:~$ nvidia-smi nvlink --status
GPU 0: NVIDIA A100-SXM4-80GB (UUID: GPU-2c0d1d6b-e348-55fc-44cf-cd65a954b36c)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 1: NVIDIA A100-SXM4-80GB (UUID: GPU-96f429d8-893a-a9ea-deca-feffd90669e9)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 2: NVIDIA A100-SXM4-80GB (UUID: GPU-2e601952-b442-b757-a035-725cd320f589)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 3: NVIDIA A100-SXM4-80GB (UUID: GPU-bcbfd885-a9f8-ec8c-045b-c521472b4fed)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 4: NVIDIA A100-SXM4-80GB (UUID: GPU-30273090-2d78-fc7a-a360-ec5f871dd488)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 5: NVIDIA A100-SXM4-80GB (UUID: GPU-5ce7ef61-56dd-fb18-aa7c-be610c8d51c3)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 6: NVIDIA A100-SXM4-80GB (UUID: GPU-740a527b-b286-8b85-35eb-b6b41c0bb6d7)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 7: NVIDIA A100-SXM4-80GB (UUID: GPU-1fb6de95-60f6-dbf2-ffca-f7680577e37c)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
user@bm-dev-001:~$ nvidia-smi nvlink --status
GPU 0: NVIDIA A100-SXM4-80GB (UUID: GPU-2c0d1d6b-e348-55fc-44cf-cd65a954b36c)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 1: NVIDIA A100-SXM4-80GB (UUID: GPU-96f429d8-893a-a9ea-deca-feffd90669e9)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 2: NVIDIA A100-SXM4-80GB (UUID: GPU-2e601952-b442-b757-a035-725cd320f589)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 3: NVIDIA A100-SXM4-80GB (UUID: GPU-bcbfd885-a9f8-ec8c-045b-c521472b4fed)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 4: NVIDIA A100-SXM4-80GB (UUID: GPU-30273090-2d78-fc7a-a360-ec5f871dd488)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 5: NVIDIA A100-SXM4-80GB (UUID: GPU-5ce7ef61-56dd-fb18-aa7c-be610c8d51c3)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 6: NVIDIA A100-SXM4-80GB (UUID: GPU-740a527b-b286-8b85-35eb-b6b41c0bb6d7)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
GPU 7: NVIDIA A100-SXM4-80GB (UUID: GPU-1fb6de95-60f6-dbf2-ffca-f7680577e37c)
Link 0: 25 GB/s
Link 1: 25 GB/s
Link 2: 25 GB/s
Link 3: 25 GB/s
Link 4: 25 GB/s
Link 5: 25 GB/s
Link 6: 25 GB/s
Link 7: 25 GB/s
Link 8: 25 GB/s
Link 9: 25 GB/s
Link 10: 25 GB/s
Link 11: 25 GB/s
코드블록. NVSwitch HW 상태 확인InfiniBand(IB) HCA 카드 HW 상태와 Link를 확인하세요.
user@bm-dev-001:~$ ibdev2netdev -v
cat: /sys/class/infiniband/mlx5_0/device/vpd: Permission denied
0000:45:00.0 mlx5_0 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs18 (Down)
cat: /sys/class/infiniband/mlx5_1/device/vpd: Permission denied
0000:0e:00.0 mlx5_1 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs17 (Down)
cat: /sys/class/infiniband/mlx5_2/device/vpd: Permission denied
0000:c5:00.0 mlx5_2 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs20 (Down)
cat: /sys/class/infiniband/mlx5_3/device/vpd: Permission denied
0000:85:00.0 mlx5_3 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs19 (Down)
user@bm-dev-001:~$
root@bm-dev-001:~# ibstat
CA 'mlx5_0'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff5060ac
System image GUID: 0x88e9a4ffff5060ac
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 8
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff5060ac
Link layer: InfiniBand
CA 'mlx5_1'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff504080
System image GUID: 0x88e9a4ffff504080
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 5
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff504080
Link layer: InfiniBand
CA 'mlx5_2'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff505038
System image GUID: 0x88e9a4ffff505038
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 2
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff505038
Link layer: InfiniBand
CA 'mlx5_3'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff504094
System image GUID: 0x88e9a4ffff504094
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 7
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff504094
Link layer: InfiniBand
user@bm-dev-001:~$ ibdev2netdev -v
cat: /sys/class/infiniband/mlx5_0/device/vpd: Permission denied
0000:45:00.0 mlx5_0 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs18 (Down)
cat: /sys/class/infiniband/mlx5_1/device/vpd: Permission denied
0000:0e:00.0 mlx5_1 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs17 (Down)
cat: /sys/class/infiniband/mlx5_2/device/vpd: Permission denied
0000:c5:00.0 mlx5_2 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs20 (Down)
cat: /sys/class/infiniband/mlx5_3/device/vpd: Permission denied
0000:85:00.0 mlx5_3 (MT4123 - ) fw 20.29.1016 port 1 (ACTIVE) ==> ibs19 (Down)
user@bm-dev-001:~$
root@bm-dev-001:~# ibstat
CA 'mlx5_0'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff5060ac
System image GUID: 0x88e9a4ffff5060ac
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 8
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff5060ac
Link layer: InfiniBand
CA 'mlx5_1'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff504080
System image GUID: 0x88e9a4ffff504080
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 5
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff504080
Link layer: InfiniBand
CA 'mlx5_2'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff505038
System image GUID: 0x88e9a4ffff505038
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 2
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff505038
Link layer: InfiniBand
CA 'mlx5_3'
CA type: MT4123
Number of ports: 1
Firmware version: 20.29.1016
Hardware version: 0
Node GUID: 0x88e9a4ffff504094
System image GUID: 0x88e9a4ffff504094
Port 1:
State: Active
Physical state: LinkUp
Rate: 200
Base lid: 7
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x88e9a4ffff504094
Link layer: InfiniBand
코드블록. InfiniBand(IB) HCA 카드 HW 상태 및 Link 확인
IB bandwidth 통신 확인
IB bandwidth 통신 상태를 확인(ib_send_bw)하여 IaaS HW 레벨을 점검하려면 다음 절차를 따르세요.
IB HCA 인터페이스의 이름을 확인하세요.
user@bm-dev-001:~$ ibdev2netdev
mlx5_0 port 1 ==> ibs18 (Down)
mlx5_1 port 1 ==> ibs17 (Down)
mlx5_2 port 1 ==> ibs20 (Down)
mlx5_3 port 1 ==> ibs19 (Down)
user@bm-dev-001:~$ ibdev2netdev
mlx5_0 port 1 ==> ibs18 (Down)
mlx5_1 port 1 ==> ibs17 (Down)
mlx5_2 port 1 ==> ibs20 (Down)
mlx5_3 port 1 ==> ibs19 (Down)
코드블록. IB HCA 인터페이스의 이름 확인IB스위치#1과 통신이 가능한 HCA 인터페이스를 확인하세요.
mlx5_0 port 1 ==> ibs18 (Down)
mlx5_2 port 1 ==> ibs20 (Down)
mlx5_0 port 1 ==> ibs18 (Down)
mlx5_2 port 1 ==> ibs20 (Down)
코드블록. HCA 인터페이스 확인IB스위치#2와 통신이 가능한 HCA 인터페이스를 확인하세요.
mlx5_1 port 1 ==> ibs17 (Down)
mlx5_3 port 1 ==> ibs19 (Down)
mlx5_1 port 1 ==> ibs17 (Down)
mlx5_3 port 1 ==> ibs19 (Down)
코드블록. HCA 인터페이스 확인SERVER Side 명령어를 사용하여 상호 통신 상태를 확인하세요.
Client Side 명령어를 2차로 입력하여 상호 통신user@bm-dev-001:~$ ib_send_bw -d mlx5_3 -i 1 –F
************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
Send BW Test
Dual-port : OFF Device : mlx5_3
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
PCIe relax order: ON
ibv_wr* API : ON
RX depth : 512
CQ Moderation : 1
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x07 QPN 0x002e PSN 0xa86622
remote address: LID 0x0a QPN 0x002d PSN 0xfc58dd
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
65536 1000 0.00 19827.40 0.317238
---------------------------------------------------------------------------------------
user@bm-dev-001:~$ ib_send_bw -d mlx5_3 -i 1 –F
************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
Send BW Test
Dual-port : OFF Device : mlx5_3
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
PCIe relax order: ON
ibv_wr* API : ON
RX depth : 512
CQ Moderation : 1
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x07 QPN 0x002e PSN 0xa86622
remote address: LID 0x0a QPN 0x002d PSN 0xfc58dd
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
65536 1000 0.00 19827.40 0.317238
---------------------------------------------------------------------------------------
코드블록. 통신 상태 확인
CLIENT Side 명령어를 사용하여 상호 통신 상태를 확인하세요.
SERVER Side 명령어를 1차로 입력하여 상호 통신root@bm-dev-003:~# ib_send_bw -d mlx5_3 -i 1 -F <SERVER Side IP>
---------------------------------------------------------------------------------------
Send BW Test
Dual-port : OFF Device : mlx5_3
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
PCIe relax order: ON
ibv_wr* API : ON
TX depth : 128
CQ Moderation : 1
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x0a QPN 0x002a PSN 0x98a48e
remote address: LID 0x07 QPN 0x002c PSN 0xe68304
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
65536 1000 19008.49 19006.37 0.304102
---------------------------------------------------------------------------------------
root@bm-dev-003:~# ib_send_bw -d mlx5_3 -i 1 -F <SERVER Side IP>
---------------------------------------------------------------------------------------
Send BW Test
Dual-port : OFF Device : mlx5_3
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
PCIe relax order: ON
ibv_wr* API : ON
TX depth : 128
CQ Moderation : 1
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x0a QPN 0x002a PSN 0x98a48e
remote address: LID 0x07 QPN 0x002c PSN 0xe68304
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
65536 1000 19008.49 19006.37 0.304102
---------------------------------------------------------------------------------------
코드블록. 통신 상태 확인
IB 서비스 유관 커널 모듈 확인
IB 서비스 유관 커널 모듈을 확인(lsmod)하여 IaaS HW 레벨을 점검하세요.
user@bm-dev-001:~$ lsmod | grep nv_peer_mem
nv_peer_mem 16384 0
ib_core 315392 9 rdma_cm,ib_ipoib,nv_peer_mem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm
nvidia 35315712 156 nvidia_uvm,nv_peer_mem,nvidia_modeset
user@bm-dev-001:~$ lsmod | grep nv_peer_mem
nv_peer_mem 16384 0
ib_core 315392 9 rdma_cm,ib_ipoib,nv_peer_mem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm
nvidia 35315712 156 nvidia_uvm,nv_peer_mem,nvidia_modeset
코드블록. IB 서비스 유관 커널 모듈 확인(1)user@bm-dev-001:~$ service nv_peer_mem status
nv_peer_mem.service - LSB: Activates/Deactivates nv_peer_mem to \ start at boot time.
Loaded: loaded (/etc/init.d/nv_peer_mem; generated)
Active: active (exited) since Mon 2023-03-13 16:21:33 KST; 2 days ago
Docs: man:systemd-sysv-generator(8)
Process: 4913 ExecStart=/etc/init.d/nv_peer_mem start (code=exited, status=0/SUCCESS)
user@bm-dev-001:~$ service nv_peer_mem status
nv_peer_mem.service - LSB: Activates/Deactivates nv_peer_mem to \ start at boot time.
Loaded: loaded (/etc/init.d/nv_peer_mem; generated)
Active: active (exited) since Mon 2023-03-13 16:21:33 KST; 2 days ago
Docs: man:systemd-sysv-generator(8)
Process: 4913 ExecStart=/etc/init.d/nv_peer_mem start (code=exited, status=0/SUCCESS)
코드블록. IB 서비스 유관 커널 모듈 확인(2)user@bm-dev-001:~$ lsmod | grep ib
libiscsi_tcp 32768 1 iscsi_tcp
libiscsi 57344 2 libiscsi_tcp,iscsi_tcp
scsi_transport_iscsi 110592 4 libiscsi_tcp,iscsi_tcp,libiscsi
ib_ipoib 131072 0
ib_cm 57344 2 rdma_cm,ib_ipoib
ib_umad 24576 8
mlx5_ib 380928 0
ib_uverbs 135168 18 rdma_ucm,mlx5_ib
ib_core 315392 9 rdma_cm,ib_ipoib,nv_peer_mem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm
libcrc32c 16384 2 btrfs,raid456
mlx5_core 1458176 1 mlx5_ib
auxiliary 16384 2 mlx5_ib,mlx5_core
mlx_compat 65536 12 rdma_cm,ib_ipoib,mlxdevm,iw_cm,auxiliary,ib_umad,ib_core,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm,mlx5_core
user@bm-dev-001:~$ lsmod | grep ib
libiscsi_tcp 32768 1 iscsi_tcp
libiscsi 57344 2 libiscsi_tcp,iscsi_tcp
scsi_transport_iscsi 110592 4 libiscsi_tcp,iscsi_tcp,libiscsi
ib_ipoib 131072 0
ib_cm 57344 2 rdma_cm,ib_ipoib
ib_umad 24576 8
mlx5_ib 380928 0
ib_uverbs 135168 18 rdma_ucm,mlx5_ib
ib_core 315392 9 rdma_cm,ib_ipoib,nv_peer_mem,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm
libcrc32c 16384 2 btrfs,raid456
mlx5_core 1458176 1 mlx5_ib
auxiliary 16384 2 mlx5_ib,mlx5_core
mlx_compat 65536 12 rdma_cm,ib_ipoib,mlxdevm,iw_cm,auxiliary,ib_umad,ib_core,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm,mlx5_core
코드블록. IB 서비스 유관 커널 모듈 확인(3)스토리지 물리 디스크 자원 및 Multi-Path 확인
스토리지 물리 디스크 자원 및 Multi-Path를 확인하여 IaaS HW 레벨을 점검하세요.
root@bm-dev-002:/tmp# fdisk –l
root@bm-dev-002:/tmp# fdisk –l
코드블록. 스토리지 물리 디스크 자원 확인 결과root@bm-dev-002:/tmp# multipath –ll
root@bm-dev-002:/tmp# multipath –ll
코드블록. Multi-Path 확인 결과Multi-node GPU Cluster 신규 배포 후 Service Network 확인
다음 명령어를 이용하여 Bonding 및 Slave Interface의 MII Status가 up인지 확인하세요.
명령어
root@mngc-001:~# cat /proc/net/bonding/bond-srv
Ethernet Channel Bonding Driver: v5.15.0-25-generic
root@mngc-001:~# cat /proc/net/bonding/bond-srv
Ethernet Channel Bonding Driver: v5.15.0-25-generic
코드블록. Service Network 확인 명령어확인 결과
Bonding Mode: fault-tolerance (active-backup)
Primary Slave: None
Currently Active Slave: ens9f0
MII Status: up
MII Polling Interval (ms): 100
Up Delay (ms): 0
Down Delay (ms): 0
Peer Notification Delay (ms): 0
Slave Interface: ens9f0
MII Status: up
Speed: 100000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 30:3e:a7:02:35:70
Slave queue ID: 0
Slave Interface: ens11f0
MII Status: up
Speed: 100000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 30:3e:a7:02:2f:e8
Slave queue ID: 0
Bonding Mode: fault-tolerance (active-backup)
Primary Slave: None
Currently Active Slave: ens9f0
MII Status: up
MII Polling Interval (ms): 100
Up Delay (ms): 0
Down Delay (ms): 0
Peer Notification Delay (ms): 0
Slave Interface: ens9f0
MII Status: up
Speed: 100000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 30:3e:a7:02:35:70
Slave queue ID: 0
Slave Interface: ens11f0
MII Status: up
Speed: 100000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 30:3e:a7:02:2f:e8
Slave queue ID: 0
코드블록. Service Network 확인 명령어 확인 결과
참고
일부 Slave Interface가 down 상태일 경우, Support Center의 문의하기를 이용하여 이상 상황을 전달하고 조치받으세요.
Multi-node GPU Cluster 신규 배포 후 Time Server와 시간 동기화 확인
OS 이미지에는 chrony 데몬 설치 및 SCP NTP 서버 동기화가 설정되어 있습니다. 다음 명령어를 이용하여 MS Name 열에 ^*로 표기된 라인이 있는지 확인하세요.
명령어
root@mngc-001:~# chronyc sources -V
root@mngc-001:~# chronyc sources -V
코드블록. chrony 데몬 설치 명령어확인 결과
MS Name/IP address Stratum Poll Reach LastRx Last sample
===============================================================================
^+ 198.19.1.53 4 10 377 1040 -16us[ -37us] +/- 9982us
^* 198.19.1.54 4 10 377 312 -367us[ -388us] +/- 13ms
MS Name/IP address Stratum Poll Reach LastRx Last sample
===============================================================================
^+ 198.19.1.53 4 10 377 1040 -16us[ -37us] +/- 9982us
^* 198.19.1.54 4 10 377 312 -367us[ -388us] +/- 13ms
코드블록. chrony 데몬 설치 확인 결과
GPU MIG/ECC 설정 초기화 점검 가이드
Multi-node GPU Cluster 상품 신청 시 GPU MIG/ECC 설정을 초기화합니다. 하지만 정확한 설정값을 적용하기 위하여 최초 한 번 리부팅을 진행한 후, 점검 가이드에 따라 설정값 적용 여부를 직접 확인하고 사용해주시기 바랍니다.
참고
- MIG: Multi-Instance GPU
- ECC: Error Correction Code
MIG 설정 초기화
MIG 설정값을 확인하고 초기화하는 방법은 다음을 참조하세요.
다음 명령어를 사용하여 MIG M.의 상태값이 Disabled인지 확인하세요.
ECC 설정 초기화
ECC 설정값을 확인하고 초기화하는 방법은 다음을 참조하세요.
다음 명령어를 사용하여 Volatile Uncorr. ECC의 상태값이 Off인지 확인하세요.
명령어
root@bm-dev-001:~#nvidia-smi
root@bm-dev-001:~#nvidia-smi
코드블록. ECC 설정 명령어확인 결과
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 470.129.06 Driver version: 470.129.06 CUDA Version: 11.4 |
|----------------------------------+-----------------------------+------------------------|
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|==================================+=============================+========================|
| 0 NVIDIA A100-SXM... Off | 00000000:03:00.0 Off | Off |
| N/A 29C P0 57W / 400W | 0MiB / 81251MiB | 0% Default |
| | | Disabled |
+----------------------------------+-----------------------------+------------------------+
| 0 NVIDIA A100-SXM... Off | 00000000:0C:00.0 Off | Off |
| N/A 30C P0 61W / 400W | 0MiB / 81251MiB | 18% Default |
| | | Disabled |
+-----------------------------------------------------------------------------------------+
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 470.129.06 Driver version: 470.129.06 CUDA Version: 11.4 |
|----------------------------------+-----------------------------+------------------------|
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|==================================+=============================+========================|
| 0 NVIDIA A100-SXM... Off | 00000000:03:00.0 Off | Off |
| N/A 29C P0 57W / 400W | 0MiB / 81251MiB | 0% Default |
| | | Disabled |
+----------------------------------+-----------------------------+------------------------+
| 0 NVIDIA A100-SXM... Off | 00000000:0C:00.0 Off | Off |
| N/A 30C P0 61W / 400W | 0MiB / 81251MiB | 18% Default |
| | | Disabled |
+-----------------------------------------------------------------------------------------+
코드블록. ECC 설정 확인 결과Volatile Uncorr. ECC의 상태값이 On*일 경우, 리부팅을 진행하세요.
Volatile Uncorr. ECC의 상태값이 On*이나 Off가 아닐 경우, 다음 명령어를 사용하여 ECC를 초기화하세요. 초기화가 끝나면 리부팅 후, 상태값이 Off인지 확인하세요.
root@bm-dev-001:~# nvidia-smi --ecc-config=0
root@bm-dev-001:~# nvidia-smi --ecc-config=0
코드블록. ECC 상태값 확인