GPU Server에서 NVSwitch 사용하기

GPU Server를 생성한 후 GPU Server의 VM(Guest OS)에서 NVSwitch 기능을 활성화하고 GPU 간 P2P(GPU to GPU)통신을 빠르게 사용할 수 있습니다.

Multi GPU를 위한 NVIDIA NVSwitch 살펴보기

NVIDIA A100 GPU서버는 NVIDIA 암페어(Ampere) 아키텍처를 기반으로 하는 멀티 GPU로, 베이스보드에는 8개의 Ampere 80 GB GPU가 장착되어 있습니다. 베이스보드에 장착된 GPU들은 NVLink 포트를 통해 6개의 NVSwitch와 연결됩니다. 베이스보드에 있는 GPU 간 통신은 600 GBps 대역폭 전체를 활용해 이루어집니다. 이런 이유로 A100 GPU 서버에 장착된 8개의 GPU가 마치 하나처럼 연결되어 동작 할 수 있으므로, GPU to GPU 사용률을 극대화 할 수 있습니다.

  • NVLink(25 GBps) 12개 Lane 8 GPU 구성도
NVLink(25 GBps) 12개 Lane 8 GPU 구성도
그림. NVLink(25 GBps) 12개 Lane 8 GPU 구성도
  • NVSwitch(600 GBps) 6개 8 GPU 구성도
NVSwitch(600 GBps) 6개 8 GPU 구성도
그림. NVSwitch(600 GBps) 6개 8 GPU 구성도

GPU NVSwitch 생성하기

GPU NVSwitch 기능을 사용하려면 Samsung Cloud Platform에서 GPU Server 서비스를 생성한 후, A100 GPU 8개가 할당된 VM Instance(GuestOS)를 생성하고 Fabricmanager를 활성화합니다.

주의
  • NVSwitch는 단일 GPU Server에 8개의 A100 GPU를 할당한 상품(g1v128a8 (vCPU 128 | Memory 1920G | A100(80GB)*8))의 경우에만 Fabricmanager를 활성화하여 사용할 수 있습니다.
  • 현재 Windows OS로 생성된 GPU Server에서는 NVSwitch (Fabricmanager)를 지원하지 않습니다.

NVSwitch 설치 및 동작 확인하기(Fabricmanager 활성화)

NVSwitch를 구동하려면 GPU Instance에서 Fabricmanager를 설치하고 다음 절차를 따르세요.

  1. GPU 서버에 NVIDIA GPU Driver (470.52.02 Version)를 설치하세요.

    배경색 변경
    $ add-apt-repository ppa:graphics-drivers/ppa
    $ apt-get update
    $ apt-get install nvidia-driver-470-server
    $ add-apt-repository ppa:graphics-drivers/ppa
    $ apt-get update
    $ apt-get install nvidia-driver-470-server
    코드블록. NVIDIA GPU Driver 설치

  2. GPU 서버에 NVIDIA Fabric Manager (470 Version)를 설치하고 구동하세요(For NVSwitch).

    배경색 변경
    $ apt-get install cuda-drivers-fabricmanager-470
    $ systemctl enable nvidia-fabricmanager
    $ systemctl start nvidia-fabricmanager
    $ apt-get install cuda-drivers-fabricmanager-470
    $ systemctl enable nvidia-fabricmanager
    $ systemctl start nvidia-fabricmanager
    코드블록. NVIDIA Fabric Manager 설치 및 구동

  3. GPU 서버에 NVIDIA Fabric Manager 구동 상태를 확인하세요.

    • 정상 구동 시 active (running) 표시
      배경색 변경
      $ systemctl status nvidia-fabricmanager
      $ systemctl status nvidia-fabricmanager
      코드블록. NVIDIA Fabric Manager 구동 상태 확인
NVSwitch 설치 - Fabric Manager 구동 상태 확인
그림. NVSwitch 설치 - Fabric Manager 구동 상태 확인
  1. GPU 서버에 NVSwitch 구동 상태를 확인하세요.
    • 정상 구동 시 NV12 표시
      배경색 변경
      $ nvidia-smi topo --matrix
      $ nvidia-smi topo --matrix
      코드블록. NVSwitch 구동 상태 확인
NVSwitch 설치 - NVSwitch 구동 상태 확인
그림. NVSwitch 설치 - NVSwitch 구동 상태 확인
GPU Server에서 Multi-instance GPU 사용하기
ServiceWatch Agent 설치하기