ServiceWatch Agent 설치하기

사용자는 Multi-node GPU Cluster의 GPU Node에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.

참고
ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.

ServiceWatch Agent

Multi-node GPU Cluster의 GPU Node에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.

구분상세 설명
Prometheus Exporter특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
  • GPU Node의 OS 지표 수집을 위해서 OS 타입에 따라 Linux 서버를 위한 Node Exporter와 Windows 서버를 위한 Windows Exporter를 사용할 수 있음.
    • GPU Node에서 OS 지표 수집을 위해서 Virtual Server와 마찬가지로 Node Exporter를 사용할 수 있으며 자세한 내용은 Virtual Server > ServiceWatch Agent 참고
Open Telemetry Collector분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
  • ServiceWatch Gateway로 데이터를 내보내서 ServiceWatch에서 지표 및 로그 데이터를 수집할 수 있도록 함.
표. Prometheus Exporter와 Open Telemetry Collector 설명
안내

GPU Node에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.

  • Kubernetes Engine이 구성되어 있는 GPU Node에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
참고
GPU Node의 GPU 지표 수집을 위한 ServiceWatch Agent 가이드는 GPU Server와 동일하게 사용할 수 있습니다. 자세한 내용은 GPU Server > ServiceWatch Agent를 참고하세요.
Cluster Fabric 관리
Multi-node GPU Cluster 서비스 범위 및 점검 가이드