ServiceWatch Agent 설치하기
사용자는 Multi-node GPU Cluster의 GPU Node에 ServiceWatch Agent를 설치하여 사용자 정의 지표와 로그를 수집할 수 있습니다.
참고
ServiceWatch Agent를 통한 사용자 정의 지표/로그 수집은 현재 Samsung Cloud Platform For Enterprise에서만 사용 가능합니다. 이외 오퍼링에서도 향후 제공 예정입니다.
주의
ServiceWatch Agent를 통한 지표 수집은 사용자 정의 지표로 구분되어 기본으로 수집되는 지표와는 달리 요금이 부과되므로, 불필요한 메트릭 수집 설정은 제거하거나 비활성화하기를 권장합니다.
ServiceWatch Agent
Multi-node GPU Cluster의 GPU Node에 ServiceWatch의 사용자 정의 지표 및 로그 수집을 위해 설치해야 하는 Agent는 크게 2가지로 나눌 수 있습니다. Prometheus Exporter와 Open Telemetry Collector 입니다.
| 구분 | 상세 설명 | |
|---|---|---|
| Prometheus Exporter | 특정 애플리케이션이나 서비스의 메트릭을 Prometheus가 스크랩(scrape)할 수 있는 형식으로 제공
| |
| Open Telemetry Collector | 분산 시스템의 메트릭, 로그와 같은 텔레메트리 데이터를 수집하고, 처리(필터링, 샘플링 등)한 후, 여러 백엔드(예: Prometheus, Jaeger, Elasticsearch 등)로 내보내는 중앙 집중식 수집기 역할
|
표. Prometheus Exporter와 Open Telemetry Collector 설명
안내
GPU Node에 Kubernetes Engine을 구성한 경우, Kubernetes Engine에서 제공되는 지표를 통해 GPU 지표를 확인하기 바랍니다.
- Kubernetes Engine이 구성되어 있는 GPU Node에 DCGM Exporter를 설치하게 되면 정상 동작하지 않을 수 있습니다.
참고
GPU Node의 GPU 지표 수집을 위한 ServiceWatch Agent 가이드는 GPU Server와 동일하게 사용할 수 있습니다.
자세한 내용은 GPU Server > ServiceWatch Agent를 참고하세요.