Overview
서비스 개요
Data Ops는 주기적 또는 반복적으로 발생하는 데이터 처리 작업에 대해 워크플로우를 작성하고, 작업 스케줄링을 자동화하는 Apache Airflow 기반의 관리형 워크플로우 오케스트레이션 서비스입니다. 사용자는 유용한 데이터를 필요한 시간에 올바른 장소로 가져오는 프로세스를 자동화하고, 데이터 파이프라인의 구성 및 진행 상황을 모니터링할 수 있습니다.
제공 기능
Data Ops는 다음과 같은 기능을 제공하고 있습니다.
- 편리한 설치 및 관리: Data Ops는 표준 Kubernetes 클러스터 환경에서 웹 기반 Console을 통해 손쉽게 설치가 가능합니다. Apache Airflow와 관리 모듈이 자동 설치되며, 통합 대시보드를 통해 웹 서버 및 스케줄러의 실행 상태에 대한 통합 모니터링이 가능합니다.
- 동적 파이프라인 구성: Python 코드를 기반으로 데이터 작업에 대한 파이프라인 구성이 가능합니다. 데이터 작업 예약과 연동하여 동적으로 작업을 생성하기 때문에 원하는 워크플로우 형태와 스케줄링을 자유롭게 구성할 수 있습니다.
- 편리한 워크플로우 관리: DAG (Direct Acyclic Graph: 방향성 비순환 그래프) 구성을 웹 기반의 UI를 통해 시각화하여 관리하기 때문에 데이터 흐름의 전후 및 병렬 관계를 쉽게 이해할 수 있습니다. 또한 각 작업의 타임아웃, 재시도 횟수, 우선순위 정의 등을 손쉽게 관리할 수 있습니다.
구성 요소
Data Ops는 Manager와 Service 모듈로 구성되며, Apache Airflow를 패키징하여 제공합니다.
Data Ops Manager
Data Ops Manager는 Airflow를 더 효율적으로 활용할 수 있도록 다양한 Managing 기능을 제공합니다.
- Ops Manager를 통해 Ops Service에서 사용할 Plugin File, Shared File, Python Library File을 업로드할 수 있습니다.
- 클러스터 내의 Airflow 구성 컴포넌트에 대한 설정 정보를 손쉽게 프로비저닝할 수 있습니다.
- Airflow 클러스터 내에 다른 서비스 설정 정보를 관리하고 쉽게 프로비저닝할 수 있습니다.
Data Ops Service
- Apache Airflow 기반의 관리형 워크플로우 오케스트레이션 서비스를 제공합니다.
- Airflow 제공시 Description, 필요한 자원규모, DAGs GitSync, Host Alias를 설정할 수 있습니다.
- 서비스 생성 이후에는 Description, 사용하는 자원규모, DAGs GitSync, Host Alias를 수정하여 서비스 반영할 수 있습니다.
서버 스펙 유형
Data Ops 서비스 생성 시 다음 내용을 확인하세요.
- 서비스 설치 권장 사양: CPU KubernetesExecutor 43 core, CPU CeleryExecutor 25 core, Memory 50 GB, 스토리지 100 GB 이상
참고
- Data Ops 서비스를 생성하기 전에 Ingress Controller 설치가 필요합니다.
- Kubernetes 클러스터에는 1개의 Ingress Controller만 설치할 수 있습니다.
- 자세한 내용은 Ingress Controller 설치하기를 참고하세요.
리전별 제공 현황
Data Ops는 아래의 환경에서 제공 가능합니다.
| 리전 | 제공 여부 |
|---|---|
| 한국 서부(kr-west1) | 제공 |
| 한국 동부(kr-east1) | 제공 |
| 한국 남부1(kr-south1) | 미제공 |
| 한국 남부2(kr-south2) | 미제공 |
| 한국 남부3(kr-south3) | 미제공 |
표. Data Ops 리전별 제공 현황
선행 서비스
해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해 주세요.
| 서비스 카테고리 | 서비스 | 상세 설명 |
|---|---|---|
| Storage | File Storage | 네트워크 연결을 통하여 다수의 클라이언트 서버가 파일을 공유하는 스토리지 |
| Container | Kubernetes Engine | Kubernetes 컨테이너 오케스트레이션 서비스 |
표. Data Ops 선행 서비스
