Data Ops 기반 워크플로우 작성 및 관리

Data Ops 기반 워크플로우 작성 및 관리

개요

Data Ops는 주기적, 반복적으로 발생하는 데이터 처리 작업에 대해 워크플로우를 작성하고 작업 스케줄링을 자동화하는 Apache Airflow 기반의 관리형 워크플로우 오케스트레이션 서비스입니다.

Samsung Cloud Platform의 Kubernetes Engine 클러스터 환경에서 단독으로 사용하거나, 다른 애플리케이션 S/W와 함께 사용할 수 있습니다.

아키텍처 다이어그램

구성도
그림. Data Ops 기반 워크플로우 관리
  1. System Manger는 주기적, 반복적인 데이터 처리 작업(추출/적재/변환/정제)의 워크플로우 관리를 위해 Data Ops 서비스를 신청합니다.

  2. Data Engineer는 Ops Manager를 통해 Data Ops 서비스의 설정을 수정하고 추가적인 플러그인/라이브러리 파일을 관리할 수 있습니다.

  3. Data Ops 서비스는 Apache Airflow를 기반으로 하고 있으며, DAG(Directed Acyclic Graph) 형식으로 Workflow를 작성, 스케줄링 및 모니터링할 수 있습니다.

    • 실제 작업이 실행되는 Worker는 Dynamic하게 실행됩니다.

  4. Data Flow, Cloud Hadoop, Legacy System, Object Storage 등의 다양한 시스템과 연계하여 워크플로우 기반 작업을 수행할 수 있습니다.

사용 사례

데이터 기반 (data driven) 워크플로우 오케스트레이션

Data Ops 는 데이터기반의 워크플로우, 특히 ETL / ELT를 오케스트레이션 할 수 있습니다.

워크플로우를 자동으로 Organizing, Monitoring, Execution 합니다.

Spark을 통해 실행 후 결과를 Cloud Hadoop에 저장하는 시나리오로 사용할 수 있습니다.

배치 워크로드

ETL 파이프라인 또는 ELT 작업에서 여러 소스에서 데이터를 가져오고 변환하는 작업을 수행하는 파이프라인으로 사용할 수 있습니다.

배치 프로세스의 가시성을 높이고 배치 작업을 분리해 개발 주기를 단축할 수 있습니다.

작업 실행 사이의 지연시간을 처리할 수 있는 배치처리작업에 적합합니다.

엔터프라이즈 스케줄링

Command shell, API, 엔터프라이즈 실행 컨테이너와 연계함으로써, 기존 애플리케이션 도구와 함께 스케줄링 할 수 있습니다.

기존 서비스와 통신하여 데이터 파이프라인 서비스를 오케스트레이션할 수 있습니다.

선결 사항

없음

제약 사항

없음

고려 사항

Data Ops 사용을 위해 클러스터 내 Ingress Controller가 존재해야 합니다.

관련 서비스

본 가이드에서 설명하는 기능 또는 구성과 연결되는 Samsung Cloud Platform의 서비스 목록입니다. 서비스 선택 및 설계 시에 참고하세요.

서비스군서비스상세 설명
ContainerKubernetes EngineKubernetes 컨테이너 오케스트레이션 서비스
StorageFile Storage네트워크 연결을 통하여 다수의 클라이언트 서버가 파일을 공유하는 스토리지
StorageObject Storage데이터 저장 및 검색에 용이한 객체 스토리지
NetworkingVPC클라우드 환경에서 독립된 가상 네트워크를 제공하는 서비스
NetworkingSecurity GroupVM의 트래픽을 제어하는 가상 방화벽
NetworkingLoad Balancer서버 트래픽 부하를 자동으로 분산하는 서비스
Data AnalyticsData Flow다양한 소스로부터 데이터를 추출/변환/전송하고 데이터 처리 흐름을 자동화하는 서비스
표. 관련 서비스 목록