Overview

서비스 개요

Data Flow는 다양한 데이터 소스로부터 대용량의 데이터를 추출하고, 스트림/배치 데이터의 변환/전송에 대한 처리 흐름을 시각적으로 작성하는 데이터 처리 흐름 도구로, 오픈소스 Apache NiFi를 제공합니다. Data Flow는 Samsung Cloud Platform의 Kubernetes Engine 클러스터 환경에서 단독으로 사용하거나, 다른 애플리케이션 SW와 함께 사용할 수 있습니다.

구성도
그림. Data Flow 구성도

제공 기능

Data Flow는 다음과 같은 기능을 제공하고 있습니다.

  • 편리한 설치 및 관리: Data Flow는 표준 Kubernetes 클러스터 환경에서 웹 기반 Samsung Cloud Platform Console을 통해 손쉽게 설치가 가능합니다. 오픈소스 Apache NiFi 기반의 확장형 클러스터링에 필요한 아키텍처를 자동으로 구성하여, ZooKeeper, Registry 및 관리 모듈이 자동 설치됩니다. Data Flow를 통해 서비스 연결에 필요한 설정 파일, NiFi 템플릿 등을 설정/배포할 수 있습니다.
  • 손쉬운 데이터 흐름 관리: 스트림/배치 데이터의 처리 흐름을 사용자 환경에 맞게 GUI 기반으로 쉽게 작성할 수 있으며, GUI 기반의 데이터 처리 흐름 작성으로 시스템 간 데이터를 효율적으로 추출/전송/처리할 수 있습니다.
  • NiFi 템플릿 갤러리: 레퍼런스 NiFi 템플릿을 공유/배포할 수 있습니다. Data Flow는 현업에서 자주 사용하는 데이터 처리 흐름에 대한 작업 파일을 갤러리로 제공하며, 사용자는 자신이 작성한 데이터 처리 흐름 작업을 공유할 수 있습니다.

구성 요소

Data Flow는 Manager와 Service 모듈로 구성되며, Apache NiFi를 패키징하여 제공합니다.

Data Flow Manager

Data Flow Manager는 NiFi를 더 효율적으로 활용할 수 있도록 다양한 Managing 기능을 제공합니다.

  • Data Flow Manager를 통해 고객이 생성한 Nar File을 업로드하여 Processor에서 사용하고, 설정 파일들을 업로드하여 공유할 수 있습니다.
  • NiFi Template 중에 사용 빈도가 높은 Template을 자산화하여 Gallery로 제공하며, 클릭 한 번으로 바로 사용 가능합니다.
  • Native NiFi Service를 위해 구성된 여러 Service에 대한 실시간 모니터링 및 자원 현황 모니터링을 제공합니다.
  • 클러스터 내의 NiFi 구성 컴포넌트에 대한 설정 정보를 손쉽게 프로비저닝할 수 있습니다.

Data Flow Service

  • Apache NiFi 기반의 데이터 플로우 관리 서비스를 제공합니다.
  • Apache NiFi 기반의 확장형 클러스터링에 필요한 아키텍처를 자동으로 구성하며, Nifi, ZooKeeper, Nifi Registry 모듈이 자동 설치됩니다.
  • Nifi 제공시 Description, 필요한 자원 규모, 접속 ID/PW, Host Alias를 설정할 수 있습니다.
  • 서비스 생성 이후 Description, 필요한 자원규모, 접속 password, Host Alias 등을 수정하여 서비스에 반영할 수 있습니다.

서버 스펙 유형

Data Flow 서비스 생성시 다음 내용을 확인하세요.

  • 서비스 설치 권장 사양: CPU 21 core, Memory 57 GB, 스토리지 100 GB 이상
참고
  • Data Flow 서비스를 생성하기 전에 Ingress Controller 설치가 필요합니다.
  • Kubernetes 클러스터에는 1개의 Ingress Controller만 설치할 수 있습니다.
  • 자세한 내용은 Ingress Controller 설치하기를 참고하세요.

리전별 제공 현황

Data Flow는 아래의 환경에서 제공 가능합니다.

리전제공 여부
한국 서부(kr-west1)제공
한국 동부(kr-east1)제공
한국 남부1(kr-south1)미제공
한국 남부2(kr-south2)미제공
한국 남부3(kr-south3)미제공
표. Data Flow 리전별 제공 현황

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비해 주세요.

서비스 카테고리서비스상세 설명
StorageFile Storage네트워크 연결을 통하여 다수의 클라이언트 서버가 파일을 공유하는 스토리지
ContainerKubernetes EngineKubernetes 컨테이너 오케스트레이션 서비스
표. Data Flow 선행 서비스
Release Note
How-to guides