Overview

    서비스 개요

    AI&MLOps Platform은 머신러닝 모델의 개발, 학습, 배포 과정 전체 파이프라인의 반복적인 작업을 자동화하는 머신러닝 플랫폼입니다. AI&MLOps Platform 서비스를 통해 Kubernetes 기반의 AI/MLOps 환경을 기반으로, 학습 데이터와 모델, 운영 데이터의 통합적인 관리가 가능합니다.

    AI&MLOps Platform은 머신러닝 모델의 개발, 학습, 튜닝, 배포 기능을 활용할 수 있는 오픈소스 상품인 Kubeflow.Mini 서비스와 분산학습 Job 실행 및 모니터링 등 Add-on 기능을 추가한 Enterprise 서비스를 제공합니다.

    참고
    AI&MLOps Platform 관련 사이트는 Kubeflow를 참고하세요.

    특장점

    • Cloud Native MLOps 환경 제공: AI&MLOps Platform은 클라우드에 최적화된 머신러닝 모델 개발 환경을 제공하며, Kubernetes 기반으로 다양한 오픈소스와의 연계가 편리합니다.

    • 머신 러닝 개발 및 운영 편의성: TensorFlow, PyTorch, scikit-learn, Keras 등 다양한 머신러닝 프레임워크를 지원하는 표준화된 환경을 제공합니다. 머신러닝 모델의 개발, 학습, 배포 과정의 전체 Pipeline을 자동화하여 제공함으로써 모델 구성 및 생성이 쉽고 재사용이 용이합니다.

    • GPU 연계 활용 강화: Bare Metal Server 기반의 Multi Node GPU 및 GPUDirect RDMA(Remote Direct Memory Access)를 통해 LLM(Large Language Model)과 자연어처리(NLP)의 Job 속도를 획기적으로 개선할 수 있습니다.

    서비스 구성도

    구성도
    그림. AI&MLOps Platform 구성도

    제공 기능

    AI&MLOps Platform은 다음과 같은 기능을 제공하고 있습니다.

    • ML 모델 개발 환경 및 기능

      • Notebook 제공: ML Framework(Tensorflow, Pytorch 등)를 포함한 Jupyter Notebook과 VS Code를 생성합니다.
      • TensorBoard: TensorBoard(*ML 모델 학습과정 시각화/분석 도구) 서버를 생성하고 관리합니다.
      • Volumes: ML 모델 개발 시 데이터셋과 모델 저장, Jupyter Notebook 생성 시 Volume 연결하여 사용합니다.
    • ML 모델 분산훈련 Job 수행/관리

      • 분산학습 Job 실행 및 모니터링, 추론서비스 관리 및 분석을 지원합니다. (Add-on)
      • Job Queue 관리 등 MLOps 환경 구성을 위한 다양한 기능을 제공합니다. (Add-on)
      • Job Scheduler(FIFO, Bin-packing, Gang 기반), GPU Fraction, GPU 자원 모니터링 등 효율적인 GPU 자원 활용 기능을 제공합니다. (Add-on)
      • BM 기반의 Multi Node GPU 및 GPU Direct RDMA(Remote Direct Memory Access)를 통해LLM(Large Language Model)과 자연어처리(NLP)의 Job 속도를 획기적으로 개선하였습니다. (Add-on)
    • ML 모델 실험관리 및 파이프라인

      • ML 파이프라인 실험관리를 위한 Experiments(KFP)를 제공합니다.
      • ML Task를 단계적으로 구성하여 실행하기 위한 Pipeline 자동화 구성 기능을 지원합니다.

    구성 요소

    운영체제 버전

    AI&MLOps Platform에서 지원하는 운영체제는 다음과 같습니다.

    운영체제(OS)버전
    RHELRHEL 8.3
    UbuntuUbuntu 18.04, Ubuntu 20.04, Ubuntu 22.04
    표. 지원하는 운영체제 버전

    리전별 제공 현황

    AI&MLOps Platform은 아래의 환경에서 제공 가능합니다.

    리전제공 여부
    한국 서부(kr-west1)제공
    한국 동부(kr-east1)제공
    한국 남부1(kr-south1)미제공
    한국 남부2(kr-south2)미제공
    한국 남부3(kr-south3)미제공
    표. AI&MLOps Platform 리전별 제공 현황

    선행 서비스

    해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비하세요.

    서비스 카테고리서비스상세 설명
    ContainerKubernetes EngineKubernetes 컨테이너 오케스트레이션 서비스
    표. AI&MLOps Platform 선행 서비스