Overview

서비스 개요

AIOS는 Samsung Cloud Platform에서 Virtual Server, GPU Server, Kubernetes Engine 자원을 생성한 후, 별도의 LLM 서비스 설치나 설정 없이 해당 자원에서 LLM을 사용하여 AI 애플리케이션의 개발을 할 수 있는 환경을 제공합니다.

특장점

  • 편리한 LLM 사용 Samsung Cloud Platform에서 Virtual Server, GPU Server, Kubernetes Engine 자원에서 바로 LLM을 이용할 수 있는 LLM Endpoint를 기본으로 제공합니다.
  • AI 개발 생산성 향상 : AI 개발자는 다양한 모델에 대해서 동일한 API로 사용이 가능하며, OpenAI 및 LangChain SDK와 호환성을 지원하여 기존 개발 환경과 프레임워크에 쉽게 연동할 수 있습니다.
  • ServiceWatch 서비스 연계 제공: ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.

서비스 구성도

구성도
그림. AIOS 구성도

제공 기능

다음과 같은 기능을 제공하고 있습니다.

  • AIOS LLM Endpoint 제공: Virtual Server, GPU Server, Kubernetes Engine 서비스를 신청하면 생성된 자원의 상세 페이지에서 LLM Endpoint 정보 및 이용 가이드가 제공되며 이용 가이드에 따라 해당 자원에서 LLM에 접속하여 사용 할 수 있습니다.
  • AIOS Report 제공: 유형별, 리소스별, 모델별 호출 횟수와 Token 사용량 및 LLM별 전체 사용량을 확인할 수 있습니다.

제공 모델

AIOS에서 제공하는 LLM 모델은 다음과 같습니다.

모델명모델 타입소개주요 활용처특징
gpt-oss-120bChat+Reasoning1,200억 파라미터 기반 GPT 계열 오픈소스  최신 모델연구·실험, 대규모 언어 이해, 복잡한 추론/분석이 필요한 AI 서비스, 에이전트형 시스템 구축
  • 초대형 파라미터
  • 폭넓은 지식 커버리지, 범용 활용 가능
  • 완전한 CoT 체인 생성
Qwen3-Coder-30B-A3B-Instruct Code코드 생성과 디버깅에 최적화된 Qwen3 시리즈 코드 모델소프트웨어 개발, AI 코드 어시스턴트, 긴 문서/저장소 분석
  • 대규모 코드 지식 학습
  • 멀티랭귀지 지원
  • long-context 이해 가능
Qwen3-30B-A3B-Thinking-2507Chat+Reasoning장문 추론과 심층적 사고(Thinking)에 강화된 Qwen3 모델리서치, 분석 보고서, 논리적 글쓰기, 수학, 과학, 코딩
  • 장문·복합적 추론 특화
  • 일관된 CoT 체인 생성
Llama-4-ScoutChat+Vision멀티모달 가능한 최신 Llama 모델문서 분석·요약, 고객 지원·챗봇
  • 멀티모달(텍스트+이미지), 빠른 추론, 단일 GPU 구동 가능
  • 초장문, 멀티문서 요약/분석 가능, 멀티모달 지원
  • 다양한 벤치마크에서 동급 최고 성능
  • 이미지 최대 4개 입력 가능
Llama-Guard-4-12Bmoderation최신 대형 언어모델 및 멀티모달 AI 서비스에서 신뢰성과 안전성을 높이기 위한 핵심 보안 및 모더레이션 모델사용자 입력과 모델의 응답의 유해성 자동 필터링에 활용
  • 멀티모달 보안 분류
  • 콘텐츠 모더레이션 특화
  • 다국어 지원
bge-m3embedding다기능, 다국어, 대용량 입력 지원이라는 세 가지 특성을 지닌 핵심 임베딩 모델생성형 AI에서 외부 지식 검색 및 정답 근거 제공에 사용 Dense와 Sparse 검색을 결합해 정확도와 일반화 성능을 모두 확보할 때 활용
  • 다기능(Multi-Functionality): 밀집 임베딩 검색(Dense Retriveval), 토큰 기반 가중치 검색(Sparse Retrieval), 다중 벡터 검색(Multi-Vector Retrieval)
  • 다국어지원(Multi-Linguality): 100개 이상의 언어 지원
  • 다양한 입력 크기(Multi-Granularity): 최대 8,192 토큰까지 처리 가능
bge-reranker-v2-m3rerank다국어 환경에서 빠르고 정확한 검색 결과 재정렬이 필요한 다양한 정보 검색, 질의응답, 챗봇 시스템의 핵심 컴포넌트질문에 대한 후보 답변이나 문서를 관련도 순으로 재정렬
  • 경량화 및 고속 추론
  • 다국어 지원
  • 손쉬운 통합: Hugging Face Transformers, FlagEmbedding 호환
표. AIOS 제공 LLM 모델

리전별 제공 현황

AIOS는 아래의 환경에서 제공 가능합니다.

리전제공 여부
한국 서부(kr-west1)제공
한국 동부(kr-east1)미제공
한국 남부1(kr-south1)미제공
한국 남부2(kr-south2)미제공
한국 남부3(kr-south3)미제공
표. AIOS 리전별 제공 현황

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비하세요.

서비스 카테고리서비스상세 설명
ComputeVirtual Server클라우드 컴퓨팅에 최적화된 가상 서버
ComputeGPU Server클라우드 환경에서 AI모델 실험, 예측, 추론 등 빠른 연산 속도를 필요로 하는 업무에 적합한 가상 서버
ComputeCloud Functions서버리스 컴퓨팅 기반의 Faas (Function as a Service)
ContainerKubernetes Engine경량화된 가상 컴퓨팅과 컨테이너와 이를 관리하기 위한 Kubernetes 클러스터 제공 서비스
표. AIOS 선행 서비스

1 - ServiceWatch 지표

AIOS는 ServiceWatch로 지표를 전송합니다. 기본 모니터링으로 제공되는 지표는 5분 주기로 수집된 데이터입니다.

참고
ServiceWatch에서 지표를 확인하는 방법은 ServiceWatch 가이드를 참고하세요.

기본 지표

다음은 네임스페이스 AIOS에 대한 기본 지표입니다.

아래에서 지표명이 굵은 글씨로 표기된 지표는 AIOS 에서 제공하는 기본 지표 중 주요 지표로 선정한 지표입니다. 주요 지표는 ServiceWatch에서 서비스별로 자동으로 구축되는 서비스 대시보드를 구성하는데 활용됩니다.

각 지표는 해당 지표를 조회할 때 어떤 통계값으로 조회하는 것이 의미있는지 의미 있는 통계값을 사용자 가이드를 통해 안내하고 있으며, 의미있는 통계 중에서 굵은 글씨로 표기된 통계값이 주요 통계값입니다. 서비스 대시보드에서는 주요 지표를 주요 통계값을 통해 조회할 수 있습니다.

성능 항목상세 설명단위의미있는 통계
Model Request Success모델 요청 성공 횟수Count
  • 합계
Model Request Server Error모델 요청 실패 횟수(서버 오류)Count
  • 합계
Model Request Client Error모델 요청 실패 횟수(클라이언트 오류)Count
  • 합계
Model Request Throttled모델 요청이 제한된 횟수Count
  • 합계
Model Total Tokens모델 토큰 사용량(총합)Count
  • 합계
Model Input Tokens모델 토큰 사용량(입력)Count
  • 합계
Model Output Tokens모델 토큰 사용량(출력)Count
  • 합계
Model Cached Tokens입력 토큰 중 캐시를 통해 재사용된 토큰 수Count
  • 합계
표. AIOS 기본 지표