이 섹션의 다중 페이지 출력 화면임. 여기를 클릭하여 프린트.

Overview

1: ServiceWatch 지표

서비스 개요

AIOS는 Samsung Cloud Platform에서 Virtual Server, GPU Server, Kubernetes Engine 자원을 생성한 후, 별도의 LLM 서비스 설치나 설정 없이 해당 자원에서 LLM을 사용하여 AI 애플리케이션의 개발을 할 수 있는 환경을 제공합니다.

특장점

편리한 LLM 사용 Samsung Cloud Platform에서 Virtual Server, GPU Server, Kubernetes Engine 자원에서 바로 LLM을 이용할 수 있는 LLM Endpoint를 기본으로 제공합니다.
AI 개발 생산성 향상 : AI 개발자는 다양한 모델에 대해서 동일한 API로 사용이 가능하며, OpenAI 및 LangChain SDK와 호환성을 지원하여 기존 개발 환경과 프레임워크에 쉽게 연동할 수 있습니다.
ServiceWatch 서비스 연계 제공: ServiceWatch 서비스를 통해 데이터를 모니터링할 수 있습니다.

서비스 구성도

제공 기능

다음과 같은 기능을 제공하고 있습니다.

AIOS LLM Endpoint 제공: Virtual Server, GPU Server, Kubernetes Engine 서비스를 신청하면 생성된 자원의 상세 페이지에서 LLM Endpoint 정보 및 이용 가이드가 제공되며 이용 가이드에 따라 해당 자원에서 LLM에 접속하여 사용 할 수 있습니다.
AIOS Report 제공: 유형별, 리소스별, 모델별 호출 횟수와 Token 사용량 및 LLM별 전체 사용량을 확인할 수 있습니다.

제공 모델

AIOS에서 제공하는 LLM 모델은 다음과 같습니다.

모델명	모델 타입	소개	주요 활용처	특징
gpt-oss-120b	Chat+Reasoning	1,200억 파라미터 기반 GPT 계열 오픈소스 최신 모델	연구·실험, 대규모 언어 이해, 복잡한 추론/분석이 필요한 AI 서비스, 에이전트형 시스템 구축	초대형 파라미터 폭넓은 지식 커버리지, 범용 활용 가능 완전한 CoT 체인 생성
Qwen3-Coder-30B-A3B-Instruct	Code	코드 생성과 디버깅에 최적화된 Qwen3 시리즈 코드 모델	소프트웨어 개발, AI 코드 어시스턴트, 긴 문서/저장소 분석	대규모 코드 지식 학습 멀티랭귀지 지원 long-context 이해 가능
Qwen3-30B-A3B-Thinking-2507	Chat+Reasoning	장문 추론과 심층적 사고(Thinking)에 강화된 Qwen3 모델	리서치, 분석 보고서, 논리적 글쓰기, 수학, 과학, 코딩	장문·복합적 추론 특화 일관된 CoT 체인 생성
Llama-4-Scout	Chat+Vision	멀티모달 가능한 최신 Llama 모델	문서 분석·요약, 고객 지원·챗봇	멀티모달(텍스트+이미지), 빠른 추론, 단일 GPU 구동 가능 초장문, 멀티문서 요약/분석 가능, 멀티모달 지원 다양한 벤치마크에서 동급 최고 성능 이미지 최대 4개 입력 가능
Llama-Guard-4-12B	moderation	최신 대형 언어모델 및 멀티모달 AI 서비스에서 신뢰성과 안전성을 높이기 위한 핵심 보안 및 모더레이션 모델	사용자 입력과 모델의 응답의 유해성 자동 필터링에 활용	멀티모달 보안 분류 콘텐츠 모더레이션 특화 다국어 지원
bge-m3	embedding	다기능, 다국어, 대용량 입력 지원이라는 세 가지 특성을 지닌 핵심 임베딩 모델	생성형 AI에서 외부 지식 검색 및 정답 근거 제공에 사용 Dense와 Sparse 검색을 결합해 정확도와 일반화 성능을 모두 확보할 때 활용	다기능(Multi-Functionality): 밀집 임베딩 검색(Dense Retriveval), 토큰 기반 가중치 검색(Sparse Retrieval), 다중 벡터 검색(Multi-Vector Retrieval) 다국어지원(Multi-Linguality): 100개 이상의 언어 지원 다양한 입력 크기(Multi-Granularity): 최대 8,192 토큰까지 처리 가능
bge-reranker-v2-m3	rerank	다국어 환경에서 빠르고 정확한 검색 결과 재정렬이 필요한 다양한 정보 검색, 질의응답, 챗봇 시스템의 핵심 컴포넌트	질문에 대한 후보 답변이나 문서를 관련도 순으로 재정렬	경량화 및 고속 추론 다국어 지원 손쉬운 통합: Hugging Face Transformers, FlagEmbedding 호환

표. AIOS 제공 LLM 모델

리전별 제공 현황

AIOS는 아래의 환경에서 제공 가능합니다.

리전	제공 여부
한국 서부(kr-west1)	제공
한국 동부(kr-east1)	미제공
한국 남부1(kr-south1)	미제공
한국 남부2(kr-south2)	미제공
한국 남부3(kr-south3)	미제공

표. AIOS 리전별 제공 현황

선행 서비스

해당 서비스를 생성하기 전에 미리 구성되어 있어야 하는 서비스 목록입니다. 자세한 내용은 각 서비스 별로 제공되는 가이드를 참고하여 사전에 준비하세요.

서비스 카테고리	서비스	상세 설명
Compute	Virtual Server	클라우드 컴퓨팅에 최적화된 가상 서버
Compute	GPU Server	클라우드 환경에서 AI모델 실험, 예측, 추론 등 빠른 연산 속도를 필요로 하는 업무에 적합한 가상 서버
Compute	Cloud Functions	서버리스 컴퓨팅 기반의 Faas (Function as a Service)
Container	Kubernetes Engine	경량화된 가상 컴퓨팅과 컨테이너와 이를 관리하기 위한 Kubernetes 클러스터 제공 서비스

표. AIOS 선행 서비스

1 - ServiceWatch 지표

AIOS는 ServiceWatch로 지표를 전송합니다. 기본 모니터링으로 제공되는 지표는 5분 주기로 수집된 데이터입니다.

참고

ServiceWatch에서 지표를 확인하는 방법은 ServiceWatch 가이드를 참고하세요.

기본 지표

다음은 네임스페이스 AIOS에 대한 기본 지표입니다.

아래에서 지표명이 굵은 글씨로 표기된 지표는 AIOS 에서 제공하는 기본 지표 중 주요 지표로 선정한 지표입니다. 주요 지표는 ServiceWatch에서 서비스별로 자동으로 구축되는 서비스 대시보드를 구성하는데 활용됩니다.

각 지표는 해당 지표를 조회할 때 어떤 통계값으로 조회하는 것이 의미있는지 의미 있는 통계값을 사용자 가이드를 통해 안내하고 있으며, 의미있는 통계 중에서 굵은 글씨로 표기된 통계값이 주요 통계값입니다. 서비스 대시보드에서는 주요 지표를 주요 통계값을 통해 조회할 수 있습니다.

성능 항목	상세 설명	단위	의미있는 통계
Model Request Success	모델 요청 성공 횟수	Count	합계
Model Request Server Error	모델 요청 실패 횟수(서버 오류)	Count	합계
Model Request Client Error	모델 요청 실패 횟수(클라이언트 오류)	Count	합계
Model Request Throttled	모델 요청이 제한된 횟수	Count	합계
Model Total Tokens	모델 토큰 사용량(총합)	Count	합계
Model Input Tokens	모델 토큰 사용량(입력)	Count	합계
Model Output Tokens	모델 토큰 사용량(출력)	Count	합계
Model Cached Tokens	입력 토큰 중 캐시를 통해 재사용된 토큰 수	Count	합계

표. AIOS 기본 지표