How-to Guides

AIOS 사용하기

AIOS는 Virtual Server, GPU Server, Kubernetes Engine 서비스를 생성하면 각 자원 내에서 기본적으로 LLM을 사용할 수 있는 환경을 제공합니다.

참고

각 서비스 생성에 대한 자세한 내용은 아래 표를 참고하세요.

서비스	가이드
Virtual Server	Virtual Server 생성하기
GPU Server	GPU Server 생성하기
Cloud Functions	Cloud Functions 생성하기
Kubernetes Engine	클러스터 생성하기

표. AIOS 사용 가능한 서비스 생성 가이드

LLM 사용하기

LLM은 Samsung Cloud Platform 에서 생성된 Virtual Server, GPU Server, Cloud Functions, Kubernetes Engine 서비스 자원 내부에서 LLM Endpoint 를 활용하여 사용할 수 있습니다. LLM Endpoint는 서비스의 상세 페이지에서 LLM Endpoint에 대한 이용 가이드를 통해 확인할 수 있습니다.

Virtual Server의 LLM Endpoint 확인하기

생성한 Virtual Server의 Virtual Server 상세 페이지에서 LLM Endpoint의 이용 가이드를 확인할 수 있습니다.

LLM Endpoint의 이용 가이드를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > Virtual Server 메뉴를 클릭하세요. Virtual Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Virtual Server 메뉴를 클릭하세요. Virtual Server 목록 페이지로 이동합니다.
Virtual Server 목록 페이지에서 LLM Endpoint에 연결할 자원을 클릭하세요. Virtual Server 상세 페이지로 이동합니다.
Virtual Server 상세 페이지에서 LLM Endpoint 항목의 이용 가이드 링크를 클릭하세요. LLM 이용 가이드 팝업창으로 이동합니다.

참고

LLM 이용 가이드에 대한 자세한 내용은 LLM 이용 가이드에서 확인하세요.

GPU Server의 LLM Endpoint 확인하기

생성한 GPU Server의 GPU Server 상세 페이지에서 LLM Endpoint의 이용 가이드를 확인할 수 있습니다.

LLM Endpoint의 이용 가이드를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > GPU Server 메뉴를 클릭하세요. GPU Server의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 GPU Server 메뉴를 클릭하세요. GPU Server 목록 페이지로 이동합니다.
GPU Server 목록 페이지에서 LLM Endpoint에 연결할 자원을 클릭하세요. GPU Server 상세 페이지로 이동합니다.
GPU Server 상세 페이지에서 LLM Endpoint 항목의 이용 가이드 링크를 클릭하세요. LLM 이용 가이드 팝업창으로 이동합니다.

참고

LLM 이용 가이드에 대한 자세한 내용은 LLM 이용 가이드에서 확인하세요.

Cloud Functions의 LLM Endpoint 확인하기

생성한 Cloud Functions의 Cloud Functions 상세 페이지에서 LLM Endpoint의 이용 가이드를 확인할 수 있습니다.

LLM Endpoint의 이용 가이드를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Compute > Cloud Functions 메뉴를 클릭하세요. Cloud Functions의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Functions 메뉴를 클릭하세요. Functions 목록 페이지로 이동합니다.
Functions 목록 페이지에서 LLM Endpoint에 연결할 자원을 클릭하세요. Functions 상세 페이지로 이동합니다.
Functions 상세 페이지에서 LLM Endpoint 항목의 이용 가이드 링크를 클릭하세요. LLM 이용 가이드 팝업창으로 이동합니다.

참고

LLM 이용 가이드에 대한 자세한 내용은 LLM 이용 가이드에서 확인하세요.

Kubernetes Engine 클러스터의 LLM Endpoint 확인하기

생성한 Kubernetes Engine 클러스터의 클러스터 상세 페이지에서 LLM Endpoint의 이용 가이드를 확인할 수 있습니다.

LLM Endpoint의 이용 가이드를 확인하려면 다음 절차를 따르세요.

모든 서비스 > Container > Kubernetes Engine 메뉴를 클릭하세요. Kubernetes Engine의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 클러스터 메뉴를 클릭하세요. 클러스터 목록 페이지로 이동합니다.
클러스터 목록 페이지에서 LLM Endpoint에 연결할 자원을 클릭하세요. 클러스터 상세 페이지로 이동합니다.
클러스터 상세 페이지에서 LLM Endpoint 항목의 이용 가이드 링크를 클릭하세요. LLM 이용 가이드 팝업창으로 이동합니다.

참고

LLM 이용 가이드에 대한 자세한 내용은 LLM 이용 가이드에서 확인하세요.

LLM 이용 가이드

LLM Endpoint의 이용 가이드에서는 AIOS LLM 프라이빗 엔드포인트와 제공 모델, 샘플 코드 예시를 확인할 수 있습니다.

AIOS LLM 프라이빗 엔드포인트

AIOS LLM 프라이빗 엔드포인트의 URL이 표시됩니다. URL을 확인하여 Virtual Server, GPU Server, Kubernetes Engine 서비스의 생성된 자원 내부에서 사용할 수 있습니다.

AIOS LLM 제공 모델

AIOS LLM 제공 모델은 다음과 같습니다.

모델명	모델ID	컨텍스트 크기	RPM (Request per minute)	TPM (Token per minute)	용도	라이선스	사용중단일
gpt-oss-120b	openai/gpt-oss-120b	131,072	50 RPM	200K	연구, 실험, 고급 언어 이해	Apache 2.0	계획없음
Qwen3-Coder-30B-A3B-Instruct	Qwen/Qwen3-Coder-30B-A3B-Instruct	65,536	20 RPM	30K	코드 생성, 분석, 디버깅 지원	Apache 2.0	계획없음
Qwen3-30B-A3B-Thinking-2507	Qwen/Qwen3-30B-A3B-Thinking-2507	32,768	10 RPM	30K	심층적 추론, 장문 분석, 에세이 작성	Apache 2.0	계획없음
Llama-4-Scout	meta-llama/Llama-4-Scout	32,768	20 RPM	35K	멀티모달 가능한 최신 Llama 모델	llama4	계획없음
Llama-Guard-4-12B	meta-llama/Llama-Guard-4-12B	32,768	20 RPM	200K	최신 대형 언어모델 및 멀티모달 AI 서비스에서 신뢰성과 안전성을 높이기 위한 핵심 보안 및 모더레이션 모델	llama4	계획없음
bge-m3	sds/bge-m3	8,192	100 RPM	200K	다국어 임베딩 모델로, 다국어 언어를 지원합니다.	Samsung SDS	계획없음
bge-reranker-v2-m3	sds/bge-reranker-v2-m3	8,192	100 RPM	200K	경량화된 다국어 리랭커로 빠른 연산과 높은 성능을 제공합니다.	Samsung SDS	계획없음

표. AIOS LLM 제공 모델

샘플 코드

AIOS LLM 샘플 코드 예시는 다음을 참조하세요.

배경색 변경

curl -H "Content-Type: application/json" \
  -d '{
        "model": "openai/gpt-oss-120b"
      , "prompt" : "Write a haiku about recursion in programming."
      , "temperature": 0
      , "max_tokens": 100
      , "stream": false
      }' \
{AIOS LLM 프라이빗 엔드포인트}/{API}

curl -H "Content-Type: application/json" \
  -d '{
        "model": "openai/gpt-oss-120b"
      , "prompt" : "Write a haiku about recursion in programming."
      , "temperature": 0
      , "max_tokens": 100
      , "stream": false
      }' \
{AIOS LLM 프라이빗 엔드포인트}/{API}

코드블럭. AIOS LLM 샘플 코드

LLM 모델별 사용량 확인하기

AIOS의 Service Home 페이지에서 LLM 목록과 모델별 Token 사용량을 확인할 수 있습니다.

모든 서비스 > AI-ML > AIOS 메뉴를 클릭하세요. AIOS의 Service Home 페이지로 이동합니다.

LLM 모델별 사용량 목록에서 LLM의 모델명과 모델 타입, 사용 토큰량(1week)을 확인하세요.

구분	상세 설명
모델명	LLM 이름 이름을 클릭하면 해당 모델의 Report 페이지로 이동
모델 타입	LLM 타입 chat, reasoning, vision, moderation, embedding, rerank 모델별 정보는 제공 모델 참고
사용 토큰량(1 Week)	현재일 기준으로 1주일간 사용한 토큰량

표. AIOS LLM 목록 항목

Report 확인하기

AIOS의 Report 페이지에서 일자별 LLM 호출 횟수와 토큰 사용량을 확인할 수 있습니다.

서비스 유형은 Virtual Server, GPU Server, Kubernetes Engine을 선택할 수 있고, 해당 서비스에서 실제로 생성된 자원들 중에서 자원명을 선택하여 조회할 수있고, 사용한 LLM 모델별로도 조회 할 수 있습니다.

모든 서비스 > AI-ML > AIOS 메뉴를 클릭하세요. AIOS의 Service Home 페이지로 이동합니다.
Service Home 페이지에서 Report 메뉴를 클릭하세요. AIOS의 Report 페이지로 이동합니다.
- LLM 모델별 사용량 목록에서 LLM 모델명을 클릭하면 해당 LLM의 Report 페이지로 바로 이동할 수 있습니다.

Report 페이지에서 Report를 확인할 LLM 모델을 선택한 후, 조회 버튼을 클릭하세요. 해당 LLM 모델의 Report 정보가 표시됩니다.

구분	상세 설명
서비스 유형	LLM을 사용하는 서비스 유형 선택 Virtual Server, GPU Server, Kubernetes Engine
자원명	서비스 이름 선택 서비스 유형을 선택하지 않으면 전체만 선택 가능하고, 서비스 유형에서 특정 상품을 선택하면 특정 자원명 선택 가능
Model	LLM 모델 종류 선택 모델별 정보는 제공 모델 참고
조회 기간	Report를 확인할 기간 선택 일주일 단위로 선택 가능 이전 기간은 최대 3개월까지 조회 가능 조회하는 데이터는 현재시간 기준 최대 30분 전까지의 데이터를 기준으로 제공
호출 횟수	조회 기간 동안 일자별 호출 횟수 일자별로 총 횟수, 성공 횟수, 실패 횟수로 표시 전체 호출 횟수: 해당 기간동안의 전체 호출 횟수를 모델별로 제공
Token 사용량	조회 기간 동안 일자별 Token 입력량과 출력량 전체 Token 수: 조회 기간 동안 전체 Token 사용량 Request 당 평균 Token 수: 조회 기간 동안 LLM 호출 시 사용한 평균 Token량

표. AIOS Report 항목

Overview

References