재해 복구 계획

재해 복구 계획

재해 복구 목표에 따른 아키텍처 설계

각 업무를 대상으로 복구 목표 시간(RTO)과 복구 목표 시점(RPO)의 요구 수준을 도출한 후에 이를 바탕으로 재해 복구 유형을 결정하고 설계 및 구축을 해야 합니다.

재해 복구 설계는 RTO와 RPO를 기반으로 크게 Cold, Warm, Hot의 세 가지 유형으로 구분하여 구축할 수 있습니다.

DR 구성 수준RTORPO가용성(Main↔DR)복구비용대상
Cold Level수주수일Active-Backup자원할당 및 백업 복구낮음비 중요 시스템
Warm Level수일수 시간Active-Replica수동 Fail-over 자원 할당 및 증설중간일반시스템
Hot Level수 시간0Active-Standby수동 Fail-over높음중요시스템
표. RTO/RPO 목표에 따른 DR 수준

Cold Level

Cold Level 방식은 핵심 서비스의 백업 데이터만 DR 센터에 보관하고, 재해 발생 시 이 백업 데이터를 기반으로 서비스 복구하는 방식입니다.

이 방식은 초기 투자 비용 및 유지 보수 비용이 가장 낮다는 장점이 있으나, 백업 주기에 따라 데이터 손실 가능성이 크다는 단점이 있습니다.

또한 Cold Level 방식은 재해 복구 시 DR 센터에 신규로 시스템 자원을 할당하고 구성해야 하므로 복구까지 상당한 시간이 소요될 수 있어, 중요도가 낮은 워크로드에 적합합니다.

아래의 그림은 Cold Level 아키텍처의 예시입니다.

구성도
※ Region 간 VPC Peering, Object Storage Replication은 향후 출시 예정(‘26년)

  1. kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.

  2. kr-east1 Region(DR 센터)에 DR용 Virtual Server를 생성 후 평상시 전원을 Off 시켜 놓습니다.

  3. kr-west1 Region(주 센터) 내 Virtual Server의 데이터를 Object Storage에 주기적으로 백업합니다.

  4. kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.

  5. 재해 발생 시 kr-east1 Region(DR 센터) 내 Object Storage(DR)의 데이터를 복구하여 서비스를 재개합니다.

Warm Level

Warm Level 방식은 서비스의 중요도가 높은 시스템을 중심으로 DR 센터에 구축하는 방식입니다.

주 센터와 DR 센터 간 실시간 복제가 이루어지지 않기 때문에 주기적인 동기화 과정이 필요합니다.

재해 발생 시에는 나머지 시스템의 자원을 할당하고 증설한 뒤에 서비스를 복구하게 되므로, 데이터 손실이 발생할 수 있으며 서비스 복구까지 상당한 시간이 소요될 수 있습니다.

그러나 Hot Site 방식에 비해 초기 투자 및 유지보수 비용이 상대적으로 낮다는 장점이 있습니다.

Hot Level

Hot Level 방식은 실시간 복제를 기반으로 한 Active-Standby 상태로 시스템을 구축하는 방식입니다.

이 방식은 재해가 발생하면 복제를 중단하고, DR 센터로 운영을 전환하여 신속하게 서비스를 재개할 수 있기 때문에 중요도가 높은 시스템에 적합한 방식입니다

구성도
※ Region 간 VPC Peering, Object Storage Replication, DBaaS Replica 기능은 향후 출시 예정(‘26년)

  1. kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.

  2. WEB/APP 용도의 Virtual Server의 경우, Virtual Server DR 서비스를 통해 kr-east1 Region(DR 센터)에 DR Virtual Server를 생성합니다.
    재해 상황 또는 모의 훈련 진행 시 DR Virtual Server를 주 Virtual Server로 사용합니다.

  3. DBaaS 경우, 타 Region Replica 구성을 통해 데이터를 비동기 복제하며 재해 상황 시 DR Replica를 Master로 승격하여 주 Database로 사용합니다.

  4. File Storage의 경우, kr-west1 Region(주 센터)의 File Storage에서 DR 복제 기능을 이용하여 kr-east1 Region(DR 센터)에 복제 볼륨을 구성합니다.
    복제 주기와 동기화 정책 설정 후 볼륨이 복제되며, 재해 상황 시 동기화를 중단하고 복제 볼륨을 R/W 모드로 변경하여 사용합니다.

  5. Object Storage의 경우, kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.
    재해 상황 시 Object Storage(DR)의 Bucket(DR)을 End Point로 접근하여 사용합니다.

재해 복구를 위한 Region 간 데이터 복제

Samsung Cloud Platform에서는 다양한 수준의 저장소 복제를 통해 DR을 지원합니다.

Virtual Server DR

Virtual Server DR은 현재 사용 중인 Region과 다른 Region에 Virtual Server 및 이와 연결된 Block Storage를 복제하고, 재해에 대비한 계획 수립과 테스트, 그리고 실제 재해 발생 시 복구 기능을 제공하는 서비스입니다.

실제로 복제되는 것은 Block Storage이며, DR 사이트의 Virtual Server는 정지된 상태로 유지됩니다.

구성도
그림. Virtual Server DR 구현 개념

Backup DR

Backup DR은 서비스 생성 시 활성화할 수 있는 기능입니다. Backup DR을 활성화하면, 주 사이트에서 백업이 수행될 때, 해당 백업본이 DR 사이트에 복제되어 저장됩니다.

개념도
그림. Backup DR 구현 개념

Object Storage DR

Object Storage DR은 주 사이트의 버킷과 DR 사이트의 버킷 간 동기화 설정을 통해 구성됩니다. DR 구성을 위해서는 주 사이트의 버킷에 버전 관리를 활성화해야 합니다.

개념도
※ Region 간 Object Storage Replication 기능은 향후 출시 예정(‘26년)

File Storage DR

File Storage DR은 주 사이트 File Storage에서 DR Region, DR Volume명, 복제 주기 설정을 통해 구성할 수 있습니다.

복제 주기는 5분, 1시간, 매일, 매주, 매월 중 선택할 수 있는데, 매일 복제는 23:59:00, 매주 복제는 일요일 23:59:00, 매월 복제는 1일 23:59:00에 수행됩니다.

개념도
그림. File Storage DR 구현 개념

Database 서비스 DR

Database 서비스 DR에서는 주 사이트 마스터 DB의 Replica를 DR 사이트에 생성해서 구성할 수 있습니다.

Replica를 구성하면, 주 사이트의 변경 사항이 Replica와 동기화되어 반영됩니다.

Replica를 구성하기 위해서는 주 사이트의 VPC와 DR 사이트의 VPC 간에 Peering이 수립되어야 합니다.

재해 발생 시, DR 사이트의 Replica를 수동으로 Master로 전환해 가동합니다.

개념도
※ Region 간 DBaaS Replication 기능은 향후 출시 예정(‘26년)

Container Registry DR

Container Registry DR을 사용하면 DR 레지스트리와 Object Storage 버킷이 다른 Region으로 복제됩니다.

이를 통해 한 Region의 Kubernetes Cluster의 이미지를 다른 Region으로 복제해 동일한 Kubernetes Cluster를 구성할 수도 있습니다.

File Storage DR과 함께 구성할 경우, Kubernetes Cluster DR을 구현할 수 있습니다.

※ Region 간 Container Registry 기능은 향후 출시 예정(‘26년)

재해 시 전환 계획 수립

서비스 정지가 발생하고 장애 등급 판단과 복구 가능 시간 판단을 통해 사전에 정의했던 시간 내에 복구가 불가능할 경우에는 재해를 선언하고 재해 복구 절차를 수행합니다.

재해 복구의 각 단계는 아래와 같습니다.

단계활동구성원 임무
재해 선언재해 현황 파악- 대책본부 구성
- 비상통지
- 상황실 운영
- 현 재해 현황 파악
- 예상복구 시간 파악(주 센터)
- 최고책임자 보고자료 작성
재해 선언재해 복구 시스템
전환 결정
- 예상복구 시간, 복귀 시간을 고려하여 전환 결정
- 재해 복구 시스템 전환 절차 통제
재해 복구 활동재해 복구 센터로의
서비스 전환
- 서비스 재가동 확인
- 재해 복구 센터에서의 장기 운영 대비
재해 복구 활동주 센터 복구- H/W, S/W 공급지원업체에 복구 촉구
- 복구 불능 시 조달계획 수립(선 조치 후 조달 품의)
- 재해 복구 전환 통제 및 최종 서비스 확인 보고
- 대내외 보고, 발표자료 준비
- 주 센터 복구시기 산정 및 복구센터 운영방안 마련
주 센터 복구주 센터로의 복귀 결정- 복귀 방안 준비 및 시기 결정
- 주 센터 안정화 검증
- 복귀에 따른 서비스 전환 확인
- 전환 후 서비스 내역 및 문제점 파악
- 재해 복구 시스템 복귀 절차 통제
표. 재해 복구 단계

서비스 변경 관리

주 사이트와 DR 사이트의 일관성 유지

모범 사례
주 사이트와 DR 사이트에서 동일한 변경 작업이 수행되도록 합니다.

주 사이트에서 업데이트, 패치 등을 수행하면 DR 환경의 인프라 및 Application과 구성 상태가 달라질 수 있습니다.

이로 인해 재해 복구 수행 시 시스템이 정상적으로 작동하지 않을 수 있습니다.

따라서 테스트/스테이징 환경을 구성하여 먼저 변경 사항을 검증하고, 이를 주 사이트와 DR 사이트에 반영하여 배포의 일관성과 신뢰성을 높여야 합니다.

설계 원칙
  1. 주 사이트에서 직접 변경을 수행하지 않고, 테스트/스테이징 환경을 통해 변경을 수행합니다.
  2. 소프트웨어 업데이트, 보안 패치, 인프라 구성 변경 등에 배포 환경을 활용하고, 주 사이트와 DR 사이트에 반영합니다.

자동화를 통한 변경 관리

모범 사례
업데이트, 배포 작업을 자동화하여 배포의 일관성을 확보합니다.

서비스의 변경 작업을 수동으로 수행할 경우 다양한 변수가 발생할 수 있습니다.

이로 인해 주 사이트와 DR 사이트의 구성에 차이가 생길 경우, 재해 복구 수행 시 주 사이트의 기능이 DR 사이트에서 의도한 대로 작동하지 않을 수 있습니다.

따라서 배포 프로세스를 자동화화여 이와 같은 잠재적 오류의 영향을 최소화해야 합니다.

설계 원칙
  1. 자동화 도구를 통해 인프라 템플릿을 관리하고, 배포합니다.
  2. 코드를 안전한 중앙 저장소에서 관리합니다.
  3. 지속적인 통합 및 지속적 전달(CI/CD)를 통해 개발부터 배포에 이르는 과정을 관리합니다.
모범 사례
주기적으로 장애나 재해 시나리오를 가동하여 DR 시스템을 테스트합니다.

장애/재해 대응 테스트

모범 사례
주기적으로 장애나 재해 시나리오를 가동하여 DR 시스템을 테스트합니다.

재해가 발생했을 때 DR 사이트 전환과 주 센터 복귀까지 절차를 수립하고, 정기적으로 이 절차의 정상 작동 여부를 확인합니다.

모의 훈련에서는 장애나 재해 상황을 가정하여 시스템과 대응 절차를 테스트합니다.

재해 복구 모의훈련에서 점검해야 할 주요 사항은 다음과 같습니다.

  • 재해 복구 시스템의 데이터 정상 복구 유무
  • 복구팀의 지휘 및 조정 체계
  • 내/외부 의사소통 여부
  • 재해 복구 시스템의 성능
  • 주 센터 복귀 유효성
  • 통지 절차 및 기타 제반 사항
설계 원칙
  1. 장애나 재해 발생을 가정하여 팀이 수행해야 할 작업을 실제 수행하여 대응 능력을 향상시키고 개선 사항을 도출합니다.
  2. 재해 시 전환 계획에 따라 전환 절차를 수행하고 자동 전환 절차 수행이 정상적으로 작동하는지 점검합니다.

재해 복구 모의훈련 계획에는 일정과 조직 및 참여 인원, 훈련 범위 및 시나리오가 상세하게 명시되어야 하며, 시스템 명령어 수준까지 세부적으로 작성되어야 합니다.

또한 각 업무별 체크 리스트 및 관련 담당자와 비상연락망이 명시되어야 합니다.

아래 표는 재해 복구 훈련 절차 및 수행 내용에 대한 예시입니다.

순서훈련방법수행 내용주관부서
1사전준비- 업무영향도 파악
- 일정 및 방법 협의
- 관련 상세 작업계획 작성 및 승인
- 재해 복구 시스템 점검 및 미진 사항 조치
관련 실무
담당자
2재해선언- 재해선포 및 통보 (주 센터, 재해 복구센터)비상대책반
3재해 복구
시스템 가동
- 재해 복구 시스템 가동 작업 실시
:DB, Server, APP, N/W 포함
시스템, 네트워크,
업무담당
4업무 테스트- 자체 테스트 실시, 정상유무 판단업무담당
5재해 복구 시스템
실업무 전환
- 모의전환 훈련 시에는 실 업무 전환 안함시스템, 네트워크,
업무담당
6정상여부
모니터링
- 재해 복구센터 업무 수행 여부 모니터링시스템, 네트워크,
업무담당
7재해 복구
시스템 중단
- 재해 복구 시스템 가동중지시스템, 네트워크,
업무담당
8업무 복귀- 주 센터 복귀 작업 실시시스템, 네트워크,
업무담당
9결과 정리- 일정, 절차, 훈련 결과 정리
- 미진 사항 확인 및 조치
관련 실무
담당자
표. 재해 복구 모의훈련 절차 예시 (TTA, 정보 시스템 재해 복구 지침)