재해 복구 계획

재해 복구 목표에 따른 아키텍처 설계

각 업무를 대상으로 복구 목표 시간(RTO)과 복구 목표 시점(RPO)의 요구 수준을 도출한 후에 이를 바탕으로 재해 복구 유형을 결정하고 설계 및 구축을 해야 합니다.

재해 복구 설계는 RTO와 RPO를 기반으로 크게 Cold, Warm, Hot의 세 가지 유형으로 구분하여 구축할 수 있습니다.

DR 구성 수준	RTO	RPO	가용성(Main↔DR)	복구	비용	대상
Cold Level	수주	수일	Active-Backup	자원할당 및 백업 복구	낮음	비 중요 시스템
Warm Level	수일	수 시간	Active-Replica	수동 Fail-over 자원 할당 및 증설	중간	일반시스템
Hot Level	수 시간	0	Active-Standby	수동 Fail-over	높음	중요시스템

표. RTO/RPO 목표에 따른 DR 수준

Cold Level

Cold Level 방식은 핵심 서비스의 백업 데이터만 DR 센터에 보관하고, 재해 발생 시 이 백업 데이터를 기반으로 서비스 복구하는 방식입니다.

이 방식은 초기 투자 비용 및 유지 보수 비용이 가장 낮다는 장점이 있으나, 백업 주기에 따라 데이터 손실 가능성이 크다는 단점이 있습니다.

또한 Cold Level 방식은 재해 복구 시 DR 센터에 신규로 시스템 자원을 할당하고 구성해야 하므로 복구까지 상당한 시간이 소요될 수 있어, 중요도가 낮은 워크로드에 적합합니다.

아래의 그림은 Cold Level 아키텍처의 예시입니다.

※ Region 간 VPC Peering, Object Storage Replication은 향후 출시 예정(‘26년)

kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.
kr-east1 Region(DR 센터)에 DR용 Virtual Server를 생성 후 평상시 전원을 Off 시켜 놓습니다.
kr-west1 Region(주 센터) 내 Virtual Server의 데이터를 Object Storage에 주기적으로 백업합니다.
kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.
재해 발생 시 kr-east1 Region(DR 센터) 내 Object Storage(DR)의 데이터를 복구하여 서비스를 재개합니다.

Warm Level

Warm Level 방식은 서비스의 중요도가 높은 시스템을 중심으로 DR 센터에 구축하는 방식입니다.

주 센터와 DR 센터 간 실시간 복제가 이루어지지 않기 때문에 주기적인 동기화 과정이 필요합니다.

재해 발생 시에는 나머지 시스템의 자원을 할당하고 증설한 뒤에 서비스를 복구하게 되므로, 데이터 손실이 발생할 수 있으며 서비스 복구까지 상당한 시간이 소요될 수 있습니다.

그러나 Hot Site 방식에 비해 초기 투자 및 유지보수 비용이 상대적으로 낮다는 장점이 있습니다.

Hot Level

Hot Level 방식은 실시간 복제를 기반으로 한 Active-Standby 상태로 시스템을 구축하는 방식입니다.

이 방식은 재해가 발생하면 복제를 중단하고, DR 센터로 운영을 전환하여 신속하게 서비스를 재개할 수 있기 때문에 중요도가 높은 시스템에 적합한 방식입니다

※ Region 간 VPC Peering, Object Storage Replication, DBaaS Replica 기능은 향후 출시 예정(‘26년)

kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.
WEB/APP 용도의 Virtual Server의 경우, Virtual Server DR 서비스를 통해 kr-east1 Region(DR 센터)에 DR Virtual Server를 생성합니다.
재해 상황 또는 모의 훈련 진행 시 DR Virtual Server를 주 Virtual Server로 사용합니다.
DBaaS 경우, 타 Region Replica 구성을 통해 데이터를 비동기 복제하며 재해 상황 시 DR Replica를 Master로 승격하여 주 Database로 사용합니다.
File Storage의 경우, kr-west1 Region(주 센터)의 File Storage에서 DR 복제 기능을 이용하여 kr-east1 Region(DR 센터)에 복제 볼륨을 구성합니다.
복제 주기와 동기화 정책 설정 후 볼륨이 복제되며, 재해 상황 시 동기화를 중단하고 복제 볼륨을 R/W 모드로 변경하여 사용합니다.
Object Storage의 경우, kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.
재해 상황 시 Object Storage(DR)의 Bucket(DR)을 End Point로 접근하여 사용합니다.

재해 복구를 위한 Region 간 데이터 복제

Samsung Cloud Platform에서는 다양한 수준의 저장소 복제를 통해 DR을 지원합니다.

Virtual Server DR

Virtual Server DR은 현재 사용 중인 Region과 다른 Region에 Virtual Server 및 이와 연결된 Block Storage를 복제하고, 재해에 대비한 계획 수립과 테스트, 그리고 실제 재해 발생 시 복구 기능을 제공하는 서비스입니다.

실제로 복제되는 것은 Block Storage이며, DR 사이트의 Virtual Server는 정지된 상태로 유지됩니다.

Backup DR

Backup DR은 서비스 생성 시 활성화할 수 있는 기능입니다. Backup DR을 활성화하면, 주 사이트에서 백업이 수행될 때, 해당 백업본이 DR 사이트에 복제되어 저장됩니다.

Object Storage DR

Object Storage DR은 주 사이트의 버킷과 DR 사이트의 버킷 간 동기화 설정을 통해 구성됩니다. DR 구성을 위해서는 주 사이트의 버킷에 버전 관리를 활성화해야 합니다.

※ Region 간 Object Storage Replication 기능은 향후 출시 예정(‘26년)

File Storage DR

File Storage DR은 주 사이트 File Storage에서 DR Region, DR Volume명, 복제 주기 설정을 통해 구성할 수 있습니다.

복제 주기는 5분, 1시간, 매일, 매주, 매월 중 선택할 수 있는데, 매일 복제는 23:59:00, 매주 복제는 일요일 23:59:00, 매월 복제는 1일 23:59:00에 수행됩니다.

Database 서비스 DR

Database 서비스 DR에서는 주 사이트 마스터 DB의 Replica를 DR 사이트에 생성해서 구성할 수 있습니다.

Replica를 구성하면, 주 사이트의 변경 사항이 Replica와 동기화되어 반영됩니다.

Replica를 구성하기 위해서는 주 사이트의 VPC와 DR 사이트의 VPC 간에 Peering이 수립되어야 합니다.

재해 발생 시, DR 사이트의 Replica를 수동으로 Master로 전환해 가동합니다.

※ Region 간 DBaaS Replication 기능은 향후 출시 예정(‘26년)

Container Registry DR

Container Registry DR을 사용하면 DR 레지스트리와 Object Storage 버킷이 다른 Region으로 복제됩니다.

이를 통해 한 Region의 Kubernetes Cluster의 이미지를 다른 Region으로 복제해 동일한 Kubernetes Cluster를 구성할 수도 있습니다.

File Storage DR과 함께 구성할 경우, Kubernetes Cluster DR을 구현할 수 있습니다.

※ Region 간 Container Registry 기능은 향후 출시 예정(‘26년)

재해 시 전환 계획 수립

서비스 정지가 발생하고 장애 등급 판단과 복구 가능 시간 판단을 통해 사전에 정의했던 시간 내에 복구가 불가능할 경우에는 재해를 선언하고 재해 복구 절차를 수행합니다.

재해 복구의 각 단계는 아래와 같습니다.

단계	활동	구성원 임무
재해 선언	재해 현황 파악	- 대책본부 구성 - 비상통지 - 상황실 운영 - 현 재해 현황 파악 - 예상복구 시간 파악(주 센터) - 최고책임자 보고자료 작성
재해 선언	재해 복구 시스템 전환 결정	- 예상복구 시간, 복귀 시간을 고려하여 전환 결정 - 재해 복구 시스템 전환 절차 통제
재해 복구 활동	재해 복구 센터로의 서비스 전환	- 서비스 재가동 확인 - 재해 복구 센터에서의 장기 운영 대비
재해 복구 활동	주 센터 복구	- H/W, S/W 공급지원업체에 복구 촉구 - 복구 불능 시 조달계획 수립(선 조치 후 조달 품의) - 재해 복구 전환 통제 및 최종 서비스 확인 보고 - 대내외 보고, 발표자료 준비 - 주 센터 복구시기 산정 및 복구센터 운영방안 마련
주 센터 복구	주 센터로의 복귀 결정	- 복귀 방안 준비 및 시기 결정 - 주 센터 안정화 검증 - 복귀에 따른 서비스 전환 확인 - 전환 후 서비스 내역 및 문제점 파악 - 재해 복구 시스템 복귀 절차 통제

표. 재해 복구 단계

서비스 변경 관리

주 사이트와 DR 사이트의 일관성 유지

모범 사례

주 사이트와 DR 사이트에서 동일한 변경 작업이 수행되도록 합니다.

주 사이트에서 업데이트, 패치 등을 수행하면 DR 환경의 인프라 및 Application과 구성 상태가 달라질 수 있습니다.

이로 인해 재해 복구 수행 시 시스템이 정상적으로 작동하지 않을 수 있습니다.

따라서 테스트/스테이징 환경을 구성하여 먼저 변경 사항을 검증하고, 이를 주 사이트와 DR 사이트에 반영하여 배포의 일관성과 신뢰성을 높여야 합니다.

설계 원칙

주 사이트에서 직접 변경을 수행하지 않고, 테스트/스테이징 환경을 통해 변경을 수행합니다.
소프트웨어 업데이트, 보안 패치, 인프라 구성 변경 등에 배포 환경을 활용하고, 주 사이트와 DR 사이트에 반영합니다.

자동화를 통한 변경 관리

모범 사례

업데이트, 배포 작업을 자동화하여 배포의 일관성을 확보합니다.

서비스의 변경 작업을 수동으로 수행할 경우 다양한 변수가 발생할 수 있습니다.

이로 인해 주 사이트와 DR 사이트의 구성에 차이가 생길 경우, 재해 복구 수행 시 주 사이트의 기능이 DR 사이트에서 의도한 대로 작동하지 않을 수 있습니다.

따라서 배포 프로세스를 자동화화여 이와 같은 잠재적 오류의 영향을 최소화해야 합니다.

설계 원칙

자동화 도구를 통해 인프라 템플릿을 관리하고, 배포합니다.
코드를 안전한 중앙 저장소에서 관리합니다.
지속적인 통합 및 지속적 전달(CI/CD)를 통해 개발부터 배포에 이르는 과정을 관리합니다.

모범 사례

주기적으로 장애나 재해 시나리오를 가동하여 DR 시스템을 테스트합니다.

장애/재해 대응 테스트

모범 사례

주기적으로 장애나 재해 시나리오를 가동하여 DR 시스템을 테스트합니다.

재해가 발생했을 때 DR 사이트 전환과 주 센터 복귀까지 절차를 수립하고, 정기적으로 이 절차의 정상 작동 여부를 확인합니다.

모의 훈련에서는 장애나 재해 상황을 가정하여 시스템과 대응 절차를 테스트합니다.

재해 복구 모의훈련에서 점검해야 할 주요 사항은 다음과 같습니다.

재해 복구 시스템의 데이터 정상 복구 유무
복구팀의 지휘 및 조정 체계
내/외부 의사소통 여부
재해 복구 시스템의 성능
주 센터 복귀 유효성
통지 절차 및 기타 제반 사항

설계 원칙

장애나 재해 발생을 가정하여 팀이 수행해야 할 작업을 실제 수행하여 대응 능력을 향상시키고 개선 사항을 도출합니다.
재해 시 전환 계획에 따라 전환 절차를 수행하고 자동 전환 절차 수행이 정상적으로 작동하는지 점검합니다.

재해 복구 모의훈련 계획에는 일정과 조직 및 참여 인원, 훈련 범위 및 시나리오가 상세하게 명시되어야 하며, 시스템 명령어 수준까지 세부적으로 작성되어야 합니다.

또한 각 업무별 체크 리스트 및 관련 담당자와 비상연락망이 명시되어야 합니다.

아래 표는 재해 복구 훈련 절차 및 수행 내용에 대한 예시입니다.

순서	훈련방법	수행 내용	주관부서
1	사전준비	- 업무영향도 파악 - 일정 및 방법 협의 - 관련 상세 작업계획 작성 및 승인 - 재해 복구 시스템 점검 및 미진 사항 조치	관련 실무 담당자
2	재해선언	- 재해선포 및 통보 (주 센터, 재해 복구센터)	비상대책반
3	재해 복구 시스템 가동	- 재해 복구 시스템 가동 작업 실시 :DB, Server, APP, N/W 포함	시스템, 네트워크, 업무담당
4	업무 테스트	- 자체 테스트 실시, 정상유무 판단	업무담당
5	재해 복구 시스템 실업무 전환	- 모의전환 훈련 시에는 실 업무 전환 안함	시스템, 네트워크, 업무담당
6	정상여부 모니터링	- 재해 복구센터 업무 수행 여부 모니터링	시스템, 네트워크, 업무담당
7	재해 복구 시스템 중단	- 재해 복구 시스템 가동중지	시스템, 네트워크, 업무담당
8	업무 복귀	- 주 센터 복귀 작업 실시	시스템, 네트워크, 업무담당
9	결과 정리	- 일정, 절차, 훈련 결과 정리 - 미진 사항 확인 및 조치	관련 실무 담당자

표. 재해 복구 모의훈련 절차 예시 (TTA, 정보 시스템 재해 복구 지침)