재해 복구 계획
재해 복구 계획
재해 복구 목표에 따른 아키텍처 설계
각 업무를 대상으로 복구 목표 시간(RTO)과 복구 목표 시점(RPO)의 요구 수준을 도출한 후에 이를 바탕으로 재해 복구 유형을 결정하고 설계 및 구축을 해야 합니다.
재해 복구 설계는 RTO와 RPO를 기반으로 크게 Cold, Warm, Hot의 세 가지 유형으로 구분하여 구축할 수 있습니다.
| DR 구성 수준 | RTO | RPO | 가용성(Main↔DR) | 복구 | 비용 | 대상 |
|---|---|---|---|---|---|---|
| Cold Level | 수주 | 수일 | Active-Backup | 자원할당 및 백업 복구 | 낮음 | 비 중요 시스템 |
| Warm Level | 수일 | 수 시간 | Active-Replica | 수동 Fail-over 자원 할당 및 증설 | 중간 | 일반시스템 |
| Hot Level | 수 시간 | 0 | Active-Standby | 수동 Fail-over | 높음 | 중요시스템 |
Cold Level
Cold Level 방식은 핵심 서비스의 백업 데이터만 DR 센터에 보관하고, 재해 발생 시 이 백업 데이터를 기반으로 서비스 복구하는 방식입니다.
이 방식은 초기 투자 비용 및 유지 보수 비용이 가장 낮다는 장점이 있으나, 백업 주기에 따라 데이터 손실 가능성이 크다는 단점이 있습니다.
또한 Cold Level 방식은 재해 복구 시 DR 센터에 신규로 시스템 자원을 할당하고 구성해야 하므로 복구까지 상당한 시간이 소요될 수 있어, 중요도가 낮은 워크로드에 적합합니다.
아래의 그림은 Cold Level 아키텍처의 예시입니다.
kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.
kr-east1 Region(DR 센터)에 DR용 Virtual Server를 생성 후 평상시 전원을 Off 시켜 놓습니다.
kr-west1 Region(주 센터) 내 Virtual Server의 데이터를 Object Storage에 주기적으로 백업합니다.
kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.
재해 발생 시 kr-east1 Region(DR 센터) 내 Object Storage(DR)의 데이터를 복구하여 서비스를 재개합니다.
Warm Level
Warm Level 방식은 서비스의 중요도가 높은 시스템을 중심으로 DR 센터에 구축하는 방식입니다.
주 센터와 DR 센터 간 실시간 복제가 이루어지지 않기 때문에 주기적인 동기화 과정이 필요합니다.
재해 발생 시에는 나머지 시스템의 자원을 할당하고 증설한 뒤에 서비스를 복구하게 되므로, 데이터 손실이 발생할 수 있으며 서비스 복구까지 상당한 시간이 소요될 수 있습니다.
그러나 Hot Site 방식에 비해 초기 투자 및 유지보수 비용이 상대적으로 낮다는 장점이 있습니다.
Hot Level
Hot Level 방식은 실시간 복제를 기반으로 한 Active-Standby 상태로 시스템을 구축하는 방식입니다.
이 방식은 재해가 발생하면 복제를 중단하고, DR 센터로 운영을 전환하여 신속하게 서비스를 재개할 수 있기 때문에 중요도가 높은 시스템에 적합한 방식입니다
kr-west1 Region(주 센터)과 kr-east1 Region(DR 센터)을 VPC Peering으로 연동합니다.
WEB/APP 용도의 Virtual Server의 경우, Virtual Server DR 서비스를 통해 kr-east1 Region(DR 센터)에 DR Virtual Server를 생성합니다.
재해 상황 또는 모의 훈련 진행 시 DR Virtual Server를 주 Virtual Server로 사용합니다.DBaaS 경우, 타 Region Replica 구성을 통해 데이터를 비동기 복제하며 재해 상황 시 DR Replica를 Master로 승격하여 주 Database로 사용합니다.
File Storage의 경우, kr-west1 Region(주 센터)의 File Storage에서 DR 복제 기능을 이용하여 kr-east1 Region(DR 센터)에 복제 볼륨을 구성합니다.
복제 주기와 동기화 정책 설정 후 볼륨이 복제되며, 재해 상황 시 동기화를 중단하고 복제 볼륨을 R/W 모드로 변경하여 사용합니다.Object Storage의 경우, kr-west1 Region(주 센터)의 Object Storage에서 DR 동기화 기능을 이용해 kr-east1 Region(DR 센터)의 Object Storage(DR)로 Bucket 단위 비동기 복제를 진행합니다.
재해 상황 시 Object Storage(DR)의 Bucket(DR)을 End Point로 접근하여 사용합니다.
재해 복구를 위한 Region 간 데이터 복제
Samsung Cloud Platform에서는 다양한 수준의 저장소 복제를 통해 DR을 지원합니다.
Virtual Server DR
Virtual Server DR은 현재 사용 중인 Region과 다른 Region에 Virtual Server 및 이와 연결된 Block Storage를 복제하고, 재해에 대비한 계획 수립과 테스트, 그리고 실제 재해 발생 시 복구 기능을 제공하는 서비스입니다.
실제로 복제되는 것은 Block Storage이며, DR 사이트의 Virtual Server는 정지된 상태로 유지됩니다.
Backup DR
Backup DR은 서비스 생성 시 활성화할 수 있는 기능입니다. Backup DR을 활성화하면, 주 사이트에서 백업이 수행될 때, 해당 백업본이 DR 사이트에 복제되어 저장됩니다.
Object Storage DR
Object Storage DR은 주 사이트의 버킷과 DR 사이트의 버킷 간 동기화 설정을 통해 구성됩니다. DR 구성을 위해서는 주 사이트의 버킷에 버전 관리를 활성화해야 합니다.
File Storage DR
File Storage DR은 주 사이트 File Storage에서 DR Region, DR Volume명, 복제 주기 설정을 통해 구성할 수 있습니다.
복제 주기는 5분, 1시간, 매일, 매주, 매월 중 선택할 수 있는데, 매일 복제는 23:59:00, 매주 복제는 일요일 23:59:00, 매월 복제는 1일 23:59:00에 수행됩니다.
Database 서비스 DR
Database 서비스 DR에서는 주 사이트 마스터 DB의 Replica를 DR 사이트에 생성해서 구성할 수 있습니다.
Replica를 구성하면, 주 사이트의 변경 사항이 Replica와 동기화되어 반영됩니다.
Replica를 구성하기 위해서는 주 사이트의 VPC와 DR 사이트의 VPC 간에 Peering이 수립되어야 합니다.
재해 발생 시, DR 사이트의 Replica를 수동으로 Master로 전환해 가동합니다.
Container Registry DR
Container Registry DR을 사용하면 DR 레지스트리와 Object Storage 버킷이 다른 Region으로 복제됩니다.
이를 통해 한 Region의 Kubernetes Cluster의 이미지를 다른 Region으로 복제해 동일한 Kubernetes Cluster를 구성할 수도 있습니다.
File Storage DR과 함께 구성할 경우, Kubernetes Cluster DR을 구현할 수 있습니다.
※ Region 간 Container Registry 기능은 향후 출시 예정(‘26년)
재해 시 전환 계획 수립
서비스 정지가 발생하고 장애 등급 판단과 복구 가능 시간 판단을 통해 사전에 정의했던 시간 내에 복구가 불가능할 경우에는 재해를 선언하고 재해 복구 절차를 수행합니다.
재해 복구의 각 단계는 아래와 같습니다.
| 단계 | 활동 | 구성원 임무 |
|---|---|---|
| 재해 선언 | 재해 현황 파악 | - 대책본부 구성 - 비상통지 - 상황실 운영 - 현 재해 현황 파악 - 예상복구 시간 파악(주 센터) - 최고책임자 보고자료 작성 |
| 재해 선언 | 재해 복구 시스템 전환 결정 | - 예상복구 시간, 복귀 시간을 고려하여 전환 결정 - 재해 복구 시스템 전환 절차 통제 |
| 재해 복구 활동 | 재해 복구 센터로의 서비스 전환 | - 서비스 재가동 확인 - 재해 복구 센터에서의 장기 운영 대비 |
| 재해 복구 활동 | 주 센터 복구 | - H/W, S/W 공급지원업체에 복구 촉구 - 복구 불능 시 조달계획 수립(선 조치 후 조달 품의) - 재해 복구 전환 통제 및 최종 서비스 확인 보고 - 대내외 보고, 발표자료 준비 - 주 센터 복구시기 산정 및 복구센터 운영방안 마련 |
| 주 센터 복구 | 주 센터로의 복귀 결정 | - 복귀 방안 준비 및 시기 결정 - 주 센터 안정화 검증 - 복귀에 따른 서비스 전환 확인 - 전환 후 서비스 내역 및 문제점 파악 - 재해 복구 시스템 복귀 절차 통제 |
서비스 변경 관리
주 사이트와 DR 사이트의 일관성 유지
주 사이트에서 업데이트, 패치 등을 수행하면 DR 환경의 인프라 및 Application과 구성 상태가 달라질 수 있습니다.
이로 인해 재해 복구 수행 시 시스템이 정상적으로 작동하지 않을 수 있습니다.
따라서 테스트/스테이징 환경을 구성하여 먼저 변경 사항을 검증하고, 이를 주 사이트와 DR 사이트에 반영하여 배포의 일관성과 신뢰성을 높여야 합니다.
- 주 사이트에서 직접 변경을 수행하지 않고, 테스트/스테이징 환경을 통해 변경을 수행합니다.
- 소프트웨어 업데이트, 보안 패치, 인프라 구성 변경 등에 배포 환경을 활용하고, 주 사이트와 DR 사이트에 반영합니다.
자동화를 통한 변경 관리
서비스의 변경 작업을 수동으로 수행할 경우 다양한 변수가 발생할 수 있습니다.
이로 인해 주 사이트와 DR 사이트의 구성에 차이가 생길 경우, 재해 복구 수행 시 주 사이트의 기능이 DR 사이트에서 의도한 대로 작동하지 않을 수 있습니다.
따라서 배포 프로세스를 자동화화여 이와 같은 잠재적 오류의 영향을 최소화해야 합니다.
- 자동화 도구를 통해 인프라 템플릿을 관리하고, 배포합니다.
- 코드를 안전한 중앙 저장소에서 관리합니다.
- 지속적인 통합 및 지속적 전달(CI/CD)를 통해 개발부터 배포에 이르는 과정을 관리합니다.
장애/재해 대응 테스트
재해가 발생했을 때 DR 사이트 전환과 주 센터 복귀까지 절차를 수립하고, 정기적으로 이 절차의 정상 작동 여부를 확인합니다.
모의 훈련에서는 장애나 재해 상황을 가정하여 시스템과 대응 절차를 테스트합니다.
재해 복구 모의훈련에서 점검해야 할 주요 사항은 다음과 같습니다.
- 재해 복구 시스템의 데이터 정상 복구 유무
- 복구팀의 지휘 및 조정 체계
- 내/외부 의사소통 여부
- 재해 복구 시스템의 성능
- 주 센터 복귀 유효성
- 통지 절차 및 기타 제반 사항
- 장애나 재해 발생을 가정하여 팀이 수행해야 할 작업을 실제 수행하여 대응 능력을 향상시키고 개선 사항을 도출합니다.
- 재해 시 전환 계획에 따라 전환 절차를 수행하고 자동 전환 절차 수행이 정상적으로 작동하는지 점검합니다.
재해 복구 모의훈련 계획에는 일정과 조직 및 참여 인원, 훈련 범위 및 시나리오가 상세하게 명시되어야 하며, 시스템 명령어 수준까지 세부적으로 작성되어야 합니다.
또한 각 업무별 체크 리스트 및 관련 담당자와 비상연락망이 명시되어야 합니다.
아래 표는 재해 복구 훈련 절차 및 수행 내용에 대한 예시입니다.
| 순서 | 훈련방법 | 수행 내용 | 주관부서 |
|---|---|---|---|
| 1 | 사전준비 | - 업무영향도 파악 - 일정 및 방법 협의 - 관련 상세 작업계획 작성 및 승인 - 재해 복구 시스템 점검 및 미진 사항 조치 | 관련 실무 담당자 |
| 2 | 재해선언 | - 재해선포 및 통보 (주 센터, 재해 복구센터) | 비상대책반 |
| 3 | 재해 복구 시스템 가동 | - 재해 복구 시스템 가동 작업 실시 :DB, Server, APP, N/W 포함 | 시스템, 네트워크, 업무담당 |
| 4 | 업무 테스트 | - 자체 테스트 실시, 정상유무 판단 | 업무담당 |
| 5 | 재해 복구 시스템 실업무 전환 | - 모의전환 훈련 시에는 실 업무 전환 안함 | 시스템, 네트워크, 업무담당 |
| 6 | 정상여부 모니터링 | - 재해 복구센터 업무 수행 여부 모니터링 | 시스템, 네트워크, 업무담당 |
| 7 | 재해 복구 시스템 중단 | - 재해 복구 시스템 가동중지 | 시스템, 네트워크, 업무담당 |
| 8 | 업무 복귀 | - 주 센터 복귀 작업 실시 | 시스템, 네트워크, 업무담당 |
| 9 | 결과 정리 | - 일정, 절차, 훈련 결과 정리 - 미진 사항 확인 및 조치 | 관련 실무 담당자 |






