최근 국가정보자원관리원(이하 국정자원)에서 발생한 화재로 정부 주요 시스템이 일시적으로 중단되는 사태가 있었습니다. ‘전자정부의 심장’이라 불리는 기관의 업무가 멈추면서, 정부 업무 시스템 647개가 동시에 먹통이 되는 초유의 사태가 발생했고, 정부24, 복지로, 나라장터 등 국민들이 일상적으로 사용하는 핵심 서비스들이 큰 불편을 겪었습니다.
이 사건은 단순한 시스템 장애를 넘어, 재해복구(Disaster Recovery, DR) 체계 전반에 대한 근본적인 점검이 필요함을 보여준 계기입니다. 특히, 단순한 백업 구축 수준을 넘어 이중화와 운영 자동화까지 포함한 ‘지속 가능한 DR 체계’의 중요성이 다시 한번 부각되었습니다.

국정자원 화재가 드러낸 재해복구 시스템의 현실적 한계
국정자원 화재 사태에서 가장 심각하게 드러난 문제는 바로 시스템 이중화 체계의 부재였습니다. 이중화는 재해복구 시스템의 핵심 요소임에도 불구하고, 실제 구동에 필요한 시스템은 이중화가 제대로 이루어지지 않았습니다.
- 운영 가능 시스템의 한계: 백업 체계가 일정 수준 갖추어져 있었지만, 실제 재해 발생 시 즉시 전환이 가능한 수준의 복구 환경은 부족했던 것으로 분석됩니다. 이는 예산, 우선순위, 시스템 구조 등 여러 현실적 요인이 복합적으로 작용한 결과로 볼 수 있습니다.
- 이중화 구조의 불균형: 데이터는 복제되어 있었으나, 서비스 구동을 위한 시스템 레벨의 이중화(서버·애플리케이션·네트워크)가 완전하게 구성되지 않아 서비스 연속성 확보에 어려움이 있었던 것으로 파악됩니다.
이처럼 재해복구 시스템이 단순 백업 수준에 머물거나, 구축되었더라도 실제 운영 능력을 갖추지 못한다면 비즈니스 연속성 요구를 충족시킬 수 없습니다.
왜 재해복구 시스템을 자동화해야 하는가?
재해복구 시스템이 통합 관리 및 자동화 관점으로 변화해야 하는 이유는 기존의 재해복구 방식이 가진 현실적 한계를 극복하고, 갈수록 복잡해지는 IT 환경에 대응하기 위함입니다.
1. 복구 시간 목표(RTO) 증가 및 휴먼 에러 방지
가장 큰 문제는 수작업 복구로 인해 복구시간목표(RTO)가 증가한다는 점입니다. 재해 발생 시 복구 절차가 복잡하고 수많은 단계를 거쳐야 하는데, 이를 수작업으로 처리할 경우 복구 시간이 늘어날 뿐만 아니라, 휴먼 에러의 위험성이 매우 높아집니다. IT 자동화 솔루션 MDRM은 다음과 같은 이점을 제공하여 이 문제를 해결합니다.
1) 복구 시간 단축: 워크플로우 자동화를 통해 복구 과정을 표준화하고 순차적 또는 병렬적으로 실행하여 복구 시간을 획기적으로 줄입니다.
2) 휴먼 에러 방지 및 복구 실패 원천 차단: 정의된 워크플로우에 따라 자동 실행되므로, 사람의 실수로 인한 장애나 복구 실패를 방지하고 원천 차단할 수 있습니다.
3) RTO/RPO 관리 용이성: 워크플로우 전체 및 단계별로 RTO(복구 시간 목표)를 설정하고, 실제 소요 시간을 직관적으로 확인하여 목표 초과 여부를 관리할 수 있습니다. 또한 운영 서버와 DR 센터 간의 복제 상태를 모니터링하여 RPO(복구 시점 목표) 관리가 용이해집니다.

2. 복잡성 증가 및 전문성 저하 문제 해결
IT 환경은 날로 복잡해지고 있습니다. 가상화 및 클라우드 기반 인프라가 증가하고 있으며, 관리해야 할 자원 또한 폭발적으로 늘어나고 있습니다.
• 이기종 환경의 복잡성: 수많은 이기종 벤더 간의 업무가 복잡해지면서 업무량이 증가하고, 이는 곧 담당자의 전문성 저하로 이어집니다.
• 통합 관리 및 표준화 필요: 재해복구 적용 대상 업무가 증가하면서 관리의 문제점이 대두되며, 이에 따라 통합 관리, 표준화, 자동화의 필요성이 대두 되었습니다. MDRM은 서버, 가상화, 애플리케이션, 데이터베이스, 스토리지, 네트워크 등 다양한 컴포넌트에 대한 통합 관리 및 모니터링을 제공합니다. 템플릿 정의를 통한 워크플로우 구성 표준화는 업무별 가동 절차 관리를 효율화하여 생산성을 증대시키는 데 기여합니다.
3. 운영 및 검증의 효율성 확보
재해복구 시스템을 구축하더라도, 시스템 변경 발생 시마다 훈련을 실시하는 것은 매우 어려운 일입니다. MDRM은 이러한 어려움을 해소합니다.
• 운영 자동화 기능: 재해복구 뿐만 아니라 IPL(Initial Program Loader), 모의훈련, 일일점검 등 다양한 업무에 운영 자동화 기능을 적용할 수 있습니다.
• 복구 과정 가시화 및 검증 용이: 워크플로우 실행 시 각 작업의 진행 과정을 가시화하여 실패 시 에러 메시지를 통한 신속한 조치가 가능합니다. 또한 ‘선택 실행 모드’를 통해 워크플로우 전체를 실행하지 않고 단위 작업에 대해 검증할 수 있어 각 단계에 대한 검증이 용이합니다.
| 구분 | 기존 DR 방식 | 자동화 기반 DR(MDRM) |
| 복구 절차 | 수작업 중심 | 워크플로우 자동 실행 |
| 복구 시간(RTO) | 수시간~수일 | 수분~수십분 단축 가능 |
| 복구 정확도 | 인력 의존 | 절차 표준화로 오류 최소화 |
| 검증 및 모의훈련 | 수동 테스트 | 부분 실행·자동 검증 지원 |
| 관리 대상 | 개별 자원 단위 | 통합 콘솔 기반 관리 |
통합관리 및 자동화로의 변화는 선택이 아닌 필수
국정자원센터 화재 사태는 ‘재해 발생 시 3시간 이내 복구 가능’하다고 공언했던 기존 정부의 재해복구 체계가 실제로는 충분히 검증되지 않았음을 보여주었습니다. 이 사건은 단순히 백업 데이터의 보유 여부가 아니라, 실제 재해 상황에서 복구 절차가 얼마나 신속하고 정확하게 수행될 수 있는지가 핵심임을 일깨워주었습니다. 재해복구 시스템은 이제 실시간 복제를 기반으로, 최종적으로 통합 관리 및 자동화 관점으로 변화해야 합니다. 자동화된 DR 체제는 복구 과정의 가시화를 통해 투명성을 높이고, 위험도에 대한 모니터링 및 예측을 통해 안정성을 확보하며, 나아가 향후 확장성/활용 방안에 대한 경제성 확보에도 기여할 수 있습니다.