skip to Main Content
판교 데이터센터 화재 사건으로 알아보는 재해복구 자동화의 중요성

판교 데이터센터 화재 사건으로 알아보는 재해복구 자동화의 중요성

지난 15일 판교 데이터센터의 화재로 인해 카카오의 서비스 장애가 장시간 이어지면서 이용자들이 큰 피해를 입었습니다.
데이터센터를 운영하는 기업 뿐 아니라 카카오처럼 데이터센터에 입주하는 업체도 자체적인 재해복구(Disaster Recovery, 이하 DR) 계획을 수립해야 하는데 카카오가 이를 제대로 하지 않았기 때문에 사태가 커졌다는 것이 IT 전문가들의 대체적인 의견입니다.

재해복구 구축의 필요성과 어려움

DR시스템 구축은 지진, 화재 등의 재난 및 시스템 장애 상황에서도 인프라 중단 피해를 최소화하여 업무 연속성을 확보하고 IT 자원을 보호하는 것으로, 비즈니스 운영의 필수로 자리잡고 있습니다. 카카오 사태를 통해 확인한 바와 같이, DR은 비즈니스 운영 연속성 측면에서 매우 중요한 요소입니다. 기업은 데이터 센터가 멈출 때 커다란 손실을 입고, 이러한 손실 비용은 생산성 저하와 기업의 명성에 크나큰 해를 끼치게 되기 때문입니다.
하지만, DR 시스템을 구축하고 운영하기는 쉽지 않습니다. IT 비즈니스 환경이 복잡해짐에 따라 관리 해야하는 자원들이 증가하였으며, 시스템 간 상호 의존성이 커지고 복잡해지면서 DR 문서를 다루는 것도 어려워졌습니다.
DR시스템을 구축한 이후에도 지속적인 테스트와 모의훈련을 통해 결함을 미리 사전예방 해야 하는데 현실은 그렇지 못하며, 실제 DR 상황에서는 많은 인적 요소와 수작업에 의존하고 있어 복구시간목표는 증가하게 됩니다. 또한, 일일이 재해복구를 구축하고 운영해야하는 담당자는 업무량의 증가로 업무 효율성이 떨어집니다.

DR시스템을 자동화하게 되면 담당자는 마우스 클릭을 통해 신중하게 설계되고 테스트 된 자동 DR 프로세스를 시작할 수 있습니다. 완전한 서비스가 온라인 상태에 도달할 때까지 구성 요소를 복원하는 정확한 순서로 일련의 동작을 시작하므로 시간 소모적인 수동 절차가 필요하지 않습니다. 또한, 여러가지 상황을 고려해야 하는 변수가 제거되므로 실제 구현에 대한 압박으로 실패할 수도 있는 인적 요소에 의존하지 않게 됩니다.

재해복구 운영 자동화 솔루션 MDRM

맨텍의 MDRM은 워크플로우 자동화, 복구 과정의 가시화, 위험도에 대한 모니터링과 예측을 통해 재해복구 센터 운영 자동화를 제공하는 솔루션입니다.  

 1)재해복구 자동화

재해복구 센터 운영의 가장 큰 목적은 비즈니스 연속성을 유지하기 위한 것입니다. MDRM은 워크플로우 엔진을 통해 복구 프로세스를 가시적으로 손쉽게 정의할 수 있습니다. 재해복구 과정을 제대로 이해하고 있는 운영 인력을 유지하고 관리하는 어려움과 인적 에러의 발생 가능성을 차단하고 문서화되지 못한 문제점들을 자동 복구 기능으로 쉽게 해결할 수 있습니다.

2)직관적인 워크플로우

전산 센터 내의 모든 자원들은 상호 의존성을 가지고 구동됩니다. 이런 자원들은 정해진 순서와 절차에 의해 기동해야만 정상적인 서비스가 가능합니다. GUI를 통해 자원 간 복구 흐름도 및 실행 절차를 만들고 다양한 흐름도를 한눈에 파악할 수 있으며 복구 단계 수행 시점도 확인할 수 있습니다.

3) 원 클릭 모의 훈련

재해복구 센터를 상시 운영 가능 상태로 유지하는 것은 매우 중요합니다. 재해를 가정한 모의 훈련은 기존 운영 환경에 지장을 줄 수 있으며 업무 기동을 위한 인력 소모가 많고 그 과정 또한 재해복구 만큼이나 복잡합니다. MDRM은 모의훈련 워크플로우를 별도로 정의하여 기본 운영 환경에 영향을 주지 않고 원 클릭으로 수행할 수 있습니다.

4) SLA(Service Level Agreement) 준수 관리

운영중인 재해복구 센터의 RPO와 RTO에 대한 목표 수준을 준수하고 있는지에 대해 모니터링 하고 결과를 문서화 합니다. SLA에서 벗어나는 자원들을 사전에 발견하고 이에 대한 보완을 통해 SLA에 부합하도록 서비스를 운영할 수 있습니다.

5) 대시보드

웹 기반의 대시 보드를 통해 상태 현황을 모니터링 할 수 있습니다. 직관적인 대시보드를 통해 높은 가독성을 제공하고 전체적인 시스템 및 네트워크, 복제 상태에 대한 통합적인 관리 기능을 제공합니다

MDRM 적용 프로세스

MDRM은 IT 전문가들의 다양한 프로젝트 경험과 체계적인 기술을 통해 다양한 업무와 시스템에 대한 상관관계를 정의하고 이를 자동화하여 운영 효율성을 높일 수 있는 방안을 제시합니다.  

🎬 MDRM 구축사례 영상

[한국중부발전] 센터 이전 및 재해복구 자동화를 통한 업무 연속성 강화

https://youtu.be/TNmIowp0L8M

[K도서관] 다양한 환경 (물리, VM / Unix, Linux)에서의 재해복구 자동화 구축

https://youtu.be/jkMFCQyBigM

📰 MDRM의  다양한 기능은 브로셔 확인!

📚 다양한 기업의 MDRM 구축 사례는 사례집 확인!


Back To Top