[이해하기] DR (Disaster Recovery, 재해복구)

IT 분야 에서의 DR (Disaster Recovery, 재해복구) 이란, 각종 재해 및 위험요소에 의해 서비스나 시스템이 중단 됐을 때 이를 정상 상태로 복구시키는 것을 의미합니다.

IT 영역 에서의 재해는 다음과 같은 경우를 모두 포함합니다.
(1) 외부 요인
– 지진, 태풍, 홍수, 화재 등의 자연 재해
– 테러로 인한 폭파, 전쟁, 해킹, 통신 장애, 전력공급 차단 등의 인위적인 재해
(2) 내부 요인
– 시스템 결함, 기계적 오류, 관리 정책 오류, 사용자 실수, 기타 장애

특히 위와 같은 상황에서의 재해복구를 위한 계획 및 이를 지원하는 시스템을 각각 재해복구계획 및 재해복구시스템 이라고 표현합니다.


1. 관련 핵심 용어

– 백업 (Backup) : 백업은 데이터의 특정 시점에 대한 복사본 (Snapshot) 을 만드는 것입니다. 이를 바탕으로 메인 시스템에서의 데이터가 유실되었을 때, 특정 시점까지 백업된 데이터를 해당 시스템으로 복구하여 데이터 유실을 방지할 수 있습니다. 백업의 대상이 되는 데이터의 종류는 비구조적일 수도, 구조적일 수도 있습니다. (예> 파일, 블록 또는 이미지 등) 또한 백업 방식 또는 백업이 되는 데이터의 방식마다 각각 장단점이 있으므로 다양한 변수를 고려하여 적합한 백업 또는 백업 솔루션을 계획하고 구축해야 합니다.

– 복제 (Replication) : 재해 발생을 대비하여 한 위치에서 다른 위치로 데이터를 복사하는 것을 의미합니다. 동기 복제 방식은, 동시에 주 스토리지와 보조 스토리지로 데이터를 써서 두 곳이 항상 동기화되도록 하는 것입니다. 또한 동기 복제는 핵심 애플리케이션의 고가용성 (HA) 을 제공합니다. (두 스토리지가 항상 Standby 상태) 따라서 주 스토리지에서 복제본으로의 페일오버 (Fail-over) 는 거의 즉각적으로 이뤄지므로 사용자가 경험하는 장애는 거의 제로에 가깝습니다. 비동기 복제 방식은 이와 달리 데이터를 먼저 주 스토리지에 저장한 다음 복제 스토리지로 복사합니다. 이 경우 복제는 예약에 따라 실시되는 경우가 많습니다. 따라서 비동기 복제는 비교적 비용이 저렴하고 대역폭이 덜 필요하며 거리 멀더라도 쉽게 구현할 수 있습니다.아울러 재해 복구 차원에서 복제를 사용하는 것 뿐 만 아니라 부하 분산 목적으로도 복제 본을 운영할 수 있습니다. (예> 데이터베이스의 Read 전용 복제본 별도 운영하여 부하를 분산)

– 지속적 데이터 보호 (CDP : Continuous Data Protection) : 지속적인 백업 또는 실시간 백업 이라고 합니다. 즉, 데이터에 대한 모든 변경 사항들의 복사본을 자동으로 즉시 저장하여 어느 시점의 데이터를 복원할 수 있도록 하는 데이터 백업 방식을 의미합니다.

– 비즈니스 연속성 계획 (BCP : Business Continuity Plan) : 비즈니스 연속성은 ‘비즈니스 회복성’ 이라고도 하며, 광범위한 형태로 비즈니스가 연속적으로 운영될 수 있도록 하는 일련의 백업 플랜, 데이터 보호 등을 지칭합니다. 따라서 ‘재해복구’ 의 경우와 마찬가지로 데이터와 IT 서비스의 복원/복구를 포함하지만, 재해가 발생하는 도중 비즈니스 운영을 지속하기 위한 프로세스와 절차도 포함합니다.

– 고가용성(HA : High Availability) : 재해가 발생하더라도 비즈니스 운영이 중단되지 않고 지속되도록 하는데 도움이 될 수 있는 솔루션 또는 기술의 특성을 의미합니다. 서비스나 시스템 하나에 장애가 발생하여 정상 동작 하지 않으면, 다른 하나로 신속하게 페일오버 (Fail-over) 하여 서비스가 중단되지 않도록 합니다. 단, 고가용성은 손상에 대비한 보호 기능은 제공하지 않기 때문에 전체적인 DR 전략/계획을 대체할 수는 없으므로 이를 유의해야 합니다.


2. DR 대비 절차

(1) 복구 범위 정의
위에서 언급한 비즈니스 연속성을 확보하기 위해 재해 복구 계획의 대상에 어느 범위까지 포함할 것인지를 정의합니다. 예를 들어, 사무실 내의 내부망에 장애가 발생하더라도 재택 근무를 통해 비즈니스 연속성을 확보할 수 있다면 재해 복구 대상에 사무실의 네트워크는 포함하지 않을 수도 있습니다.

(2) 복구 조직 및 역할 구성
재해 상황에서 재해 복구를 위한 별도의 조직 및 각 역할을 분담합니다. (예> 화재 발생 시, 대피 유도 인원과 1차 화재 대응 소방수 지정 등)

(3) 재해 대비 계획 또는 복구 계획 및 절차 수립
업무의 중요도와 우선 순위에 따라 복구를 진행 또는 재해 대비 계획을 수립합니다. 예를 들어 위에서 언급한 상황에서는 사무실의 네트워크 복구보다 백업 장치로 부터 유실된 데이터를 복구하는 작업이 더 높은 우선순위일 수 있습니다.

(4) 데이터 백업 및 관리
복구 또는 재해 대비 계획에 따라 효과적이고 비용 효율적인 데이터 백업을 실시하며 관리합니다. 백업 방법은 다양한 고려 사항에 따라 여러가지가 있을 수 있습니다. (예> 외부 벤더를 활용, 자체 백업 시스템 구축 등)

(5) 사전 테스트
테스트를 하여 재난 발생 시 소요되는 시간 및 문제점 등을 사전에 확인하고 예방 조치를 해야 합니다. (예> 모의 훈련 실시 등)

(6) 사후 점검 및 보완
여러가지 시나리오 분석, 테스트 그리고 평시 재해 복구 대비 백업 운용 등에서 확인된 보완이 필요한 사항들에 대해 후속 조치를 하는 작업을 진행합니다.


3. 재해복구시스템 구분

아래와 같이 데이터 백업을 위한 다양한 재해복구시스템을 구분할 수 있습니다.

(1) 구축/운영 형태별 구분
– 자체 구축/운영
– 공동 구축/운영
– 위탁 구축/운영

(2) 복구 수준별 구분
– 미러 사이트 (Mirror Site) : 실시간 미러링으로 주 센터와 백업 센터 데이터를 동기화 하여 백업하는 방식입니다. 즉, 재해나 장애가 발생할 시에도 서비스에 영향이 없는 복제 시스템을 구성합니다. (주 센터 및 백업 센터간 네트워크도 이중화 구성 포함)
– 핫 사이트 (Hot Site) : 주 센터와 백업 센터 간의 데이터만 이중화하는 방식입니다. (네트워크 이중화 등은 포함하지 않음)
– 웜 사이트 (Warm Site) : 주기적으로 데이터를 백업하여 로컬이나 원격지에 해당 백업 데이터를 보관 및 소산하는 방식입니다. 저비용으로 백업이 가능하다는 장점이 있습니다. (예> 테이프나 디스크에 저장)
– 콜드 사이트 (Cold Site) : 주요 업무에서 발생하는 데이터들을 특정 시점에 백업하는 방식입니다.


4. 재해복구솔루션 예시

다양한 물리적/논리적 시스템/소프트웨어 또는 네트워크 구성등을 이용하여 아래와 같이 이중화/분산화된 구성을 통해 재해복구솔루션을 구축할 수 있습니다.

| 재해복구대비 시스템 구성도 예시







#Steven

답글 남기기