본문 바로가기

TECH ZOOM

미션 크리티컬 시스템의 예고 없는 중단


지속적인 시스템 운영을 위해 메인프레임 시스템의 주요 정보는 배치 프로세싱 작업을 통해 전송된다. 그런데 사소한 오류, 미처 파악하지 못한 에러가 발생하면 미션 크리티컬 시스템을 중단해야 할 수도 있다. 배치 작업을 위한 지속적인 데이터 보호를 위해 HDS(Hitachi Data Systems)와 21세기 소프트웨어(21st Century Software), 두 회사가 그 해답을 제시한다.



배치 작업의 복구, 무엇이 문제인가

IT 시스템 보호 기술은 지난 수십 년간 끊임없이 변화 발전해 왔다. 기업 사용자는 안전하면서도 시스템 운영이 원활할 뿐만 아니라 언제, 어디서나, 모든 종류의 디바이스에서 액세스할 수 있는 시스템을 요구한다. IT 아키텍처 역시 이러한 수요에 부응해 기존의 복구 방식에서 벗어나 CDP(Continuous Data Protection)[각주:1] 로 발전해왔다. 기존의 백업 및 복구 데이터 보호 아키텍처와 달리 CDP는 잦은 스냅 복제와 애플리케이션 로그 데이터셋(Log Dataset)을 수행한다.


이러한 환경에서는 오류 발생 시 데이터의 손상 혹은 동기화의 부재로 인한 문제 발생 가능성이 상존한다. 로그 데이터셋은 트랜잭션 상태를 오류 발생 직전의 상태로 되돌리는 데 사용된다. 그러나 배치 작업을 수행하면 손상됐거나 미처 파악되지 못한 오픈 데이터셋이 남아있을 수 있으며, 상호의존적인 복수의 배치 작업이 진행 중일 수도 있다. 사람의 손으로 일일이 현황을 분석해 적절한 오픈 데이터셋을 복구하고 시스템을 정상화한다는 것은 힘든 일이다. 여러 명의 전문가가 긴 시간을 투자해야 할 수도 있다.

다음과 같은 상황에 부딪치면 배치 작업에 어떤 일이 발생할까?






위와 같은 상황이 발생하면 애플리케이션 관리자들은 어떤 데이터셋이 손상 혹은 일관성 결여 상태인지를 파악하기 위해 스케줄러를 토대로 관련 작업 로그와 일지를 검토해야 한다. 만약 실수가 있거나 미처 파악하지 못하고 놓친 부분이 있다면 복구 시간은 훨씬 더 길어진다. 작은 에러가 누적되어 상황이 악화되면서 적절한 방식으로 작업을 재시작하지 못하면 시스템 중단이라는 치명적인 사태로 이어진다.

관리자가 배치 프로세싱의 어느 지점에서 문제가 발생했는지, 어떤 데이터가 일관성 결여 혹은 손상된 상태에 있는지 판단할 수 있어야 한다. 일관성 지점(consistency points) 자체만으로는 문제가 발생한 시간에 운영 중이던 배치 프로세스를 복구하기가 충분치 않다.

이처럼 복잡한 해결 과정이 수반되기에 배치 작업이 진행되지 않을 때 시스템 페일오버(Failover) [각주:2]테스트를 수행하는 기업들도 있다‘. 성공적인’ 테스트를 기대하면서 말이다. 그러나 배치 프로세싱이 진행 중일 때 시스템 페일오버를 소홀히 하면 결과적으로 더 많은 비용을 지불하게 될 수도 있다. 뭔가 더 나은 솔루션이 필요한 상황이다.




시스템 장애 발생의 80%는
손상된 데이터, 작업자의 실수, 하드웨어 오류에 기인한다.
5천 달러짜리 디바이스에서 오류가 발생하면 매출에 악영향을
미치고, 고객의 호감도와 생산성이 떨어진다.
또 데이터 복구를 위해 상당한 시간이 소요되며 시스템을
정상화하기까지 더 많은 시간과 노력이 필요하다.


어떤 솔루션이 필요한가

어떻게 하면 배치 프로세싱을 통해‘ 데이터베이스 수준’의 SLA(Service Level Agreements)에 도달할 수 있을까? 개별적으로 발생하는 오류는 불가피하다. 따라서 데이터를 이중화해야 시스템이 중단되더라도 영향이 없다.

지속적인 애플리케이션 솔루션을 확보하려면 무중단(Fault-tolerant) 스토리지 외에 다음 2가지가 더 필요하다. 첫째는 애플리케이션 상태와 데이터 체크포인트 및 복구에 필요한 효과적인 스냅샷과 복구 시스템이다. 두 번째는 여러 개의 데이터센터를 운영할 경우에 사용할 수 있는 원격 볼륨 복제 시스템이다. 이 경우 시스템 요구사항에 따라 동기 혹은 비동기 방식을 지원해야 한다.

이러한 요구사항을 지원하는 메인프레임 스토리지로는 Hitachi VSP(Virtual Storage Platform) G1000(이하 VSP G1000)을 들 수 있다. 그리고 배치 애플리케이션 보호 소프트웨어 제품군인 21세기 소프트웨어의 VFI 라인과 결합하면 지속적인 배치 컴퓨팅이 가능하다.



HDS의 솔루션, HDR Hitachi Distance Replication

사이트 중단 사태가 발생했을 때 지속적인 데이터 가용성이 보장되려면 스냅샷 볼륨을 원격으로 미러링해야 한다. 따라서 지속적 컴퓨팅의 핵심 요소인 신속한 복구 환경은 데이터센터 간 효과적인 복제가 가능할 때 구현된다고 할 수 있다.

이런 측면에서 Hitachi 스토리지는 독보적인 솔루션이다. VSP G1000이 제공하는 HDR 패키지에는 다기능 스토리지 시스템 기반 복제가 가능한 HUR(Hitachi Universal Replicator)과 HTC(Hitachi TrueCopy)가 포함돼 있다. Consistency groups[각주:3], 저널 기반의 원격복제, 다중 타깃 또는 종속 컨피그레이션(Cascade Configuration) 등 핵심 기능을 통해 동기 및 비동기 지원과 짧은 대기시간을 보장한다. HDR은 또한 성능 향상과 운영의 간소화를 위해 로컬 I BM 플래시 카피 스냅샷과 미러링된 원격 복제본을 통합할 수 있다. 21세기 소프트웨어의 VFI와 같은 애플리케이션은 플래시카피를 이용해 업데이트된 데이터셋을 HUR 또는 HTC 주요 볼륨에 직접 복제할 수 있다. HUR은 비동기 복제에, HTC는 동기 복제에 사용된다. HUR을 통해 생성된 제2의 복제본은 지속 상태를 유지하므로 시스템 페일오버 상황이 발생하면 즉각적으로 사용 가능하다. 이는 비동기 접속으로 데이터셋 레벨 플래시 타깃을 원격에서 직접 복제할 수 없는 다른 제품군과는 명확히 차별화되는 부분이다.


HDS의 SVOS(Storage Virtualization Operating System)가 탑재된 VSP G1000은 가상 환경의 메인프레임 스토리지 중 최우선적으로 꼽히는 시스템이다. VSP G1000은 가상 스토리지 서비스 수준 정책, 복제 및 계층화된 본연의 메인프레임 관리 기능을 제공한다. 또 연계된 메인프레임 스토리지에서 상세한 SMF(Service Management Facility) 기록과 시간대별 성능 보고 기능을 제공한다.


- 짧은 대기시간을 보장하는 비동기식 운영시 요구하는 네트워크 대역폭이 크지 않아 네트워크 비용 절감을 극대화할 수 있다.

- 저널 기반의 원격복제를 통해 데이터 지속성을 보장하는 RPO[각주:4] (복구 목표 시점) 관리가 가능해 데이터 손실이 최소화된다.

- Hitachi VSP G1000과 연결된 모든 종류의 스토리지를 지원한다.

- 최대 2,064개의 Consistency group을 통해 다중 볼륨, 다중 어레이 데이터셋을 지원한다.

- 중요한 데이터를 호스팅하는 스토리지 종류에 관계없이 재난 복구와 가동 시간에 대한 요구조건을 충족시킬 수 있도록 솔루션 구현을 간소화할 수 있다.

- 복제 네트워크의 중단 또는 최적의 대역폭이 허용되지 않는 상황에서도 생산 프로세싱에 미치는 영향이 최소화될 수 있도록 데이터 복제본을 통합 유지한다.

- 위기 상황과 응답 지연을 원천적으로 차단하고 운영의 효율성을 향상시킨다.




21세기 소프트웨어의 솔루션, VFI

21세기 소프트웨어(21st Century Software)의 VFI는 배치 환경을 목록화하는 애플리케이션으로 작업 데이터베이스와 데이터베이스 활동을 감시하고 생성한다. 배치 및 VSAM(Virtual Storage Access Method) 내의 모든 데이터셋이 언제 어떻게 사용됐는지를 목록으로 제공한다. 파일 사용과 상태에 대한 모든 정보는 가시성과 통합을 보장하며, VFIURA(Unified Recovery Architecture) 데이터베이스에 저장 돼 VFI 보고, 시뮬레이션, 복구 모듈에 사용되므로 어떤 종류의 장애 및 오류가 발생하더라도 관련 정보를 충분히 확보한 상태에서 필요한 조치를 취할 수 있다. 이처럼 작업별로 특화된 데이터베이스 정보는 사이트 시스템 페일오버 상황이 발생하면 신속한 원격 복구를 위해 전체 사이트에 걸쳐 미러링된다.

VFI 타임라이너 컴포넌트는 모든 작업, 단계, 데이터셋의 개방과 폐쇄에 대한 사항을 데이터베이스에 정보로 추가한다. 또한 SVC(SuperVisor call)활동과 시스템 초기화 및 추적을 통해 작업을 감시하며, VSAM과 비VSAM 데이터의 스냅샷을 확보해 작업 단계와 데이터셋 레벨 복구에 필요한 추가 정보를 적시에 핵심 포인트에 자동으로 기록한다.

VFI 타임라이너와 VFI 인스타스냅은 복구가 진행되고 있는 모든 작업 단계에 대해 PIT(Point-in-Time)[각주:5] 복제본을 제공하며, 오류 발생시 P IT 위치와 복구를 자동화한다. VFI에는 우선순위에 맞춰 작업 진행상황을 매핑하는 독립적인 매핑 컴포넌트가 포함돼 있다. 따라서 우선순위를 고려하지 않고 작업을 시작했다 하더라도 ‘건너뛸’ 가능성은 전혀 없도록 철저히 차단된다.

온라인 타임라이너(Online TimeLiner) 패널은 PIT를 확인하는데 사용되며, 모든 연속 작업을 리포팅해 복구에 필요한 모든 사항을 관리자에게 알려준다. 여기에는 데이터 입출력 지점도 포함된다. 관리자가 기존의 배치 작업을 확인할 수 있으므로 작업이 어떻게 수행되는지도 파악할 수 있다. 타임라이너가 사용하는 ISPF 패널은 어떤 작업과 데이터셋이 개방 상태인지, 혹은 동작 중인지 알 수 있도록 해주는 패널이다. 이후 VFI 인스타리스토어(InstaRestore) 기능을 통해 복구가 필요한 작업 또는 데이터셋을 관리자에게 알려준다. 관리자는 복구가 필요한 시점부터 작업을 재시작하면 될 것이다.




신용카드 정보처리 서비스 전문업체 A사

배치작업의 복구 자동화 솔루션 도입 RTO 15분 목표 달성


글로벌 신용카드 정보처리 서비스 전문업체(이하 A사)의 데이터 프로세싱 지속성과 가용성에 문제가 발생했다. 원활한 서비스 제공을 위해 고객단 애플리케이션의 트랜잭션 시간을 향상시키는 것이 최우선 과제로 떠올랐다. 신속한 계좌 액세스가 이뤄지지 않으면 고객은 즉시 경쟁업체로 등을 돌린다. 소중한 고객을 잃고, 소셜 미디어를 통해 그 사실을 알게 되는 건 불과 1분도 채 걸리지 않는다. 또 온라인의 특성상 신용카드 업계는 상호 교차적으로 맞물리는 경우가 많아 공유 PCI(Payment Card Industry)에 부합하는 서비스 레벨 표준도 준수해야 한다. 이 표준을 준수하지 않으면 상당한 벌금과 수수료까지 추가로 부담해야 할 수도 있다.

많은 나라에 데이터센터를 두고 있는 A사는 최근 모든 대(對)고객 시스템에 대해 15분의 RTO(Recovery Time Objective:복구 목표 시간) [각주:6]를 목표로 중요한 내부 시스템을 정비하기 시작했다. 가장 문제가 된 부분은 메인프레임 배치 프로세싱이었다. 기존 프로세스에서는 오류가 발생할 경우 문제 발생 단계와 작업 내용, 복구에 필요한 사항을 파악하기 위해 애플리케이션 관리자를 포함한 전문가를 소집해 팀을 꾸려 문제를 해결하곤 했다. 전문가 팀을 소집해 활동을 시작하기까지도 평균 15분 이상이 소요됐다.


애플리케이션 관리자들은 오류 발생 당시 수행 중이던 작업을 파악하기 위해 스케줄러를 체크해 상호 독립성을 확인해야 했다.‘ 모든 작업 오류가 동시에 발생한 것인가?’,‘ 오류 발생 기간은 얼마나 되나?’ 혹은‘ 어떤 데이터셋이 개방된 상태였나?’ 등의 점검을 마친 후에야 복구에 필요한 데이터셋을 결정했다.

이를 해결하기 위해 A사는 VFI를 활용한 배치 작업 복구 자동화를 선택했다. 사람의 손을 거치는 복구 작업 대신 프로세스 자동화를 택한 것이다. 설치와 셋업 절차는 간단하게 진행됐다. 시스템을 설치한 이후에는 생산 제어 시스템 프로그래머가 애플리케이션팀에 의존하거나 분석 작업에 별도의 시간을 투자하지 않고도 복구에 필요한 데이터셋을 간단히 결정할 수 있게 됐다.

이를 통해 궁극적으로 중요한 메인프레임배치 프로세싱 작업에 대한 15분 RTO 목표를 달성할 수 있었다. 운영 간소화와 효율성 향상뿐 아니라 개별 애플리케이션 관리자에 대한 의존도도 대폭 줄었다. 또한 단순한 실수가 더 큰 문제로 확산되면서 발생하는 다운타임을 피할 수 있게 되어 운영비용의 절감 효과까지 얻게 되었다.




  1. 1)CDP(Continuous Data Protection) : 모든 데이터가 언제 변경되더라도 백업되어 저장되는 기술로, 데이터의 변경 사항을 실시간으로 추적, 저장하므로과 거의 특정 시점으로 데이터 복구가 가능하다. [본문으로]
  2. 2)페일오버(Failover) : 컴퓨터 서버, 시스템, 네트워크 등에 이상이 생겼을 때 예비 시스템으로 자동 전환되는 기능이다. 시스템 대체작동 또는 장애 조치라고도 한다. [본문으로]
  3. 3)consistency group : 여러 위치와 애플리케이션을 대상으로 스냅샷 작업을 동시에 처리할 수 있는 기능으로 데이터 정합성에 대해 걱정할 필요가 없다. [본문으로]
  4. 4)RPO(Recovery Point Objective) : 복구 목표 시점. 장애가 발생할 경우 데이터 손실에 대해 현실적으로 수용할 수 있는 복구량 [본문으로]
  5. 5)PIT 복사(Point-In-Time copy) : 미래에 사용하기 위해 비축해 두었던 기업 데이터의 순간 복제본 복사이다. 스냅샷의 빈도는 비즈니스적 요구와 위험성에 따라 결정된다. [본문으로]
  6. 6)RTO(Recovery Time Objective : 복구 목표 시간. 시스템에 문제가 발생한 이후 백업 솔루션을 이용해 정상적으로 가동하는 데까지 걸리는 시간 [본문으로]