본문 바로가기

TECH ZOOM

인공지능과 데이터센터, 통합의 시작



PART01 인공지능과 데이터센터, 통합의 시작

기업들이 현재 운영 중인 데이터센터도 처음에는 최신 기술로 무장한 첨단 시스템이었을것이다. 하지만 기술과 비즈니스는 그 어떤 분야보다 빠르게 변화 발전하고 있다. 디지털 엔터프라이즈가 성장함에 따라 사용자 수, 데이터 소스, 애플리케이션도 끊임없이 증가한다. 시간이 흐를수록 비용효율성은 사라지고, 데이터 보호에 초점을 맞추지 않으면 리스크에 노출될 위험도 높아진다.

이러한 변화에 부응하면서 데이터를 활용하려면 어떻게 해야 할까? 데이터센터가 최상의 상태를 유지하는 동시에 증가하는 복잡성에도 대응할 수 있게 해주는 방법이 있다. 바로 인공지능이다.

데이터센터 현대화는 서비스 수준 목표에 도달하고, 운영 오버헤드는 대폭 줄일 수 있도록 예측과 진단을 거쳐 자동화되는 소프트웨어를 사용하는 것을 전제로 한다. 이는 고객 경험과 운영 효율성이 늘 최상의 상태를 유지하고, 데이터센터 관리자가 전략적인 비즈니스 성과에 집중할 수 있는 환경의 기반이 된다.

인공지능을 기반으로 하는 운영 소프트웨어는 새로운 업무 지원 혹은 노후화된 장비 해체등의 변화로 인해 현재 운영 중인 데이터센터 ‘프로파일’이 영향을 받게 될 경우 그 적절한 시점도 결정할 수 있다. 이러한 프로파일에는 인프라 구매 주기에 영향을 미치는 성능, 안정성 또는 리소스 사용 등이 모두 포함된다. 인공지능에 기반하여 증가하는 데이터센터 복잡성을 관리함으로써, 기업은 시장 대응력 향상, IT 인프라 관리 및 운영 최적화, 보다 신속한 문제 해결, IT 직원들의 성과 향상 등을 기대할 수 있다.

인공지능으로 얻은 IT 자동화

인공지능 기반 관리 소프트웨어가 애플리케이션을 포함한 모든 IT 인프라를 매끄럽고 완벽하게 모니터링하고 제어하는 데이터센터를 상상해보라. 그 상상의 끝에는 데이터센터의 효율성, 생산성 및 가용량 극대화가 있을 것이다. 관리자는 새로운 인프라 도입을 계획하거나 데이터센터를 혁신하는 방안을 수립하는 일에 힘을 기울일 수 있다.

히타치 밴타라 엔지니어링 및 제품 매니지먼트 부문의 수석 부사장인 리치 로저스는 “IoT(Internet of Things, 사물인터넷)와 인공지능을 통해 데이터센터에서 발생하는 문제들의 근본 원인을 파악하고 해결하는 것을 자동화할 수 있을 것”이라고 강조한다. 이제 더 이상 데이터센터 관리자가 한밤중의 정전 사태를 해결하기 위해 깨어있을 필요가 없게 될 것이란 의미다. 더불어 그는 “데이터센터 관리자는 어느 곳에 있든지 음성 기술을 통해 언제라도 데이터센터를 모니터링하고 관리할 수 있게 될 것”이라고 전망했다.

또한 IT 인프라는 독자적으로 배치 및 관리될 것이다. 그는 “데이터센터 관리의 측면에서 담당자가 할 일은 새로운 컴퓨팅 노드와 디스크 드라이브를 갖춰놓는 것뿐이다. 로봇공학이 시스템에 필요한 기술을 적용시킬 것”이라고 설명했다.


목표는 제로 다운타임

인공지능 기반의 데이터센터 자동화가 궁극적으로 추구하는 바는 제로 다운타임을 목표로 IT 관리 서비스를 가속화하는 것이다. IT 인프라가 점차 복잡해지고 기업의 필수 요소로서 그 역할이 확대되고 있기 때문에, 지금과 같이 리소스 집약적인 접근 방식으로는 더 이상 통제하기 어려울 것이다.

하지만 시스템 중단이 발생한 이후에야 원인을 파악하고 문제 해결을 위해 리소스를 투입하는 일은 앞으로 사라지게 된다. 급증하는 스마트 센서를 통해 다양한 데이터센터 구성요소들로부터 데이터를 취합할 수 있기 때문이다. 카네기 멜론 테퍼 비즈니스 스쿨( Tepper School of Business)의 비즈니스 테크놀로지 부교수 파람 비르 싱은 “취합된 데이터는 고도화된 알고리즘을 통해 전체 시스템에 대해 발생 가능성이 있는 문제나 이상징후를 분석해 데이터센터 관리자에게 통지한다.”고 언급했다.

데이터센터 운영과 인공지능을 통합하기 위한 첫 단추는 자동화 전략을 정의하고 구현하는 것이다. 그 다음은 첫 활용의 범위를 결정해야 한다. 정책 기반의 시스템 운영에 초점을 맞출 수도 있고, 아니면 예측 개발을 위한 머신러닝을 먼저 시작한 후 이를 기반으로 인프라 운영을 자동화할 수도 있다.

시간 소요가 많은 반복적인 IT 업무는 인공지능 기반의 자동화를 처음 적용할 때 가장 적합하며 이상적인 분야다. IT 자동화 및 통합 플랫폼 개발업체 아예후(Ayehu)의 공동 창업자겸 CEO 개비 니즈리는 “서버 재시동, 디스크 공간 복원, 패스워드 재설정 등의 단순 반복 업무는 인공지능을 즉각 적용해 이점을 얻을 수 있는 좋은 사례다. 또한 데이터센터 내 IT 컴플라이언스 보장, 모든 비즈니스 서비스에 대한 정책 관리 통합 등에 사용되는 사례도 많다.”고 조언했다.

자동화가 가장 빛을 발하는 순간 중 하나는 무언가를 빨리 처리해야 할 때다. 쥬니퍼 네트웍스 엔지니어링 부사장 수미트 싱은 “각 기업의 문제해결 워크플로우를 파악하고 있어야 자동화의 결과물도 만족스러울 수 있다. 하나의 워크플로우를 동시에 타겟팅하는 것도 중요하다. 그래야 데이터센터 프로세스 자동화의 성과를 극대화 수 있다.”고 조언했다.


히타치 밴타라, 엔터프라이즈 스토리지용 인공지능 SW 출시

스토리지 업계는 최근 히타치 밴타라가 제시한 인공지능으로 또다시 주목 받기 시작했다. 히타치 밴타라의 수석 부사장인 이리 트라샨스키는 “스토리지 분야의 소프트웨어 인텔리전스는 인프라 도입 계획을 수립하거나 문제 상황을 예측하는 등 지극히 일상적인 범위에서부터 시작된다.”고 언급했다. 그에 따르면 애플리케이션과 인프라의 성능 관리가 이 범주에 들어간다. 히타치 밴타라의 IoT 플랫폼인 루마다(Lumada)는 이미 AI 개발을 추진하기 시작했고, 향후 히타치 그룹 전체에 소프트웨어 인텔리전스가 활용될 것으로 기대된다.

히타치 밴타라는 예측 분석(Predictive Analytics)과 IT 자동화 소프트웨어가 포함된 새로운 고성능 스토리지 시스템으로 제시했다. 말하자면, 물리적으로 설치되는 데이터센터 로봇처럼 인공지능과 로봇공학이 스토리지의 설치, 관리 및 유지 영역에 적용된 것이다. 이리트라샨스키 부사장은 “전 세계 비즈니스 및 I T 리더들이 자사의 대규모 데이터 관리 및 디지털 트랜스포메이션의 일환으로 예측 분석 및 자동화 기능을 통해 데이터 이슈에 대응할 수 있도록, 히타치는 인공지능 운영 소프트웨어 포트폴리오를 업계 최고 수준으로 향상시켰다.”고 강조했다.



PART02 데이터센터 현대화, 인공지능 스토리지로 앞당기다 스토리지 진화의 시작 ‘Hitachi VSP’

수많은 IT 시장조사기관들이 전통적인 스토리지의 자리를 클라우드 스토리지나 하이퍼컨버지드 기반의 SAN 스토리지가 대체할 것이며, 올플래시 스토리지가 급격하게 성장할 것이라고 예견했다. 그리고 그 예견은 적중했다. 올플래시 스토리지는 지난 2017년 기준으로 전년 대비 무려 60%의 성장세를 보이며 하드디스크 기반의 스토리지 시장을 잠식해 나가고 있다.

여기서 주목해야 할 부분이 있다. 초기에는 스타트업 기반의 신생 올플래시 스토리지 업체가 “올플래시 스토리지는 기존 스토리지와 완전히 다르다.”고 주장하며 시장을 적극적으로 리드해 나갔다. 일면 그들의 전략은 성공하는 듯 했지만 현 시점에서 보면 결과가 판이하게 다르다. 정작 올플래시 스토리지 시장을 폭발적으로 성장시킨 것은 전통적인 스토리지 업체였다. 2017년 시장점유율을 보더라도 기존의 스토리지 전문 벤더 3개사가 80%나 차지하고 있다.

이는 데이터 저장 기술이 데이터 처리보다 더 민감한 기술이라는 점을 시사한다. 트랜잭션은 실패한다 하더라도 다시 실행하면 된다. 물론 업무 지연으로 인한 비즈니스 손실이 있을 수 있다. 하지만 데이터가 제대로 저장되지 않는다면? 이는 다른 차원의 이슈로 직결된다. 가령 911 테러 이후 전산시스템 복구에 4일 이상 소요된 기업의 90%는 폐업하고 말았다. 그들이 폐업에 이른 것은 서버가 파괴되었기 때문이 아니다. 데이터를 제때 복구하지 못했거나, 아예 복구할 수 없었기 때문이다.

고객들은 스토리지 도입 과정에서 안정성과 기능을 고려하지 않을 수 없다. 올플래시 스토리지는 더 빨라진 만큼 더 안정적인 운영이 보장되어야 한다. 그러나 스타트업 기반의 올플래시 기업들이 내놓은 올플래시 스토리지는 어떠했는가? 그들이 약속했던 것과 다르게 불안정한 펌웨어로 인해 데이터 손실이 발생하기도 했고, 이를 방지하기 위한 재해복구 기능이 아예 없는 제품도 있었다. 결국 시장조사기관들의 예측대로 올플래시 스토리지의 세상이 되었지만, 이변은 없었다. 여전히 전통적인 스토리지 전문 벤더들이 주도하는 세상이 되었다.

최근 들어 비용 절감과 IT 혁신을 위해 클라우드 구축을 검토하는 기업들이 늘고 있다. 그리고 수많은 클라우드 업체와 소프트웨어 업체들은 ‘소프트웨어정의’를 외치며 범용 서버만으로도 기존 스토리지보다 더 유연하고 강력한 스토리지 인프라를 구축할 수 있다고 주장한다. 어떻게 보면 불과 몇 년 전의 올플래시 시장을 떠올리게 만드는 양상이기도 하다.

이번엔 이들을 믿을 수 있는가? 우선 그들이 고객들에게 자신 있게 제시하는 솔루션들의 대부분은 시장 검증 기간이 길지 않았다. 또한 많은 기능들이 아직 업데이트 과정에 있고, 이 또한 검증을 위한 시간이 필요할 것이다. 과연 수십 년 동안 스토리지만을 연구하고 만들어 온 전문 벤더들보다 더 잘 할 수 있을지를 되물을 필요도 없이, 실제로 오픈스택이나 가상화 소프트웨어 기반의 스토리지를 미션 크리티컬한 업무에 적용하려는 고객은 드물다는 것이 많은 것들을 설명해준다.


데이터센터 현대화를 위한 스토리지의 조건

고려사항1 : 민첩한 데이터 인프라 (Agile Data Infrastructure)

현재 클라우드의 민첩함을 구현하기 위한 기술로 ‘컨테이너(Container)’가 각광 받고 있다.

컨테이너는 클라우드와 같은 분산 애플리케이션 환경에서 최소의 용량으로 구동되고 배포와 실행이 손쉬운 차세대 가상화 기술이다. 일반적으로 가상 머신(Virtual Machine, VM)에서는 운영체제(이하 OS)를 포함해 서버를 통째로 가상화해 관리한다. 반면 컨테이너는 애플리케이션에 필요한 OS의 커널과 애플리케이션만 가상화 한 형태로 제공함으로써, 서버 메모리 리소스 사용을 최소화하고 수 초 단위의 쉬운 기동과 폐쇄가 가능한 차세대 클라우드 기술이다(그림 1).

(그림 1) 가상 머신 vs. 컨테이너





기존 가상 머신에서는 특정 서버에 저장된 이미지를 다른 서버로 이동할 경우 저장했던 데이터가 손실되고 새롭게 기동되어야 했기 때문에, 웹 서버와 같은 제한적인 영역에서만 사용할 수밖에 없었다. 데이터베이스와 같이 변경된 데이터를 유지하고 관리해야 하는 애플리케이션을 실행하는 경우, 가상 머신 대신 컨테이너를 도입하면 문제는 해결된다. 클러스터 상에서 컨테이너 서비스 이미지가 물리적으로 다른 서버로 이동하더라도 사용 중인 볼륨을 지속적으로 사용할 수 있다. 이 경우 엔터프라이즈급 스토리지에서 사용되는 클러스터 기술을 반영한 스토리지 볼륨 테이크 오버(Take-over) 기능이나 복제 볼륨 마운트 기능이 필요하게 된다. 이러한 기능은 도커(Docker)와 같은 컨테이너 플랫폼이 자동으로 관리하며, 오케스트레이션 및 자동화 툴(Docker Swarm, Kubernetes 등)을 통해 이를 전체 클러스터에 걸쳐서 관리할 수 있다.

히타치 밴타라의 올플래시 및 하이브리드 플래시 스토리지 Hitachi VSP는 이러한 툴에 플러그인 형태로 손쉽게 연동된다(그림 2).

각 오케스트레이션 툴은 플러그인(Plug-in)을 통해 스토리지 볼륨을 생성하고 복제할 수 있다. 생성과 소멸이 빈번한 경우에도 컨테이너 서비스가 동적으로 볼륨을 생성 및 할당 받을 수 있고, 컨테이너 이미지가 물리적으로 다른 서버에 이동될 때에도 지속적으로 해당 볼륨을 사용할 수도 있다. 또한 내부 혹은 원격 복제나 스냅샷에서 생성된 스토리지의 복제 볼륨을 자동으로 마운트할 수 있기 때문에 손쉽게 개발 혹은 테스트 환경이나 재해복구 환경을 자동화할 수 있다.

올 5월에 새롭게 추가된 VSP 라인업에서는 동시에 실행 가능한 컨테이너를 최대 6만 개 이상 그리고 17PB까지 생성할 수 있어, 민첩하고 확장이 용이한 클라우드 환경을 지원한다. 또한 100% 데이터 가용성 보증을 통해 컨테이너에 생성된 데이터의 안전한 저장을 보장하여, 엔터프라이즈 클라우드 환경을 구현해낸다.

(그림 2) Hitachi Storage Plug-in for Containers(HSPC)의 구조




고려사항2 : 인공지능 (AI Operation)

가트너(Gartner)는 데이터센터의 대응 능력을 향상시키고 디지털 비즈니스 가치를 제공하기 위해서는 자동화가 필수적이라고 말한다. 애플리케이션의 자동화와 함께, 인프라의 자동화는 클라우드의 민첩성 확보를 위한 필요조건이다. 특히 가상 머신이나 컨테이너와 같이 가상화 공유 인프라를 기반으로 하는 클라우드 환경에서는, 물리 리소스와 가상화 리소스 간의 관계를 정확하게 분석하고 적절한 조치를 취할 수 있는 자동화가 반드시 뒷받침 되어야 한다.

새롭게 추가되는 VSP 라인업에서는 자동화 된 IT 분석을 제공한다. 특히 가장 중요한 ‘성능 병목점 사전 판단’과 ‘조치 방법 제안’에 초점을 두고 있다. 이는 머신러닝을 기반으로 한 인공지능 기능을 탑재하여 동적인 성능 예측 분석을 수행하기 때문에 가능한 것이다.

기존 IT 인프라에서는 각 기업의 담당자가 성능의 병목을 미리 인지해 대비하거나, SLA 조건에 따라 정적 임계치(Static Threshold)를 설정해 관리해왔다. 그러나 복잡한 가상화 공유 인프라 구조에서 어떤 요소에 임계치를 설정하고 모니터링 해야 하는지 직접 판단하는 것은 쉽지 않다. 진화한 Hitachi VSP는 머신러닝을 통해 동적 임계치(Dynamic Threshold)를 설정해 성능 병목이 생기기 전에 사용자에게 이상 증상을 통보해 준다(그림 3).

(그림 3) 동적 임계치를 활용한 리소스 모니터링





예측 분석(Predictive Analytics) 또한 빼놓고 얘기할 수 없는 부분이다(그림 4). 진화한 Hitachi VSP는 기본 탑재된 인공지능을 통해 과거의 성능 트렌드 데이터를 분석해 미래의 성능 트렌드를 예측한다. 이를 통해 IT 담당자들은 리소스 계획을 사전에 수립해 문제가 발생하기 전에 조치할 수 있게 된다. 클라우드 환경에서 리소스 계획은 상당히 중요하다. 머신러닝에 따른 정확한 예측 분석을 통해 불필요한 리소스 투자를 줄여 비용을 절감할 수 있다.

(그림 4) HIAA의 Predictive Analytics 분석 예시 화면





Hitachi VSP는 IT 분석 자동화에서 더 나아가 그에 따른 조치 또한 자동화한다. 시장조사기관 451 research의 분석에 따르면, 스토리지의 장애 원인 중 40%가 휴먼 에러 즉, 조작 실수로 인해 발생한다. 공유 리소스 환경을 기반으로 하는 클라우드 인프라에서는 한 번의 조작 실수가 전체 인프라에 영향을 미칠 수 있다. 따라서 IT 분석으로 얻어 낸 예측 결과를 기반으로 실수 없이 즉각적인 조치를 취할 수 있는 서비스 카탈로그 기반의 자동화 툴이 있어야만 완벽한 IT 자동화 환경을 구축할 수 있는 것이다. 새로운 H itachi VSP는 이를 어드밴스드 패키지(Advanced Package)에 기본 제공함으로써 IT 자동화의 기반을 마련할 수 있도록 했다.

물론 IT 분석 자동화에서 대응 조치 자동화까지 이 모든 일련의 과정은 매끄럽게 연계돼 있기 때문에 하나의 워크플로우로 관리할 수 있다. 예를 들어, 공유 리소스 환경에서 우선순위가 낮은 볼륨의 리소스 사용률이 증가해 전체 인프라의 성능에 심각한 영향을 주는 경우, 해당 볼륨을 찾아 낼 수 있을 뿐만 아니라, 우선순위가 낮은 볼륨에 대한 I O 컨트롤 즉, U pper Limit을 설정해 성능을 제한하는 QoS도 설정할 수 있다. 기존의 방식보다 정확하고 빠르게 리소스 환경의 QoS를 조절할 수 있는 것이다. 사전 정의된 서비스 템플릿에 따라 애플리케이션 관점에 프로비저닝을 할 수도 있다. Puppet과 같은 다양한 외부의 오케스트레이션 툴과 Rest API를 연동해 가상머신을 생성하고 해당 가상 디스크를 추가 생성하는 작업을 하나의 워크플로우로 관리할 수 있다.


스토리지에서 인공지능을 말하다

비용 효율화와 민첩한 IT 환경 구현을 위해 클라우드는 이제 선택이 아니라 필수인 시점이다. IT 시장에는 이미 다양한 구현 기술들이 존재한다. 스타트업이 제시하는 새로운 기술을 적용해 클라우드 환경을 구축할 수도 있다. 그러나 기업이 검증되지 않은 기술을 도입하기에는 떠안아야 할 리스크가 작지 않다. 오히려 상상 이상으로 클 수도 있다.

새롭게 출시되는 Hitachi VSP 라인업은 기존 히타치 스토리지와 같이 100% 데이터 가용성을 보장함으로써 기업의 가장 중요한 자산인 데이터를 완벽하게 보호해 줄 뿐만 아니라, 완벽한 클라우드 애플리케이션 지원과 자동화를 기반으로 민첩한 인프라 구축을 지원함으로써 데이터센터의 현대화를 앞당기도록 도와주는 업계 유일의 인공지능 스토리지 솔루션이다. 또한 플래시 처리 알고리즘을 한층 개선해 기존보다 최대 3배 이상의 IOPS와 향상된 응답 성능을 제공하며, 머신러닝을 기반으로 IT 분석과 조치를 자동화한다.

향후에는 빅데이터 분석과 연계해 스토리지가 스스로를 최적화하고 자동으로 장애 복구를 실행하는 인공지능 기반의 자가 치유(Self-healing) 기능이 지속적으로 추가될 예정이다. 이로써 고객은 반복적이고 단순한 IT 관리 업무로부터 해방되고 비즈니스에 집중할 수 있는 스마트 데이터 센터의 기반을 구현할 수 있을 것이다.