본문 바로가기

TECH ZOOM

느리다? 어렵다? 지루하다? 셀프서비스로 고민 끝!




업은 강력한 분석 능력을 원한다. 하지만 이는 데이터 품질 자체가 우수하다는 조건이 전제되어야만 가능한 이야기다. IT 기술과 무관한 기업들이 직면하는 가장 큰 문제는 데이터 사이언티스트들이 직면하는 문제와 크게 다르지 않다.


데이터 복잡성이 증가하면서 기업들은 리포팅, 분석, 공유, 비즈니스 프로세스에 사용되어 온 전통적인 데이터 프레퍼레이션 방식을 다시 고민하고 있다. 하둡(Hadoop)[각주:1]과 같은 빅데이터 저장소를 포함해 다양한 소스에서 취합된 데이터의 혼합, 통합, 정제 및 운영 관리는 지금까지 전적으로 IT 부서의 몫이었다. 그러나 데이터 과학과 분석에 대한 관심이 확대되면서 비 IT 부서도 이제 이러한 활동을 수행해야 하는 상황이다.



느리고, 어려운 데다 지루하기 짝이 없는 것이 데이터 프레퍼레이션 단계이다. 데이터의 양, 다양성 및 속도가 증가하면서 리포팅, 분석 그리고 공유를 위한 전통적인 데이터 프레퍼레이션 방식을 재검토해야 한다는 목소리가 높아지고 있는 이유다.


‘비즈니스 인텔리전스’와‘ 데이터 웨어하우징’ 분야의 전문 연구기관인 TDWI(The Data Warehousing Institute)가 발표한 보고서인‘ 2016 TDWI Best Practices 보고서 : 비즈니스 분석을 위한 데이터 프레퍼레이션 개선’을 통해, 기업으로 하여금 급속도로 발전하는 기술과 셀프서비스의 이점을 어떻게 취할지 파악할 수 있는 통찰력을 제공할 것이다.







  1. 1) 하둡(Hadoop) : 정형/비정형 데이터 구분 없이 대용량 데이터를 분산 처리할 수 있는 오픈소스 기반 플랫폼. 수천 대의 분산된 서버들을 하나의 인프라로 연결해 대용량 파일을 처리하는‘ 분산파일 시스템 (HDFS)’과 분산된 서버에 저장된 데이터를 분석하는 플랫폼인‘ 맵리듀스(MapReduce)’로 구성된다. [본문으로]