본문 바로가기

TECH ZOOM

'TMI' Episode 3: AI 프로젝트 성공을 위한 똑똑한 선택법

 

 

2023년은 가히 AI 원년이라고 할 수 있을 정도로 금융, 제조, 공공 등 전 산업 분야에서 AI 프로젝트가 활발하게 추진되었다. 그러나 정작 AI 인프라를 도입하고도 스토리지 병목 현상 등 예기치 못한 문제로 고군분투 중인 기업들이 적지 않다.

TMI 에피소드 3에서는 AI 프로젝트에 적합한 스토리지 선택법, AI 프로젝트 성공을 위한 파트너 선정 등 AI 프로젝트에 대한 모든 것을 알아본다.


Part I AI 솔루션이 갖춰야 할 4가지 조건


01. 병렬 파일 시스템

병렬 파일 시스템은 하나의 데이터 파일을 잘게 쪼개서 여러 병렬 파일 시스템의 데이터 노드에 분산 처리하는 방식을 말한다. AI 프로젝트를 통해 고성능을 기대한다면 반드시 갖춰야 할 요건이다.

AI 인프라를 도입할 때 많은 기업이 A100, H100 등 GPU가 탑재된 서버 클러스터를 고려한다. 이때 수많은 GPU 클러스터와 코어에서 수행되는 병렬 연산을 지원하려면 스토리지도 병렬 처리를 통해 고성능을 지원해야 한다.

초창기에 구축된 AI 인프라는 대부분 고성능 HPC 클러스터에 스케일아웃 NAS를 구축해 사용하는 방식이었다. 하지만 레거시 프로토콜인 NFS(네트워크 파일 시스템)는 100G/200G 이상의 더 높은 고성능 네트워크를 요구하는 AI 워크로드를 충족시키지 못하기 때문에 성능에 제약이 발생한다. 그뿐만 아니라 NFS는 AI 분석에 최적화된 프로토콜도 아니기에 디렉토리 수나 파일 개수에도 한계가 있을 수밖에 없다.

두 번째 문제는 NAS 스토리지의 경우, 스케일아웃을 하면 할수록 병목 현상이 커진다는 점이다. NFS는 특정 노드를 통해 서비스되는데, 노드 수가 많아질수록 다른 노드에 저장된 데이터를 끌어오는 데 시간이 오래 걸리기 때문이다. 따라서 병렬 파일 시스템이 아닌 다른 아키텍처의 스토리지를 도입하면, 스토리지 단에서 발생하는 병목 현상으로 인해 AI 분석의 모든 과정에서 성능이 저하될 수밖에 없다.


02. 고성능을 위해 필요한 기술 활용

많은 기업이 AI 분석에 적합한 성능을 확보하기 위해 GPU 클러스터 관련 기술을 우선적으로 검토하지만, 스토리지 단에서 필요로 하는 고성능을 위해 몇 가지 기술도 반드시 검토해야 한다.

기본적으로 체크해야 할 사항은 GPUDirect 스토리지, 즉 GDS 지원 여부다. GDS를 사용하지 않을 경우, 읽기(Read) 데이터가 CPU를 거쳐 GPU에 전달되고, GPU에서 처리된 데이터가 다시 CPU를 거쳐 스토리지로 쓰기(Write)를 하는 과정을 거친다. 그러나 GDS 방식에서는 GPU가 데이터를 읽고 쓰는 과정에서 불필요한 CPU 제약 사항이 제거된다.

두 번째는 DPDK 기술이다. 서버의 로컬 디스크와 달리, 외부의 스토리지를 연결하려면 클러스터 서버 단이 O/S 커널을 통해 스토리지와 연동돼야 하는데, 이 OS 커널 단의 병목을 줄여주는 기술이 필요하다. 커널을 통하지 않고 NIC의 네트워크를 포괄적으로 사용하는 기술이 바로 DPDK 기술이다.


03. 멀티 프로토콜 지원

멀티 프로토콜을 지원하는 스토리지란 하나의 스토리지 시스템에서 POSIX, SMB, NFS, S3와 컨테이너 기반 분석 환경인 쿠버네티스까지 지원하는, ‘모든 유형의 데이터가 하나의 시스템에서 서비스되는 스토리지’를 말한다.

AI 분석용 스토리지에서 멀티 프로토콜을 지원하지 않으면, 특정 프로토콜을 지원하는 스토리지들로 인프라를 구성할 수밖에 없기 때문에 비용과 관리 포인트가 증가한다. 특히 AI 분석 프로세스 각 단계를 넘어갈 때마다 데이터 복제에 상당한 시간이 소요되고 저장 공간을 낭비할 수도 있다.


04. 효율적인 대용량 데이터 관리

NVMe, SSD의 가격이 많이 하락했다 하더라도, 데이터가 기하급수적으로 증가하면 비용도 그만큼 증가한다.

AI 분석 업무를 진행할 때 전체 데이터가 매번 분석에 활용되는 것은 아니므로 데이터를 핫티어(Hot tier)와 콜드티어(Cold tier)로 구분해 효율적으로 관리할 필요가 있다. 콜드 데이터를 별도의 티어 영역으로 보관해 비용 효율적인 방식으로 스토리지 계층을 구성해야 한다는 말이다. AI에 특화된 최적의 저장소는 액세스 요청이 들어오는 즉시, 콜드 데이터가 핫티어로 빠르게 이동하고, 정책에 기반해 자동으로 다시 콜드티어로 이동하는 자동 티어링 구조를 갖춰야 한다.


Part II AI 솔루션 벤더 선택의 기준


01. 적합한 솔루션을 보유하고 있는가?

앞서 언급한 AI 스토리지의 요건을 모두 충족하는 효성인포메이션시스템의 솔루션은 HCSF(Hitachi Content Software for File)다. HCSF는 Weka 파일 시스템을 탑재한 병렬 파일 시스템이기 때문에 불필요한 병목 현상이 없고, GDS, DPDK와 같은 고성능 처리 기술도 지원한다. 또 멀티 프로토콜을 지원하기 때문에 POSIX, NFS, SMB, S3, CSI 등 다양한 환경에서 어떤 종류의 애플리케이션과도 연동해 사용할 수 있다. 오브젝트 스토리지를 활용한 자동 티어링도 가능해 비용효율적으로 데이터를 보관하고 처리할 수 있다.

여러 가지 장점 중에서도 HCSF만의 특장점을 꼽는다면 메타데이터 처리를 들 수 있다. 분산 처리를 수행하는 병렬 파일 시스템과 마찬가지로 메타데이터도 모든 노드에 대한 분산 처리가 중요하다. 데이터의 크기에 상관없이 데이터가 잘게 쪼개져 데이터 노드에 분산 저장돼 있으면, 쪼개진 데이터 부분이 어느 노드에 있는지 잘 찾아내야 한다. 하지만 처리된 데이터가 워낙 방대하기 때문에 메타데이터를 찾는 데만도 엄청난 시간이 소요될 수 있다.

이 때문에 일부 제품은 메타데이터 서버를 별도로 구축해야 하는 경우도 있다. 그러나 메타데이터 서버를 별도로 구축하면, 스토리지 용량이 증가할 때마다 메타데이터 서버 역시 계속 증가하므로 불필요한 관리 포인트가 많아지고 비용이 발생할 수 있다. 이와 달리 HCSF는 모든 노드가 메타데이터 서버 역할을 수행하므로 별도의 서버 증설에 따른 병목 현상이 발생하지 않고, 관리 및 비용 측면에서도 매우 효율적이다.


02. 충분한 경험이 있는가?

효성인포메이션시스템은 많은 국내 구축 사례를 보유하고 있다. 가장 최근의 사례로는 국내 AI 시장의 강자로 부상한 AI 전문기업 ‘업스테이지’를 들 수 있다. 수많은 GPU 분석 클러스터 쿠버네티스 환경을 구축하고 있던 이 회사는 GPU 클러스터를 지원할 수 있는 고성능 인프라와 간편한 관리가 필요한 상황이었다. HCSF를 도입한 이후 다양한 고성능 기능을 이용하고 있으며, 특히 쿠버네티스 환경에서 CSI 기능을 통해 손쉽게 스토리지 볼륨을 분석가에게 할당할 수 있게 되면서 분석 개발 속도가 빨라졌다. 그뿐만 아니라 스토리지 관리자를 별도로 배치할 필요 없어 개발자가 직접 스토리지를 관리하는 등 운영 편의성도 향상되었다.

두 번째는 AI 인프라가 요구하는 고성능 요건을 만족시킨 사례로, 하둡과 NAS를 사용하던 기업 이야기다. 이 기업은 수집되는 데이터양이 기하급수적으로 증가하자 기존의 에코시스템으로 원하는 분석 시간을 맞추려면, 수백 대에 달하는 분산컴퓨팅 자원이 필요한 상황이었다. 이를 해결하기 위해 GPU 기반 분석 도구, GPU와 최적의 호환성을 갖고 있는 HCSF를 도입해 고성능의 분석 인프라를 구축했다. 이로써 기존 NAS와 하둡을 이용할 때보다 1/4 정도의 컴퓨팅 대수로도 원하는 분석 시간을 맞출 수 있게 되었다.

마지막으로 챗GPT 이후 최근 많은 기업이 준비하고 있는 생성형 AI와 거대 언어 모델(LLM) 구축 사례가 있다. 많은 기업이 그룹 내부의 소중한 데이터를 외부에 유출하지 않고, 자체적으로 생성형 AI 또는 LLM 분석 환경을 구축하기 위해 온프레미스 환경을 구축하고 싶어 한다. 한 기업의 경우 GPU 클러스터, 고성능 스토리지 등 AI 프로젝트를 위한 최적의 인프라를 통합 구축 및 관리할 수 있는 벤더를 찾고 있었고, 효성인포메이션시스템이 GPU 기반의 슈퍼마이크로 서버와 고성능 병렬 파일시스템인 HCSF를 사전 설계해 성공적으로 구축했다. 또한 향후 유지보수까지 모두 지원할 수 있는 체계도 마련했다.


03. 전문 기술 인력 체계를 갖추고 있는가?

효성인포메이션시스템은 사전 컨설팅부터 설계, 구축, 유지보수에 이르기까지 직접 총괄하며 프로젝트를 진행할 수 있는 전문 인력을 갖추고 있다. 몇몇 외국계 벤더의 경우 그들의 해외 인력체계 및 경험을 어필하지만, 국내 기업을 위해 실제 서비스를 수행하는 인력들은 대부분 국내의 엔지니어들이라는 것을 간과해서는 안 된다.

효성인포메이션시스템은 AI 스토리지 분야에서 이미 충분한 경험이 있으며, GPU 서버, 네트워크, 스토리지까지 올인원(All-in-one) 서비스를 제공한 경험도 있다.

또한 이미 잘 알려진 것처럼 효성인포메이션시스템은 국내 하이엔드 스토리지 시장에서 9년 연속 시장점유율 1위를 기록하고 있다. 이는 바꿔 말하면 대규모 엔터프라이즈 고객을 가장 많이 보유하고 있으며, 신기술 적용을 위한 대형 프로젝트 수행 경험도 많다는 것을 의미한다.

AI 또한 기존 기술이 발전된 형태다. 효성인포메이션시스템은 38년 이상 IT 솔루션 시장을 선도하며 많은 경험을 축적해 왔다. 이를 기반으로 더 전문적이고 고도화된 기술 지원과 서비스가 가능하다.


 

TMI 다시보기