BigData&AI

Cloud 기반 Data Platform 으로 쉽고 빠르게 분석하자

히핑소 2021. 11. 30. 14:57
반응형
 

[기획특집] ‘클라우드 기반 데이터 플랫폼’으로 쉽고 빠르게 데이터 분석 - 컴퓨터월드

[컴퓨터월드] 데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원

www.comworld.co.kr

 

데이터 크기 및 종류에 상관없이 분석 가능…AI, ML 연동도 쉬워

데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원에 투자를 아끼지 않는 것도 데이터 활용을 통한 경쟁력 향상을 위해서다.

최근 들어 기업 경쟁력과 직결되는 데이터 분석 플랫폼의 인프라가 바뀌고 있다. 그동안 직접 서버를 구매해 데이터 분석 환경을 구축하던 형태에서 벗어나 클라우드 인프라 상에서 데이터 분석할 수 있는 플랫폼을 구현하기 시작한 것이다. 이러한 수요에 대응하고자 클라우드 서비스 제공사(CSP)와 클라우데라와 같은 플랫폼 기업들은 클라우드 기반으로 데이터 플랫폼을 제공하거나, 각 서비스들을 모아 데이터 분석 프로세스를 만들어주는데 집중하고 있다. 이들 기업들의 솔루션과 전략에 대해 알아봤다.

 

데이터 관리 역량 부족 및 소비 패턴 변화 요인

클라우드 기반 데이터 플랫폼은 환경을 구성할 때 편의성이 높다. 그동안 데이터 플랫폼은 온프레미스 환경으로 구축해 사용됐다. 이 경우 매우 복잡한 절차를 거쳐야 했다. 비정형 데이터를 분석해야 할 경우 ‘하둡’, 검색 엔진으로는 ‘엘라스틱 서치’, DB는 ‘몽고DB’ 등 데이터 분석에 필요한 모든 환경들을 하나하나 직접 설치하고 구성해야 했다. 또 플랫폼을 만들 때 데이터양에 따른 사이즈도 고려해, 최소 수십TB(테라바이트)에서 수십PB(페타바이트)까지 디스크와 메모리 등 스토리지 환경도 구축해야 했다. 특히 컴퓨팅 노드 환경을 구성하는 난이도 높은 클러스터링 작업도 데이터 분석을 위해 필요했다.

온프레미스 환경으로 데이터 플랫폼을 구축할 경우 이러한 어려운 작업을 거쳐야 하는 것 외에도 많은 비용과 시간이 필요했다. 시스템 규모에 따라 차이가 있지만 평균 6개월에서 1년 정도가 소요된다.

그러나 클라우드 기반 데이터 플랫폼을 이용할 경우 복잡할뿐 아니라 많은 비용과 시간이 필요한 작업들을 콘솔에서 클릭만으로 쉽게 구성할 수 있다. 스토리지 환경과 DB 그리고 ETL(추출‧변환‧적재, Extract‧Transform‧Load) 등을 클릭만으로 선택해 서비스를 받을 수 있는 것이다. 수십 분 혹은 수 시간 안에 클라우드 콘솔을 통해 클라우드 기반 데이터 플랫폼 환경을 만들어낼 수 있다.

클라우드 데이터 플랫폼은 데이터 양과 종류에 상관없이 쉽게 관리할 수 있다. 최근 사물인터넷(IoT)나 에지단에서 수집되는 데이터의 양이 증가하고, 그 종류도 다양해지고 있다.

클라우드 데이터 플랫폼 제공사별 솔루션 특장점

AWS는 국내‧외를 통틀어 가장 많을 클라우드 서비스를 제공하고 있다. 클라우드 인프라 위에서 구동할 수 있는 데이터 분석 서비스 역시 가장 많다. AWS는 고객 활용에 맞춰 가용할 수 있는 서비스를 조합해 클라우드 기반 데이터 플랫폼을 공급하고 있다.

AWS의 데이터 플랫폼 내 서비스로는 데이터 레이크를 구축하기 위한 ‘AWS 레이크 포메이션’과 데이터 웨어하우스 서비스 ‘아마존 레드시프트’, 온프레미스의 절반도 안 되는 비용으로 페타바이트 규모의 데이터를 분석할 수 있는 ‘스파크 온 아마존 EMR’, 데이터 마트와 데이터 레이크에서 손쉽게 데이터를 결합하고 이동 및 복제할 수 있는 ‘AWS 글루’, 이러한 데이터 플랫폼 내 인프라 기반이 되는 ‘아마존 EC2’ 등이 있다.

데이터 분석에 최적화, 다양한 인프라 환경 지원

구글 클라우드는 데이터 분석 플랫폼이 단일 CSP에 종속되지 않고 여러 클라우드 환경에서 활용될 수 있도록 하는데 집중하고 있다. 김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트는 “‘구글’이라는 포털에서 수집되는 수많은 데이터들을 분석할 수 있는 서비스들을 클라우드 서비스로 개발해 사용자들에게 제공하고 있다”며, “이는 그만큼 데이터 분석에 특화된 CSP가 구글 클라우드라는 증거”라고 설명했다.

구글 클라우드는 데이터 플랫폼을 수집, 프로세스, 저장, 분석, 활용 등 5단계로 나눠 해당 단계에 맞는 서비스들을 조합해 제공하고 있다. 수집 단계 서비스로는 스트리밍 분석 파이프라인의 이벤트 수집 및 전송을 위한 서비스인 ‘클라우드 펍섭(Cloud Pub/Sub)’이 있다. 이 서비스는 규모에 맞는 고가용성과 일관된 성능을 기반으로 내구성 있는 메시지 스토리지 및 실시간 메시지 전송을 제공해준다. 이는 OSS의 ‘아파치 카프카’와 같은 기능을 하는 서비스다.

프로세스 단계에 적용될 서비스로 ‘데이터플로우(DataFlow)’와 ‘데이터프록(Dataproc)’, ‘데이터프렙(Dataprep)’ 등 3가지가 있다. ‘데이터플로우’는 대규모 데이터 세트에서 데이터 처리 패턴을 개발하고, 간소화된 스트림 및 배치 데이터 처리를 수행하는 서비스다. ‘데이터프록’은 데이터 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 ‘스파크’ 및 ‘하둡’ 서비스로, 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터는 사용 중지해 비용을 절감할 수 있다는 장점이 있다.

‘데이터프렙’은 분석 및 머신러닝에 사용할 데이터를 시각적으로 탐색, 정리, 준비하는 지능형 클라우드 데이터 서비스다. 이 서비스는 서버리스 방식으로 구동되며, 규모에 상관없이 작동하기 때문에 별도로 배포하거나 관리해야 할 인프라가 없다. UI 입력마다 가장 이상적인 데이터 변환을 제안하고 예측하기 때문에, 코드를 작성하지 않아도 된다는 장점이 있다.

구글 클라우드는 저장 단계 서비스로 ‘클라우드 스토리지(Cloud Storage)’와 ‘빅쿼리(BigQuery)’를 내세우고 있다. ‘클라우드 스토리지’는 스토리지 서비스로 데이터 양에 상관없이 데이터를 저장할 수 있다. 다음은 ‘빅쿼리’다. ‘빅쿼리’는 구글 클라우드의 대표적인 서비스로 서버리스 기반의 멀티 클라우드 데이터 웨어하우스 서비스다. 표준 SQL을 사용해 타 CSP의 클라우드에서 데이터를 수집해 분석할 수 있다. 이로써 유연한 분석 환경을 구성해 데이터 분석가 또는 데이터 과학자에게게 원활한 데이터 분석 환경을 제공한다. 또 ‘빅쿼리 ML’ 기능을 활용하면 구조화 또는 반구조화된 데이터를 기반으로 하는 머신러닝 모델을 빠르게 빌드 및 운용할 수 있다.

마지막으로 활용 단계에서는 ‘버텍스 AI(Vertex AI)’와 ‘루커(Looker)’를 제안하고 있다. ‘버텍스 AI’는 머신러닝 모델을 개발할 수 있는 AI/ML 통합 플랫폼이다. ‘오토ML’ 및 커스텀 코드 학습으로 모델을 쉽게 학습하고 비교할 수 있으며, 중앙 모델 저장소에 별도로 저장된다. ‘루커’는 데이터가 어느 곳에 저장되더라도 기업의 최신 버전 데이터에 접근할 수 있게 지원하는 서비스다.

반응형