BigData&AI

데이터 가상화란 무엇인가/개요/정의/솔루션

히핑소 2021. 10. 13. 16:05
반응형
개요

- 데이터 가상화는 애플리케이션이 데이터에 접근하는데 있어 데이터가 어떠한 형식이건, 어디에 저장되어 있건 세부적인 기술 사항을 요구하지 않으면서 데이터를 검색하거나 수정할 수 있게 하며, 전체 데이터에 대한 통일된 뷰 또한 제공하는 기술

- 기존의 ETL(Extract, Transform, Load / 추출, 변환, 요약) 프로세스처럼 데이터 분석을 위해 데이터를 여기저기 보내거나 복사하여 저장하는 방식과는 달리, 데이터 가상화에서 데이터들은 제자리를 유지한 채 인메모리에 가상의 데이터베이스를 만들어 데이터에 대한 접근을 가능하게 해주는 방식

- user는 DW / RDB / No SQL / Hadoop 등 에서의 데이터 관리 및 최적화에 관여하지않고, 사용(활용)하기만 하면 되는 기술이다. 즉, 직접 밥상을 차리지 않고 solution 업체에 비용을 지불하여 편하게 밀키트를 사먹는 형태.

https://www.tibco.com/ko/reference-center/what-is-data-virtualization

 

데이터의 적극적인 활용을 위해 데이터 통합에 대한 고민은 지속, 물리적 데이터 이행의 한계

기업의 산재된 데이터의 궁극적인 활용을 위하여 각각의 비즈니스 애플리케이션으로부터 데이터 소스를 수집하고 통합하여 분석하려는 노력은 지속적으로 진행되어 왔다. 데이터 통합의 일환으로 데이터를 한 곳으로 모으는 데이터 레이크는 최근 가장 많이 활용되고 있는 방법이다. 데이터 레이크 구축에서 데이터 통합과 이행을 위하여 ETL이나 CDC(https://yannichoongs.tistory.com/239),  복제등의 형태를 활용하기도 하나 이러한 물리적인 데이터 이행을 진행하다 보면 많은 문제에 부딪히기도 한다. 복잡한 이기종 데이터, 온프레미스나 클라우드 환경 등 다양한 시스템 환경, RDB, 파일, 빅데이터 등 여러 종류의 데이터 소스와 각각의 업무 단위, 부서 단위, 플랫폼이나 시스템 단위로 사일로(Silo)된 데이터들이 그것이다. 이들을 물리적으로 통합하다 보면 크고 작은 예상치 못한 문제가 발생함은 물론 과다한 비용과 많은 시간을 사용해야만 한다. 민감 정보 데이터에 대한 컴플라이언스 문제 또는 데이터의 최신성에 대한 문제도 해결해야 한다. 물론 이러한 비용과 시간을 들여서도 만족스러운 결과치를 얻기는 힘들 수도 있다.

 

물리적 데이터 레이크 구축에서 발생하는 이슈 해결을 위한 데이터 가상화 기술 대두

이러한 데이터 레이크 구축에서 발생하는 이슈 사항을 해결하고 실시간 최신 데이터의 활용을 위하여 데이터 가상화 기술이 대두되고 있다. 데이터 가상화 방식은 이기종 DB에 제약없이 내부 데이터의 조회 및 클라우드 데이터 레이크에 적재할 수 있고, 데이터 레이크에 적재된 RDB, 파일 등 다양한 형태로 제공할 수 있어 증가하고 있는 데이터 분석 업무와 대용량 데이터의 효율적인 분석을 위한 기반을 확보하는데 용이하다.

엔코어 블로그 자료. DV#이 하단의 모든 것들을 관리해줌.
 

 

웹 기반의 중앙 운영 관리로 효율적인 데이터 가상화 구성 지원

웹 기반의 중앙 운영관리

RDBMS, File, Big Data Platform에 대한 데이터 가상화

데이터 가상화 구성을 위한 메타데이터 설계 및 관리 (Designer)

데이터 접근 및 활용을 위한 표준 JDBC/SQL 인터페이스

데이터 접근에 대한 SQL 접근통제, 기록 및 데이터 마스킹

사용자 별 Virtual Database 구성

다양한 데이터 소스에 대한 가상 테이블 구성 및 Join

성능 최적화를 위한 캐쉬 및 데이터 연결 구성

다양한 데이터 확인을 위한 Web SQL Tool

성능 개선을 위한 옵티마이징 및 다양한 힌트

온프레미스, 퍼블릭/프라이빗 클라우드 환경 구성

 
solution 종류
 
DataCurrent
Denodo - 배우고 사용하기 쉬운것으로 유명
Oracle Data Service Integrator
Red Hat JBoss Data Virtualization - Java로 되어, JDBC 에서 가장 잘 동작
Sas Federation Server - 데이터 보안에 중점
TIBCO - 데이터 소스 연결이 다양
DV# - 국산 엔코어 제품
 
 

 

반응형