BigData&AI

ODS, DW, DM, ETL, CDC, EDW, OLAP 정리

히핑소 2021. 5. 11. 15:25
반응형

 

※ Operational systems 

현업에서 '원천' 이라고 많이들 쓴다. (나도 마찬가지)

 

※ ODS (Operational Data Store)

갓 생성된 다양하고 많은양의 데이터를 정형화시켜 저장하는 곳이다.
이 곳의 데이터만으로는 사실상 활용이 불가능하다.
( 식당으로 비유하면, 갓 캐낸 야채들을 대충 씻고 바구니에 담은 정도...)

 

※ Data warehouse

ODS 데이터들을 활용이 가능한 형태로 만들어 저장하고 관리, 분석할 수 있는 시스템
(식당으로 비유하면, 씻은 야채에 썩은 부분이 제거되고, 껍질이 벗겨진 상태)
데이터 웨어하우징이라 함은 다양하게 분포되어있는 데이터들을
분석과 데이터 웨어하우스가 활용가능한 데이터들의 집합

DW 구축 단계

1단계 DW Modeling – 비즈니스 영역 선정, 분석
– DW/ODS Modeling
2단계 ETL(Legacy → DW) – 운영계에서 수집된 Data를
  ODS와 DW로 정제, 변환, 적재
3단계 Data Mart Modeling – 다차원 분석 영역 정의
– Data Mart 모델링
4단계 ETL(ODS/DW → Data Mart) – ODS/DW로부터 데이터 추출
– 다차원 DB 구성
5단계 ROLAP 구축 – DW에서 ROLAP 개발
6단계 MOLAP 구축 – Data Mart에서 MOLAP 개발
7단계 DW 시스템 운영 – ETT Scheduling, 메타데이터 관리
– Backup & Recovery 수행

DW 구축 방법

Top-Down – 전사 관점에서 전체 DW를 한 번에 구축
– 시간/비용 많이 소요되며 전사적 지원 필요
Bottom-up – 특정 그룹 별 Data Mart 구축 후 DW통합
– 향후 통합에 대한 설계 고려 필요
Hybrid – DW와 Data Mart 병행 구축
– 비용, 인력 분산 투입 가능, 위험 최소화

 

※ Data Mart

데이터 마트는 그 집합들 속에서 특정분야에서 필요한 데이터들만을 꺼내서 저장하는 곳
말 그대로 데이터 창고에서 사용자가 원하는 데이터들을 가져와서 저장하는 마트같은 곳이다.
(식당으로 비유하면, 필요한 재료가 필요한 모양으로 잘게 썰려진 형태)
실제로 웹에서 참조하는 데이터들, 데이터 웨어하우스의 부분집합.

 

※ ETL (Extract, Transform, Load)

좁은 의미로 Source system에서 표현계층의 데이터저장소로 가기위한 과정이다.
활용이 가능한 데이터들로 만들어 저장하는 것이라고 봐도 된다.
(Source system -> Data warehouse, Data mart, ODS, etc...)
넓은 의미로 데이터를 옮기는 작업이나 변형하는 과정을 말한다. 
말 그대로 추출하고, 변형하고, 로드하는 3가지의 과정으로 이루어진다.
(식당으로 비유하면, 필요한 재료를 수확하고 씻고 껍질을 벗기고 칼질을 하던 모든 과정들)

데이터베이스와의 차이
의미론적으로 다르다. 위에서 설명한 모두가 데이터베이스가 될 수 있다.

그리고 데이터를 이관하기위해 추출, 변환, 적재라는 일련의 과정을 거치는데 이를 ETL이라고 한다.

ETL 도구로는 SSIS(MS-SQL), ODI(Orcle), ESF 등이 있고, 나는 인포매티카를 쓴다.

 

추가로, cdc 가 etl 대신 사용되기도 하며, 추출/변환/적재 모두 가능하다.

cdc가 비용은 더 비싸지만, 실시간 데이터 수집 또는 변경적재(update) 등에 용이하다.

 

※ CDC

실시간으로 원천 데이터의 변경 사항을 감지하여 이관하는작업이 CDC(Change Data Capture)이다.

다양한 방법으로 캡쳐를 진행하나, 로그를 읽어 변경을 반영하는 방법과 통신을 통한 변경이 주로쓰인다.

현업에서 CDC란 용어는 실시간데이터가 반영된 EDW 그 자체를 칭하기도 한다.

 

HVR, Strim, 인포매티카 etl, Qlik 등의 국외 솔루션과 몇몇 국산 솔루션도 있다.

https://www.datanet.co.kr/news/articleView.html?idxno=155922 

cdc에 대한 더 자세한 내용은 아래 참조

 

change data capture (CDC) 란

0. CDC 란 change data capture 의 약어로 마지막으로 추출한 이후 변경된 데이터만 골라내는 기술을 의미한다. 흔히 데이터 백업이나 통합 작업을 할 경우 방대한 데이터를 다뤄야 하는데 원본소스 가

yannichoongs.tistory.com

 

※ OLAP

고객의 업무를 분석하고 다차원 모델링을 활용하여 Data Mart를 구축하고, OLAP (On Line Analysis Process)를 구현함으로써, 시각화 도구, 데이터 마이닝 시스템이 이 분류에 포함된다.

 

 

[출처] ODS, Data warehouse, Data Mart, ETL
https://bangu4.tistory.com
blog.skby.net/dw-data-warehouse/

반응형