※ Operational systems
현업에서 '원천' 이라고 많이들 쓴다. (나도 마찬가지)
※ ODS (Operational Data Store)
갓 생성된 다양하고 많은양의 데이터를 정형화시켜 저장하는 곳이다.
이 곳의 데이터만으로는 사실상 활용이 불가능하다.
( 식당으로 비유하면, 갓 캐낸 야채들을 대충 씻고 바구니에 담은 정도...)
※ Data warehouse
ODS 데이터들을 활용이 가능한 형태로 만들어 저장하고 관리, 분석할 수 있는 시스템
(식당으로 비유하면, 씻은 야채에 썩은 부분이 제거되고, 껍질이 벗겨진 상태)
데이터 웨어하우징이라 함은 다양하게 분포되어있는 데이터들을
분석과 데이터 웨어하우스가 활용가능한 데이터들의 집합
DW 구축 단계
1단계 | DW Modeling | – 비즈니스 영역 선정, 분석 – DW/ODS Modeling |
2단계 | ETL(Legacy → DW) | – 운영계에서 수집된 Data를 ODS와 DW로 정제, 변환, 적재 |
3단계 | Data Mart Modeling | – 다차원 분석 영역 정의 – Data Mart 모델링 |
4단계 | ETL(ODS/DW → Data Mart) | – ODS/DW로부터 데이터 추출 – 다차원 DB 구성 |
5단계 | ROLAP 구축 | – DW에서 ROLAP 개발 |
6단계 | MOLAP 구축 | – Data Mart에서 MOLAP 개발 |
7단계 | DW 시스템 운영 | – ETT Scheduling, 메타데이터 관리 – Backup & Recovery 수행 |
DW 구축 방법
Top-Down | – 전사 관점에서 전체 DW를 한 번에 구축 – 시간/비용 많이 소요되며 전사적 지원 필요 |
Bottom-up | – 특정 그룹 별 Data Mart 구축 후 DW통합 – 향후 통합에 대한 설계 고려 필요 |
Hybrid | – DW와 Data Mart 병행 구축 – 비용, 인력 분산 투입 가능, 위험 최소화 |
※ Data Mart
데이터 마트는 그 집합들 속에서 특정분야에서 필요한 데이터들만을 꺼내서 저장하는 곳
말 그대로 데이터 창고에서 사용자가 원하는 데이터들을 가져와서 저장하는 마트같은 곳이다.
(식당으로 비유하면, 필요한 재료가 필요한 모양으로 잘게 썰려진 형태)
실제로 웹에서 참조하는 데이터들, 데이터 웨어하우스의 부분집합.
※ ETL (Extract, Transform, Load)
좁은 의미로 Source system에서 표현계층의 데이터저장소로 가기위한 과정이다.
활용이 가능한 데이터들로 만들어 저장하는 것이라고 봐도 된다.
(Source system -> Data warehouse, Data mart, ODS, etc...)
넓은 의미로 데이터를 옮기는 작업이나 변형하는 과정을 말한다.
말 그대로 추출하고, 변형하고, 로드하는 3가지의 과정으로 이루어진다.
(식당으로 비유하면, 필요한 재료를 수확하고 씻고 껍질을 벗기고 칼질을 하던 모든 과정들)
데이터베이스와의 차이
의미론적으로 다르다. 위에서 설명한 모두가 데이터베이스가 될 수 있다.
그리고 데이터를 이관하기위해 추출, 변환, 적재라는 일련의 과정을 거치는데 이를 ETL이라고 한다.
ETL 도구로는 SSIS(MS-SQL), ODI(Orcle), ESF 등이 있고, 나는 인포매티카를 쓴다.
추가로, cdc 가 etl 대신 사용되기도 하며, 추출/변환/적재 모두 가능하다.
cdc가 비용은 더 비싸지만, 실시간 데이터 수집 또는 변경적재(update) 등에 용이하다.
※ CDC
실시간으로 원천 데이터의 변경 사항을 감지하여 이관하는작업이 CDC(Change Data Capture)이다.
다양한 방법으로 캡쳐를 진행하나, 로그를 읽어 변경을 반영하는 방법과 통신을 통한 변경이 주로쓰인다.
현업에서 CDC란 용어는 실시간데이터가 반영된 EDW 그 자체를 칭하기도 한다.
HVR, Strim, 인포매티카 etl, Qlik 등의 국외 솔루션과 몇몇 국산 솔루션도 있다.
https://www.datanet.co.kr/news/articleView.html?idxno=155922
cdc에 대한 더 자세한 내용은 아래 참조
※ OLAP
고객의 업무를 분석하고 다차원 모델링을 활용하여 Data Mart를 구축하고, OLAP (On Line Analysis Process)를 구현함으로써, 시각화 도구, 데이터 마이닝 시스템이 이 분류에 포함된다.
[출처] ODS, Data warehouse, Data Mart, ETL
https://bangu4.tistory.com
blog.skby.net/dw-data-warehouse/
'BigData&AI' 카테고리의 다른 글
SQL 기본, 날짜/시간 표현 (0) | 2021.07.26 |
---|---|
DataLake ( 데이터레이크 ) (0) | 2021.07.16 |
프라이빗클라우드/퍼블릭클라우드/하이브리드클라우드 (0) | 2021.07.01 |
change data capture (CDC) 란 (0) | 2021.05.28 |
빅데이터 분석 기사 교재 구매 (0) | 2020.05.02 |