Data lake
- 대규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 저장소
- 윈시 데이터(특정 목적에 의해 가공/정제되지 않은 데이터) 그대로 저장 가능
- 대시보드 및 시각화, 빅데이터 처리, 실시간 분석, 머신러닝 등 다양한 유형의 분석을 통해 더 나은 의사결정 가능
Data lake와 Data Warehouse의 차이
- 둘 다 빅데이터를 위한 데이터 스토리지 레파지토리라는 것이 유일한 공통점
- 데이터 웨어하우스는 보고를 위해 설계된 구조화된 데이터 모델을 제공하고, 데이터 레이크는 현재 정의된 목적이 없는 비정형 원시 데이터를 저장
- 데이터 웨어하우스에 데이터를 저장하려면 사전에 데이터를 정제해야 하는데, 이 프로세스는 시간이 오래 걸리므로 즉시 데이터를 수집할 수 없음
- 데이터 레이크를 활용하면 즉시 데이터를 수집하여 향후 해당 데이터를 어디에 사용할지 파악할 수 있음
- 데이터 웨어하우스는 정기적인 보고에 어떤 데이터가 필요한지 이미 알고 있는 비즈니스 애널리스트가 주로 사용
- 데이터 레이크는 데이터를 이용해 연구를 수행하는 데이터 과학자 및 애널리스트가 주로 사용함. 데이터를 사용하려면 고급 필터 및 분석이 적용되어야 함
- 데이터 레이크와 데이터 웨어하우스는 일반적으로 다른 하드웨어를 이용하여 데이터를 저장
- 데이터 웨어하우스는 비용이 많이 들 수 있는 반면, 데이터 레이크는 대규모임에도 불구하고 상용 하드웨어를 자주 사용하기 때문에 그보다 비용이 저렴함
Characteristics | Data Warehouse | Data Lake |
Data | Relational from transactional systems, operational databases, and line of business applications | Non-relational and relational from IoT devices, web sites, mobile apps, social media, and corporate applications |
Schema | Designed prior to the DW implementation (schema-on-write) | Written at the time of analysis (schema-on-read) |
Price/Performance | Fastest query results using higher cost storage | Query results getting faster using low-cost storage |
Data Quality |
Highly curated data that serves as the central version of the truth | Any data that may or may not be curated (ie. raw data) |
Users | Business analysts | Data scientists, Data developers, and Business analysts (using curated data) |
Analytics | Batch reporting, BI and visualizations | Machine Learning, Predictive analytics, data discovery and profiling |
※ 출처
aws.amazon.com/ko/big-data/datalakes-and-analytics/what-is-a-data-lake/
www.redhat.com/ko/topics/data-storage/what-is-a-data-lake
'Security & IT terms' 카테고리의 다른 글
[Day 136] ADFS(Active Directory Federation Services) (0) | 2020.12.24 |
---|---|
[Day 135] Back office, Back End, Front End (0) | 2020.12.23 |
[Day 133] 내부관리계획 (0) | 2020.12.21 |
[Day 131] Threat Intelligence(TI) (0) | 2020.12.19 |
[Day 130] Zero Trust Model(제로 트러스트) (0) | 2020.12.18 |