본문 바로가기
Security & IT terms

[Day 134] Data lake, Data Warehouse

by minimalist_2022 2020. 12. 22.

Data lake

  • 대규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 저장소
  • 윈시 데이터(특정 목적에 의해 가공/정제되지 않은 데이터) 그대로 저장 가능
  • 대시보드 및 시각화, 빅데이터 처리, 실시간 분석, 머신러닝 등 다양한 유형의 분석을 통해 더 나은 의사결정 가능


Data lake와 Data Warehouse의 차이

  • 둘 다 빅데이터를 위한 데이터 스토리지 레파지토리라는 것이 유일한 공통점
  • 데이터 웨어하우스는 보고를 위해 설계된 구조화된 데이터 모델을 제공하고, 데이터 레이크는 현재 정의된 목적이 없는 비정형 원시 데이터를 저장


  • 데이터 웨어하우스에 데이터를 저장하려면 사전에 데이터를 정제해야 하는데, 이 프로세스는 시간이 오래 걸리므로 즉시 데이터를 수집할 수 없음
  • 데이터 레이크를 활용하면 즉시 데이터를 수집하여 향후 해당 데이터를 어디에 사용할지 파악할 수 있음


  • 데이터 웨어하우스는 정기적인 보고에 어떤 데이터가 필요한지 이미 알고 있는 비즈니스 애널리스트가 주로 사용
  • 데이터 레이크는 데이터를 이용해 연구를 수행하는 데이터 과학자 및 애널리스트가 주로 사용함. 데이터를 사용하려면 고급 필터 및 분석이 적용되어야 함


  • 데이터 레이크와 데이터 웨어하우스는 일반적으로 다른 하드웨어를 이용하여 데이터를 저장
  • 데이터 웨어하우스는 비용이 많이 들 수 있는 반면, 데이터 레이크는 대규모임에도 불구하고 상용 하드웨어를 자주 사용하기 때문에 그보다 비용이 저렴함


Characteristics Data Warehouse Data Lake
Data Relational from transactional systems, operational databases, and line of business applications Non-relational and relational from IoT devices, web sites, mobile apps, social media, and corporate applications
Schema Designed prior to the DW implementation (schema-on-write) Written at the time of analysis (schema-on-read)
Price/Performance Fastest query results using higher cost storage Query results getting faster using low-cost storage
Data Quality
Highly curated data that serves as the central version of the truth Any data that may or may not be curated (ie. raw data)
Users Business analysts Data scientists, Data developers, and Business analysts (using curated data)
Analytics Batch reporting, BI and visualizations Machine Learning, Predictive analytics, data discovery and profiling


※ 출처



What is a data lake?

Data Lakes are an ideal workload to be deployed in the cloud, because the cloud provides performance, scalability, reliability, availability, a diverse set of analytic engines, and massive economies of scale. ESG research found 39% of respondents consideri




데이터 레이크(Data Lake)란? 정의, 분석 및 솔루션

데이터 레이크(Data lake)는 대규모의 원시 데이터 세트를 기본 형식으로 저장하는 리포지토리를 뜻하며, 플랫 아키텍처로 확장성을 제공하여 비용 절감이 가능합니다.
