본문 바로가기
Security & IT terms

[Day 314] 하둡, 아파치 스파크, 데이터브릭스

by minimalist_2022 2021. 6. 19.

Hadoop

  • 하둡은 대용량 데이터를 분산처리할 때 쓰는 기술.
  • 특히 Batch를 처리할 때 많이 쓰이는데, 배치 처리는 데이터를 일정 기간 쌓아 놓고 한번에 분석하는 작업을 의미.
  • 예 : 하루 동안 일어난 은행 거래액을 새벽에 한번 정산 처리

 

Apache Spark

  • 배치와 반대되는 것은 스트리밍 처리로, 데이터를 실시간으로 수집하고 분석하는 기술
  • 하둡에 비해 최대 100배 정도 빠름

 

Databricks

  • 데이터브릭스는 아파치 스파크 기술로 성장함
  • 대규모 데이터를 보다 손쉽게 가져오고 이를 인공지능과 결합해 분석할 수 있도록 도와줌
  • 데이터브릭스는 이용할 클라우드 서비스(AWS, MS Azure 등)를 선택하면, 선택한 클라우드 인프라에서 실행됨
  •  SaaS 서비스를 이용하듯 별다른 설치 없이 사용 가능하고, 데이터브릭스 자원을 사용한 기준으로 후불로 비용 책정됨

 

[출처] https://blog.lgcns.com/2545

 

‘데이터브릭스’라 쓰고, 오픈소스계의 ‘슈퍼스타’라고 읽는다

오랜만에 오픈소스 업계에 초대형 기업이 나타났습니다. 주인공은 미국의 데이터 통합 플랫폼 스타트업인 데이터브릭스(Databricks)입니다. 데이터 분석 기술로 성장 중인 이 기업은 19억 달러(한

blog.lgcns.com