Hadoop
- 하둡은 대용량 데이터를 분산처리할 때 쓰는 기술.
- 특히 Batch를 처리할 때 많이 쓰이는데, 배치 처리는 데이터를 일정 기간 쌓아 놓고 한번에 분석하는 작업을 의미.
- 예 : 하루 동안 일어난 은행 거래액을 새벽에 한번 정산 처리
Apache Spark
- 배치와 반대되는 것은 스트리밍 처리로, 데이터를 실시간으로 수집하고 분석하는 기술
- 하둡에 비해 최대 100배 정도 빠름
Databricks
- 데이터브릭스는 아파치 스파크 기술로 성장함
- 대규모 데이터를 보다 손쉽게 가져오고 이를 인공지능과 결합해 분석할 수 있도록 도와줌
- 데이터브릭스는 이용할 클라우드 서비스(AWS, MS Azure 등)를 선택하면, 선택한 클라우드 인프라에서 실행됨
- SaaS 서비스를 이용하듯 별다른 설치 없이 사용 가능하고, 데이터브릭스 자원을 사용한 기준으로 후불로 비용 책정됨
[출처] https://blog.lgcns.com/2545
‘데이터브릭스’라 쓰고, 오픈소스계의 ‘슈퍼스타’라고 읽는다
오랜만에 오픈소스 업계에 초대형 기업이 나타났습니다. 주인공은 미국의 데이터 통합 플랫폼 스타트업인 데이터브릭스(Databricks)입니다. 데이터 분석 기술로 성장 중인 이 기업은 19억 달러(한
blog.lgcns.com
'Security & IT terms' 카테고리의 다른 글
[Day 318] ICS, SCADA (0) | 2021.06.23 |
---|---|
[Day 316] First Party, Second Party, Third Party (0) | 2021.06.21 |
[Day 312] Kubernetes(쿠버네티스) (0) | 2021.06.17 |
[Day 311] Container Orchestration(컨테이너 오케스트레이션) (0) | 2021.06.16 |
[Day 310] Application Stack (0) | 2021.06.15 |