아파치 스파크1 [Day 314] 하둡, 아파치 스파크, 데이터브릭스 Hadoop 하둡은 대용량 데이터를 분산처리할 때 쓰는 기술. 특히 Batch를 처리할 때 많이 쓰이는데, 배치 처리는 데이터를 일정 기간 쌓아 놓고 한번에 분석하는 작업을 의미. 예 : 하루 동안 일어난 은행 거래액을 새벽에 한번 정산 처리 Apache Spark 배치와 반대되는 것은 스트리밍 처리로, 데이터를 실시간으로 수집하고 분석하는 기술 하둡에 비해 최대 100배 정도 빠름 Databricks 데이터브릭스는 아파치 스파크 기술로 성장함 대규모 데이터를 보다 손쉽게 가져오고 이를 인공지능과 결합해 분석할 수 있도록 도와줌 데이터브릭스는 이용할 클라우드 서비스(AWS, MS Azure 등)를 선택하면, 선택한 클라우드 인프라에서 실행됨 SaaS 서비스를 이용하듯 별다른 설치 없이 사용 가능하고, 데.. 2021. 6. 19. 이전 1 다음