대규모 데이터를 빠르고 효율적으로 처리하려는 노력은 계속되어 왔습니다. 기의 고비용 병렬 처리 시스템부터 오픈소스 분산 처리 프레임워크까지, Spark가 주목받게 된 과정을 단계별로 살펴보겠습니다. 1. MPP (Massively Parallel Processing)MPP는 ‘대규모 병렬 처리’를 의미합니다. 수많은 독립적인 하드웨어(노드)가 각자의 데이터베이스를 운영하며 병렬적으로 데이터를 처리하는 구조입니다. 여러 대의 서버에서 병렬로 작업 처리데이터를 분산 저장하여 병목을 줄임고성능 시스템이지만 비용이 매우 높음 MPP는 Oracle Exadata, Teradata, IBM Netezza 같은 대형 벤더의 솔루션으로 잘 알려져 있습니다. 병렬성과 처리 성능이 뛰어났지만, 장비 도입과 라이선스 비용..