'Apache' 카테고리의 글 목록 (2 Page)

2022.07.20·Apache/Apache Spark

Apache Spark 등장 배경 Spark는 Hadoop 에서 사용되는 MapReduce 형태의 클러스 컴퓨팅 한계를 극복하고자 등장하게 되었습니다. MapReduce는 Disk로부터 데이터를 읽은 후, Map을 통해 흩어져 있는 데이터를 key-value로 묶고 Reduce를 통해 원하고자 하는 데이터를 가공하여 Disk에 저장하게 되는 과정을 거치고 있는데, 이는 File 기반의 Disk I/O가 성능이 좋지 못하였고, Disk 대신 Memory 연산을 통해 성능을 향상 시키고자 Spark가 등장하게 되었습니다. Apache Spark란 Apache Spark는 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합입니다. 분산 클러스터 컴퓨팅 프레임워크로 Fault Tol..

티스토리툴바