반응형
스파크 애플리케이션 개념의 이해
애플리케이션
- API를 써서 스파크 위에서 돌아가는 사용자 프로그램, 드라이버 프로그램과 클러스터의 실행기로 이뤄짐.
- 스파크 애플리케이션의 핵심에는 스파크 드라이버 프로그램이 있으며, 이 드라이버는 SparkSession 객체를 만듬SparkSession
- 스파크 코어 기능들과 상호 작용할 수 있는 진입점을 제공하며 그 API로 프로그래밍을 할 수 있게 해주는 객체.
Job
- 스파크 액션(ex. save(),collect())에 대한 응답으로 생성되는 여러 태스크로 이뤄진 병렬 연산.
- 스파크 셸로 상호작용하는 작업 동안, 드라이버는 스파크 애플리케이션을 하나 이상의 스파크 잡으로 변환하고, 각 잡은 DAG로 변환됨.
stage
- 각 job은 스테이지라 불리는 서로 의존성을 가지는 다수의 태스크 모음으로 나뉨.
- DAG 노드를 바탕으로 여러 스테이지로 나뉘어 실행됨.
태스크
- 스파크 이그제큐터로 보내지는 작업 실행의 가장 기본적인 단위.
- 각 태스크는 개별 CPU 코어에 할당되고 데이터의 개별 파티션을 갖고 작업한다.
'Apache > Apache Spark' 카테고리의 다른 글
SQL 테이블과 뷰 (0) | 2023.08.20 |
---|---|
Spark SQL과 데이터 프레임 (0) | 2023.08.20 |
Spark DDL을 사용하여 dataframe 생성하기 (0) | 2023.08.04 |
Spark의 구조 확립 (0) | 2023.08.04 |
Apache Spark란? (0) | 2022.07.20 |