data pipeline

Apache Airflow 란? airflow는 에어비엔비에서 만든 worflow를 만드는 오픈소스 프로젝트입니다. 정확한 시간에, 정확한 방법으로, 정확한 순서대로 실행하게 해주는 오케스트레이터입니다. 데이터 엔지니어링의 ETL작업을 자동화고, DAG(Directed Acyclic Graph) 형태의 workflow 작성이 가능합니다. webserver, scheduler,executor, worker 등으로 구성되어 있습니다. datapipeline을 구성할 때 주로 사용됩니다. 구성요소 설명 Scheduler : DAG와 작업들을 모니터링하고 task의 실행 순서와 상태관리를 합니다. MetaStore : 실행할 Task의 관한 정보를 정해 놓습니다. Executor : 스케쥴러와 함께 동작하는 구..
배경 빅데이터라는 말을 정말 많이 들어보셨을 겁니다. 이러한 빅데이터에 대한 관리를 어떻게 해야할까요? local에서 간단한 데이터를 바탕으로 진행을 할 때는 해당 데이터를 db에 적재하고 이를 ETL을 통해 insight를 구하면 그만입니다. 그러나 실제에선 해당 db에 정말 많은 log와 데이터들이 적재가 진행되고 해당 DB에 대해 쿼리문을 날리면 이는 많은 트래픽을 유발합니다. 이에따라 원하고자 할때 데이터를 적재적소에 꺼내쓸 수 있는 저장소를 구축하면 어떨까요? 이것이 데이터 파이프라인의 시작입니다. 데이터 파이프라인이란? 데이터 파이프라인이란? 데이터 파이프라인은 다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 data lake 또는 data warehouse와 같은 데이터 저장소..
Shine_sunho
'data pipeline' 태그의 글 목록