배경
빅데이터라는 말을 정말 많이 들어보셨을 겁니다. 이러한 빅데이터에 대한 관리를 어떻게 해야할까요?
local에서 간단한 데이터를 바탕으로 진행을 할 때는 해당 데이터를 db에 적재하고 이를 ETL을 통해 insight를 구하면 그만입니다. 그러나 실제에선 해당 db에 정말 많은 log와 데이터들이 적재가 진행되고 해당 DB에 대해 쿼리문을 날리면
이는 많은 트래픽을 유발합니다. 이에따라 원하고자 할때 데이터를 적재적소에 꺼내쓸 수 있는 저장소를 구축하면 어떨까요?
이것이 데이터 파이프라인의 시작입니다.
데이터 파이프라인이란?
데이터 파이프라인이란? 데이터 파이프라인은 다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 data lake 또는 data warehouse와 같은 데이터 저장소로 이전하는 방법입니다. 해당 data warehouse에 있는 데이터를 바탕으로 데이터 분석가 또는 머신러닝 엔지니어 등이 해당 데이터를 사용할 수 있도록 지원합니다. 즉 Workflow를 구축한다라고 생각하시면 될 것 같습니다.
아래의 사진은 임의로 제가 진행할 프로젝트 workflow의 간단한 버전을 설명한 그림입니다.
추가적 설명
ETL과 어떤 차이가 있는지 궁금하실수도 있는데 ETL은 datapipeline을 구축하기 위해 있는 일련의 과정중 하나라 생각하시면 됩니다. 클라우드 서비스 중 data warehouse로 유명한 aws redshift에 데이터들을 적재하고 ETL과정을 Airflow 오픈소스를 통해 자동적으로 진행합니다. 추가적으로 AWS redshift와 Airflow에 대해서는 나중에 포스팅하도록 하겠습니다.
2022.08.08 - ETL (Extract , Transform, Load) 이란?
ETL (Extract , Transform, Load) 이란?
ETL( Extract, Transform, Load) 데이터 엔지니어쪽 자료를 찾아보고 공부를 하다보면 정말 자주 듣는 용어입니다. ETL이 Extract, Transform, Load인 것은 알겠는데 구체적으로 하는 일이 무엇인지 공부하고자
sunho99.tistory.com
'Big data > 데이터구조' 카테고리의 다른 글
ETL (Extract , Transform, Load) 이란? (0) | 2022.08.08 |
---|---|
ACID transactions 이란? (0) | 2022.07.14 |
ERD ( Entity Relationship Diagram) (0) | 2022.02.12 |