ETL( Extract, Transform, Load)
데이터 엔지니어쪽 자료를 찾아보고 공부를 하다보면 정말 자주 듣는 용어입니다. ETL이 Extract, Transform, Load인 것은 알겠는데 구체적으로 하는 일이 무엇인지 공부하고자 작성하였습니다.
ETL은 추출(Extract), 변환(Transform), 로드(Load)를 나타내며 조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용되는 방법입니다. 또한 ETL은 일반적으로 임시 보고를 위해 데이터의 임시 하위 집합을 조합하거나, 데이터를 새 데이터베이스로 마이그레이션하거나, 데이터베이스를 새 형식 또는 유형으로 변환하는 데 사용됩니다.
좀 더 쉽게 설명하자면 Marketing, sales ,erp 등 여러 database에 접근하여 데이터를 추출하고 이를 또 요구사항에 맞는 데이터나 형태를 transform하여 이를 새로운 databse에 load 하는 것을 의미합니다.
이러한 새로운 database를 주로 data warehouse라 정의하는데 이는 데이터 분석가, 데이터 사이언티스트, 머신러닝 엔지니어 등 새로운 데이터를 가공하여 이들이 사용하기 쉽게 ETL을 통해 data warehouse를 구축합니다.
참고 사이트: https://cloud.google.com/learn/what-is-etl?hl=ko, https://bramhyun.tistory.com/18
'Big data > 데이터구조' 카테고리의 다른 글
데이터 파이프라인(data pipeline)이란? (0) | 2022.12.27 |
---|---|
ACID transactions 이란? (0) | 2022.07.14 |
ERD ( Entity Relationship Diagram) (0) | 2022.02.12 |