배경 빅데이터라는 말을 정말 많이 들어보셨을 겁니다. 이러한 빅데이터에 대한 관리를 어떻게 해야할까요? local에서 간단한 데이터를 바탕으로 진행을 할 때는 해당 데이터를 db에 적재하고 이를 ETL을 통해 insight를 구하면 그만입니다. 그러나 실제에선 해당 db에 정말 많은 log와 데이터들이 적재가 진행되고 해당 DB에 대해 쿼리문을 날리면 이는 많은 트래픽을 유발합니다. 이에따라 원하고자 할때 데이터를 적재적소에 꺼내쓸 수 있는 저장소를 구축하면 어떨까요? 이것이 데이터 파이프라인의 시작입니다. 데이터 파이프라인이란? 데이터 파이프라인이란? 데이터 파이프라인은 다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 data lake 또는 data warehouse와 같은 데이터 저장소..
Big data/데이터구조
ETL( Extract, Transform, Load) 데이터 엔지니어쪽 자료를 찾아보고 공부를 하다보면 정말 자주 듣는 용어입니다. ETL이 Extract, Transform, Load인 것은 알겠는데 구체적으로 하는 일이 무엇인지 공부하고자 작성하였습니다. ETL은 추출(Extract), 변환(Transform), 로드(Load)를 나타내며 조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용되는 방법입니다. 또한 ETL은 일반적으로 임시 보고를 위해 데이터의 임시 하위 집합을 조합하거나, 데이터를 새 데이터베이스로 마이그레이션하거나, 데이터베이스를 새 형식 또는 유형으로 변환하는 데 사용됩니다. 좀 더 쉽게 설명하자..
트랜잭션 (Transaction)이란? 데이터베이스의 상태를 변환시키는 하나의 논리적 기능을 수행하기 위한 작업의 단위 또는 한꺼번에 모두 수행되어야 할 연산을 의미합니다. 사용자가 시스템에 대한 서비스를 요구 할시 시스템이 응답하기 위한 상태 과정 작업 단위입니다. 트랜잭션은 단일 레코드 또는 여러 레코드에 영향을 줄 수 있습니다. ACID 란? 이때 데이터베이스 트랜잭션은 ACID 특성을 가지고 있는데 이는 데이터베이스 내에서 일어나는 트랜잭션의 안전성을 보장하기 위해 있는 성질들입니다. 원자성 (Atomicity) 원자성은 트랜잭션이 성공하거나 실패한다는 사실을 나타냅니다. all or nothing 작업입니다. 여러 단계로 구성되어 있음에도 불구하고 단계는 단일 작업 또는 단위로 처리됩니다. 처리..
ERD란? Entity Relationship(ER) Diagram 은 사람, 개체 또는 개념과 같은 "entity"가 시스템 내에서 서로 관련되는 방식을 보여주는 흐름도 방식입니다. Entity Relationship(ER) Diagra은 소프트웨어 엔지니어링, 비즈니스 정보 시스템, 교육 및 연구 분야에서 관계형 데이터베이스를 설계하거나 디버그하는 데 가장 자주 사용됩니다. 아래는 ERD 예시입니다. 약자 설명 PK: primary key 한 entity안에 primary key는 2개이상 존재할수 없습니다. 해당 테이블을 대표하는 key입니다. 각 record마다 unique한 Key를 가지고 있습니다. FK: foreign key 외부 식별자라고 부릅니다 다른 entity의 PK에서 참조됩니다. ..