[데이터 파이프라인 핵심 가이드 3장] - 일반적인 데이터 파이프라인 패턴

wooongCat 2025. 1. 18. 03:02

2025. 1. 18. 03:02

1번) ETL과 ELT

- ETL : Extract, Transform, Load
- ETL : Extract, Load, Transform

2번) ELT가 등장한 이유

- 데이터 웨어하우스가 가능해지면서 방대한 양의 원본 데이터를 저장하는게 가능해졌기 때문
- DB의 I/O효율성, 데이터 압축, 데이터 처리를 위한 병렬 노드에 데이터 및 쿼리 분산 기능

- 행기반 데이터 웨어하우스 : 데이터베이스의 각 행은 각 레코드 크기에 따라 하나 이상의 블록으로 디스크에 저장
                       나뉘지 않는 경우는 일부 디스크 공간을 사용하지 않은 상태로 남긴다.
                       단일 레코드를 자주 일고 쓰기 때문에 블록에 빈 공간을 남기는 것은 합리적인 절충안
- 열기반 데이터 웨어하우스 : Amazon Redshift, Snowflake 
                       동일한 데이터 유형, 빈 공간 남기지 않고 사용

3번) EtLT 하위 패턴

- 작은 t의 의미
    1. 테이블에서 레코드 중복 제거
    2. URL 파라미터를 개별 구성요소로 구문 분석
    3. 민감한 데이터 마스킹 또는 난독화

4번) ELT

1. 데이터 분석을 위한 ELT
2. 데이터 과학을 위한 ELT
3. 데이터 제품을 및 머신러닝을 위한 ELT
    - 파이프라인
    - 데이터 수집
    - 데이터 전처리
    - 모델 교육
    - 모델 배포
    - 파이프라인에 피드백 통합

3장 후기

열기반 데이터 웨어하우스가 우리가 잘 아는 데이터웨어하우스인데, 책에서는 엄청 자세히는 나오지 않아 어떤 데이터웨어하우스인지 알려고 해봐야겠다. 

저번에 프로젝트 할 때는 S3에 넣을 때 airflow를 통해서 Redshift를 사용하기보다는 적은 양의 데이터는 Amazon Athena를 사용해서 넣으면 되고 Spark를 통해서 데이터를 넣을 때는 Amazon Glue를 사용하면 되고 사용 용도에 맞는 기술을 써야 한다고 들었기에 다시 한 번 봐야겠다. 

그리고 DB의 성능에 대해서는 잘 모르는데 이것도 한번 알아봐야겠다.

열기반 데이터 웨어하우스
• 열기반 데이터 웨어하우스가 제공하는 주요 장점은 무엇이라고 생각하나요?
• Amazon Redshift와 Snowflake를 비교해본 경험이 있다면, 어떤 상황에서 각각을 사용하는 것이 더 적합할까요?

'Read a Book! > 데이터 파이프라인 핵심 가이드' 카테고리의 다른 글

[데이터 파이프라인 핵심 가이드 4장] 생성된 MYSQL - MYSQL workbench과 python에 연결 후 데이터 추출 (0)	2025.01.21
[데이터 파이프라인 핵심 가이드 4장] 데이터 수집 추출 : Homebrew를 이용한 MYSQL 환경 구축 - 4장 (0)	2025.01.20
[데이터 파이프라인 핵심 가이드 4장] - 데이터 수집 : 데이터 추출 환경 설정 (0)	2025.01.19
[데이터 파이프라인 핵심 가이드 1,2 장] 데이터 파이프라인 핵심 가이드 (1)	2025.01.17

DoMo

[데이터 파이프라인 핵심 가이드 3장] - 일반적인 데이터 파이프라인 패턴

1번) ETL과 ELT

2번) ELT가 등장한 이유

3번) EtLT 하위 패턴

4번) ELT

3장 후기

'Read a Book! > 데이터 파이프라인 핵심 가이드' 카테고리의 다른 글

+ Recent posts

티스토리툴바