1장 - 데이터 파이프라인 소개

1번) 데이터 파이프라인이란?

- 가장 간단한 형태의 REST API
- 데이터 추출, 데이터 가공, 데이터 유효성 검사등을 포함하는 복잡한 단계가 일반적이다.

2번) 누가 파이프라인을 구축하는가?

- 데이터 엔지니어 (데이터의 유효성과 적시성을 보장하려고 한다. 이거를 대비해서 경고, 테스트를 만들지만 어디에선가 문제가 생길 것이다!)
- 공통적인 기술 
    - SQL
    - 데이터 웨어하우징 기초
    - 파이썬 or 자바
    - 분산 컴퓨팅
    - 기본 시스템 관리 (리눅스, cloud, 응용 프로그램 로그 분석)
    - 목표 지향적 사고방식

3번) 왜 구축 해야 하나?

- 데이터를 분석가가 활용가능하도록 만듦
- 데이터, 정리, 정혛와, 정규화 ,결합, 집계, 보안 처리

4번) 어떻게 구축하나?

- python
- sql
- java
- 등등

2장 - 최신 데이터 인프라

1번) 수집 인터페이스 및 데이터 구조

- Postgres, MySQL (데이터베이스)
- REST API (추상화 계층)
- Apach Kafka (스트림 처리 플랫폼)
- csv, nfs, 클라우드 스토리지버킷 
- 데이터 웨어하우스, 데이터레이크,
- HDFS, Hbase의 데이터베이스의 데이터
- JSON

2번) 데이터 클렌징과 유효성 검사

- 지저분한 데이터
    - 중복되거나 모호한 레코드
    - 고립된 레코드
    - 불완전하거나 누락된 레코드
    - 텍스트 인코딩 오류
    - 일치하지 않는 형식 (ex: 전화번호)
    - 레이블이 잘못되었거나 레이블이 지정되지 않은 데이터

3번) 데이터 수집 도구

- 대부분 직접 구축
- Singer
- Stitch
- Fivertran

4번) 데이터 변환 및 모델링 도구

- 개인 식별 가능 정보

5번) 워크플로 오케스트레이션 플렛폼

- Luigi
- AWS Glue
- Kubeflow pieline

6번) 방향성 비순환 그래프(DAG)


1,2장 후기

: 일단 1장은 데이터 파이프라인의 what, who, why, how를 담고 있고
2장은 데이터 인프라의 기본적인 정보에 대해 담고 있다. 일단 전반적인 개념을 훑어 볼 수 있다.
근데, 나는 디테일을 더 알고 싶은 거라서 책을 좀 더 읽어봐야겠다.

+ Recent posts