https://do-one-more.tistory.com/6
데이터 수집 추출 : Homebrew를 이용한 MYSQL 환경 구축 - 4장
먼저 BREW가 있다는 과정하에 글을 작성합니다.[STEP : 1 ] 맥에서는 brew install mysql을 통해 mysql을 설치할 수 있습니다.이걸 통해 설치 한 다음에 기본적인 설정을 해주면 됩니다.[STEP : 2] mysql_secure_ins
do-one-more.tistory.com
MYSQL에 데이터 베이스에서 만들었다면
MySQL workbench를 다운 받아서 좀 더 작업하기 쉽게 만들어보자!
brew install --cask mysqlworkbench
를 통해 mysql workbench를 받고 열어서 자신이 설정해서 mysql에 들어갔던데로 username과 password를 지정해주면 된다.




전체추출을 해본다.
왼쪽 위에 스키마를 클릭하면 db이름을 볼 수 있다. 스키마는 DB와 동일하다고 생각하면 된다.
그 이후에 아래 코드를 사용해서 전체추출을 해볼 수 있다.
select * from pipeline_db.Orders;

증분추출을 해본다.
0. 증분 추출의 특징
- 추출 작업의 시간으로 데이터가 업데이트 된다면 시간
1. 증분 추출의 장점
- 증분 추출을 사용하면 업데이트 된 행을 더 쉽게 캡쳐할 수 있다.
2. 증분 추출의 단점
- 삭제된 행은 캡쳐되지 않는다.
- 원본 테이블에는 마지막으로 업데이트 된 시간에 대한 신뢰할 수 있는 타임스탬프가 있어야 한다.
- 그러기 위해서 업데이트가 된다면 업데이트 된 날짜로 데이터를 하나 더 추가해야한다.
SELECT *
FROM pipeline_db.Orders
WHERE LastUpdated > {{ last_extraction_run} };

vsCode를 이용해서 mysql에 연결해보자!
먼저 mysql과 연동할 수 있도록 하는 라이브러리를 install 해줘야 한다.
pip install pymysql

그 다음에 pipeline.conf라는 파일에 아까 connection을 만든 것처럼 연결 정보를 저장해야한다.

전체추출을 해보고 CSV 파일을 S3에 올려보자


https://github.com/woongCat/data_pipeline_guide
GitHub - woongCat/data_pipeline_guide: 데이터파이프라인 핵심 가이드 책을 따라해본 hub
데이터파이프라인 핵심 가이드 책을 따라해본 hub. Contribute to woongCat/data_pipeline_guide development by creating an account on GitHub.
github.com
'Read a Book! > 데이터 파이프라인 핵심 가이드' 카테고리의 다른 글
| [데이터 파이프라인 핵심 가이드 4장] 데이터 수집 추출 : Homebrew를 이용한 MYSQL 환경 구축 - 4장 (0) | 2025.01.20 |
|---|---|
| [데이터 파이프라인 핵심 가이드 4장] - 데이터 수집 : 데이터 추출 환경 설정 (0) | 2025.01.19 |
| [데이터 파이프라인 핵심 가이드 3장] - 일반적인 데이터 파이프라인 패턴 (0) | 2025.01.18 |
| [데이터 파이프라인 핵심 가이드 1,2 장] 데이터 파이프라인 핵심 가이드 (1) | 2025.01.17 |