github 주소
https://github.com/son-kino/data_pipeline_guide.git
GitHub - son-kino/data_pipeline_guide: 데이터파이프라인 핵심 가이드 책을 따라해본 hub
데이터파이프라인 핵심 가이드 책을 따라해본 hub. Contribute to son-kino/data_pipeline_guide development by creating an account on GitHub.
github.com
데이터 파이프라인 실습을 위한 환경을 구축한다
1번) 파이썬 환경 설정
작년 10월, 파이썬 3.13 버젼이 나왔는데 버젼 호환성으로 인해 사용해 본 적이 없는데, 드디어 사용해볼 수 있게 되었다.
GIL을 제외할 수 있는 기능이 있다는데 한 번 써 보는 기회가 되면 좋을 거 같다.
현재 os는 macOs라는 것을 얘기한다.
python3 -m venv venv로 가상환경을 설정해준다.github에는 gitignore를 올려둬서 레포에서는 보이지 않을 것이다.
그 다음에 source venv/bin/activate를 사용해서 가상환경을 켜준다.
그 다음에 pip install configparser을 추가해서 config를 추가해주는 작업을 하나보다.
touch pipeline.conf를 통해 config를 설치해주는데 설정 파일이므로 gitignore에 추가하는게 좋다.
2번) 클라우드 파일 스토리지 설정
가장 유명한 클라우드 서비스에서는 AWS일것이다.
그중에서도 현재 12개월 동안 무료로 AWS S3 버킷을 생성할 수 있다.
이후 AWS Identity and Access Management (IAM)을 통해 외부 접근을 설정할 수 있다.
그리고 이런 AWS S3와 상호작용하기 위해서 boto3이라는
파이썬용 AWS Software Devloepment Kit(SDK)를 pip install boto3를 통해 가져와야 한다.
1. s3 버킷 만들기

2. IAM 권한 설정하기

3. 이후 액세스 키 할당 만들기


4 rds 만들기


+) 주의 사항
RDS는 쓰지 않는다면 일시적으로 중지를 눌러 주도록 하자.
무섭지만 데이터 파이프라인 핵심가이드를 따라가보기로 한다.


aws 프리티어 확인


예산설정

'Read a Book! > 데이터 파이프라인 핵심 가이드' 카테고리의 다른 글
| [데이터 파이프라인 핵심 가이드 4장] 생성된 MYSQL - MYSQL workbench과 python에 연결 후 데이터 추출 (0) | 2025.01.21 |
|---|---|
| [데이터 파이프라인 핵심 가이드 4장] 데이터 수집 추출 : Homebrew를 이용한 MYSQL 환경 구축 - 4장 (0) | 2025.01.20 |
| [데이터 파이프라인 핵심 가이드 3장] - 일반적인 데이터 파이프라인 패턴 (0) | 2025.01.18 |
| [데이터 파이프라인 핵심 가이드 1,2 장] 데이터 파이프라인 핵심 가이드 (1) | 2025.01.17 |