github 주소

https://github.com/son-kino/data_pipeline_guide.git

 

GitHub - son-kino/data_pipeline_guide: 데이터파이프라인 핵심 가이드 책을 따라해본 hub

데이터파이프라인 핵심 가이드 책을 따라해본 hub. Contribute to son-kino/data_pipeline_guide development by creating an account on GitHub.

github.com

데이터 파이프라인 실습을 위한 환경을 구축한다


1번) 파이썬 환경 설정

 작년 10월, 파이썬 3.13 버젼이 나왔는데 버젼 호환성으로 인해 사용해 본 적이 없는데, 드디어 사용해볼 수 있게 되었다.
 GIL을 제외할 수 있는 기능이 있다는데 한 번 써 보는 기회가 되면 좋을 거 같다.
현재 os는 macOs라는 것을 얘기한다. 
python3 -m venv venv로 가상환경을 설정해준다.github에는 gitignore를 올려둬서 레포에서는 보이지 않을 것이다.

그 다음에 source venv/bin/activate를 사용해서 가상환경을 켜준다.
그 다음에 pip install configparser을 추가해서 config를 추가해주는 작업을 하나보다.
touch pipeline.conf를 통해 config를 설치해주는데 설정 파일이므로 gitignore에 추가하는게 좋다.

2번) 클라우드 파일 스토리지 설정

가장 유명한 클라우드 서비스에서는 AWS일것이다. 
그중에서도 현재 12개월 동안 무료로 AWS S3 버킷을 생성할 수 있다. 
이후 AWS Identity and Access Management (IAM)을 통해 외부 접근을 설정할 수 있다. 

그리고 이런 AWS S3와 상호작용하기 위해서 boto3이라는 
파이썬용 AWS Software Devloepment Kit(SDK)를 pip install boto3를 통해 가져와야 한다.

1. s3 버킷 만들기

2. IAM 권한 설정하기

IAM 사용자 설정 권한에서 직접 연결해 s3Fullaccess를 추가하면 된다.

3. 이후 액세스 키 할당 만들기

만든 IAM 사용자를 눌러보면 액세스 키 만들기가 나올 것이다.
그냥 아무거나 누르고 .config에 잘 저장하면 된다. 나는 로컬 코드를 눌러서 생성했다.

4 rds 만들기

잘 사용하는 언어로 손쉬운 생성을 언어로 하면 프리티어가 있을 것이다. 없으면 도망쳐라. 그리고 생성하고 좀 시간이 걸린다.
그럼 이렇게 켜져 있는 모습을 볼 수 있다. 안 쓸 때는 끄는게 지갑 건강에 좋다.


 +) 주의 사항

 RDS는 쓰지 않는다면 일시적으로 중지를 눌러 주도록 하자. 

무섭지만 데이터 파이프라인 핵심가이드를 따라가보기로 한다.

중지해도 아침 9시에 다시 열리니까 다시 꺼주는 귀찮은 작업을 해야할수도 있다. 아님 쿨하게 돈 내버리기?

aws 프리티어 확인

여기 적혀있는 요건을 확인하는게 언제나 좋다.

예산설정

예산 설정을 통해 돈이 0.01원이라도 나가면 메일이 가도록 설정하자

 

+ Recent posts