AWS 데이터 엔지니어링을 위한 AI/ML

AWS 데이터 엔지니어링 서비스(Data Pipeline, Batch, DMS, Step Functions 등)로 데이터 이동, 처리, 마이그레이션, 워크플로우를 효율적으로 구축하세요.

AWS Data Pipeline

데이터를 한 곳에서 다른 곳으로 옮기는 서비스입니다.

ETL이 대표적이며 시험에 나올만한 아키텍쳐만 정리하였습니다.

Data Pipeline example

Notion Image

AWS Data Pipeline vs. Glue

Glue

Data Pipeline

정리하면 둘 다 ETL 서비스이지만 Glue는 데이터 변환을 해주는 ETL 서비스로써 Apache Spark에 훨씬 집중되어있습니다. 반면 Data Pipeline은 오케스트레이션 서비스로 사용자의 ec2나 EMR 인스턴스 환경에서 실행됩니다.

AWS Batch

Docker 이미지 기반  배치 작업을 실행하는 서비스입니다.

AWS Batch VS Glue

Glue

Batch

Glue에서 중요한건 데이터를 모아 변형한 다음 다른 곳으로 적재하거나 보강할 수 있다는 것입니다.

AWS DMS - Database Migration Service

온프레미스 데이터베이스를 AWS로 마이그레이션할 수 있게 해주는 서비스입니다.

AWS DMS vs Glue

Glue

DMS

AWS Step Functions

Example

각 단계별 서비스를 호출하거나 동작에 대해 정의할 수 있습니다.

머신러닝 모델을 훈련하거나 튜닝하는 방식입니다.

Notion Image
Notion Image

정리하면 과정을 오케스트레이션 하거나 자동화하여 연쇄적으로 작동하는 체인을 만들고자 한다면 Step Functions를 사용할 수 있습니다.

Data Engineering Pipeline Real-Time layer

Notion Image

Data Engineering Pipeline Video layer

Notion Image

Data Engineering Pipeline Batch layer

Notion Image

Data Engineering Pipeline Analytics layer

Notion Image

AWS DataSync

MQTT

요약

Frank Kane이 간략하게 언급한 내용은 다음과 같습니다.