[MLOps] DataLake

데이터 레이크는 모든 데이터를 원본 그대로 저장하는 중앙 저장소입니다. 분산된 데이터를 통합하여 고급 분석과 머신러닝 모델 개발의 핵심 기반으로 활용할 수 있습니다.

개요

조직에 있는 모든 데이터를 처리하기 위해 ETL 프로세스를 사용한다는 것을 이해했습니다.

이렇게 변환된 데이터를 한 번에 확인할 수 있는 DataLake라는 장소와 형식을 정리하였습니다.

Data Lake

데이터 레이크는 조직의 모든 데이터를 원시 형태(raw format) 그대로 저장하는 중앙 집중식 저장소입니다. 정형, 반정형, 비정형 등 데이터의 종류와 구조에 상관없이 모든 데이터를 한곳에 모아두는 거대한 데이터 보관소라고 생각할 수 있습니다.

이는 마치 다양한 강줄기(데이터 소스)에서 흘러들어온 물을 모두 담아내는 거대한 호수와 같습니다.

데이터 레이크의 핵심 역할과 특징 정리

1. 중앙 집중식 데이터 저장소


2. 뛰어난 확장성과 유연성


3. 다양한 데이터 유형 지원


4. 비용 효율성


5. 고급 분석 및 처리 기능 지원


6. 데이터 보안과 거버넌스


7. 다른 도구들과의 원활한 통합


8. 머신러닝(ML) 및 AI의 핵심 기반