[MLOps] Data Collection & Preparation

고객 데이터를 분석하는 ML 예측 모델로 개인화된 경험을 제공하세요. 정확한 데이터 준비는 고객 유지와 수익 증대의 핵심입니다.

개요

데이터를 효과적으로 수집하고 준비하여 ML 모델을 사용해 구축하는 방법과 수집 및 준비가 왜 기초적인 역할을 하는지 정리하였습니다.

개인화된 경험을 통한 고객 관계 및 수익 증대

고객의 구매 이력 및 브라우징 패턴과 같은 데이터를 분석하여 개개인의 다음 니즈를 예측하고, 이를 통해 사용자 참여와 만족도를 크게 향상시킬 수 있습니다.

이렇게 축적된 행동 데이터를 기반으로 고객에게 맞춤화된 프로모션과 할인 혜택을 제공할 수 있습니다. 특정 패턴을 보이는 고객에게는 더 높은 가치의 제안을 함으로써 효과적인 상향 판매(Upselling) 기회를 창출할 수 있습니다.

궁극적으로 이러한 개인화된 경험과 가치 기반 제안은 다음과 같은 핵심적인 비즈니스 성과로 이어집니다.

ML 예측 모델의 성공을 위한 데이터 준비 과정

정확한 예측의 핵심은 데이터입니다. 기계 학습(ML) 모델이 유의미한 패턴을 학습하고 정교한 개인화 추천을 생성하기 위한 모든 과정은 데이터에서 시작됩니다. 따라서 예측 모델 구축의 첫 단계는 필요한 모든 데이터를 확보하고, 그 품질을 보장하는 것입니다.

데이터가 정확하고 포괄적일 수록 더 정확한 예측을 수행할 수 있습니다.

1. 효과적인 데이터 수집 (Data Collection)

데이터 수집은 정보에 기반한 의사결정의 가장 기본적이고 중요한 단계입니다. 데이터가 정확하고 포괄적일수록 모델의 예측 정확도는 비약적으로 향상됩니다.

이는 “Garbage In, Garbage Out” (잘못된 데이터는 잘못된 결과를 낳는다) 원칙과 직결됩니다.

2. 데이터 중앙 집중화 및 저장 (Data Centralization & Storage)

데이터는 SQL 데이터베이스, NoSQL, 스프레드시트 등 다양한 형태로 여러 곳에 흩어져 저장되는 경우가 많습니다. ML 모델이 일관된 데이터셋을 사용할 수 있도록, 이러한 분산된 데이터를 한곳으로 모으는 중앙 집중화 과정이 필수적입니다.

3. 데이터 전처리 및 준비 (Data Preprocessing)

중앙 저장소에 수집된 원본 데이터(Raw Data)는 모델 훈련에 바로 사용하기 어려운 경우가 대부분입니다. 따라서 모델이 학습할 수 있는 깨끗하고 정제된 형태로 가공하는 전처리(Preprocessing) 과정이 반드시 필요합니다.

이러한 각각의 과정을 수행하기 위한 ETL 작업, Data Ingestion, Feature Store & Data Lake, Spark & Pandas 같은 도구를 사용해보며 구성을 확인합니다.

Notion Image

전반적인 데이터 수집 및 준비는 모든 AI 기반 애플리케이션에 가장 핵심적인 과정으로 데이터를 중앙 집중화하고, 정제되고, 포괄적으로 관리함으로써, 정확한 ML 모델을 구축할 수 있는 토대를 마련할 수 있습니다.