[MLOps] Data Cleaning & Data Transformation

데이터 품질은 신뢰도 높은 분석의 핵심입니다. 데이터 정제와 표준화를 통해 분석의 정확성을 확보하고, 가치 있는 비즈니스 인사이트를 도출하는 방법을 제시합니다.

개요

다양한 소스에서 추출된 데이터는 종종 불완전하거나, 형식이 다르거나, 오류를 포함하고 있습니다. 이러한 데이터를 정제하지 않고 그대로 데이터 레이크에 쌓고 Parquet 같은 특정 포맷으로 변환한다면, ’쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 원칙에 따라 분석 결과의 신뢰도는 크게 떨어집니다.

따라서 데이터 변환 및 적재 전에 데이터의 품질을 검사하고 향상시키는 과정은, 신뢰할 수 있는 분석과 정확한 비즈니스 인사이트를 얻기 위한 필수적인 사전 작업입니다.

데이터 퀄리티를 높히는 전략

데이터의 가치를 극대화하기 위해 반드시 거쳐야 할 5가지 핵심 전략을 정리하였습니다.

Notion Image

1. 데이터 정확성 보장 (Accuracy)

모든 분석의 가장 기본이 되는 요소입니다. 데이터에 포함된 오류, 오타, 논리적 불일치를 찾아내고 수정해야 합니다.

2. 중복 데이터 제거 (Deduplication)

동일한 데이터가 여러 번 기록되면 분석 결과를 왜곡하고 저장 공간을 낭비하게 됩니다. 시스템 오류나 사용자 실수로 인해 발생하는 중복 데이터를 식별하고 제거해야 합니다.

3. 데이터 형식 표준화 (Standardization)

여러 소스에서 온 데이터는 같은 의미라도 다른 형식으로 표현될 수 있습니다. 이를 하나의 통일된 형식으로 맞춰주는 과정입니다.

4. 결측값 처리 (Handling Missing Values)

데이터가 누락된 경우(결측값), 분석에 오류를 일으킬 수 있습니다. 결측값을 어떻게 처리할지 정책을 정하고 적용해야 합니다.

5. 분석을 위한 데이터 최적화 (Optimization)

원시 데이터(raw data)는 분석가가 바로 사용하기 어려운 경우가 많습니다. 분석 목적에 맞게 데이터를 가공하고 구조화하여 처리하기 쉬운 형태로 변환합니다.

데이터 처리 및 품질 관리를 위한 기술과 도구

데이터의 규모와 처리 목적에 따라 적합한 기술을 선택하는 것이 중요합니다.

소규모 및 중규모 데이터 처리 (단일 머신 환경)

대규모 데이터 처리 (분산 컴퓨팅 환경)

ETL/ELT 프로세스 단순화 및 자동화 도구