컴퓨터과학

feature normalization 방법 비교 - min-max scaling / z-score normalization

홈카페주인 2025. 8. 9. 09:58

Min-Max Scaling

  • 공식 : $X_{norm} = \frac{X - X_{\min}}{X_{\max} - X_{\min}}$
  • 출력범위를 [0,1] 범위로 압축하게 된다.

 

Z-score Normalization

  • 공식 : $X_{norm} = \frac{X - \mu}{\sigma}$
  • 평균이 0, 분산이 1인 정규분포로 변환하게 된다.

 

비교

 

 

min-max scaling 의 경우 이상치로 너무 큰 값이나 작은값이 어떤 데이터에 존재할 경우 그 값을 기준으로 분모가 결정되기 때문에 자칫 대부분의 데이터를 너무 좁은 범위로 압축할 수 있다는 위험이 있다.

 

따라서 이상치가 포함되지 않았을 때 min-max scaling 을 쓰게 되면 모든 값의 상대적 위치를 직관적으로 파악하기 용이하고 출력범위가 [0,1] 이므로 후처리하기에도 용이할 수 있다.

 

Z-score normalization 의 경우에는 상대적으로 이상치에 덜 민감하지만 이상치가 매우 많을 경우 이 또한 왜곡될 수 있다. 그리고 데이터 자체가 정규분포를 따라야 normalization 을 했을 때 이상적인데, 데이터가 비대칭적이라거나 정규분포와 거리가 먼 경우 변환결과가 데이터의 분포와 달라질 수도 있다는 단점이 있다.

그리고 데이터의 수가 적을 경우 평균과 표준편차의 추정이 모집단과 다를 가능성이 크므로 변환결과가 모집단과 너무 다를 수 있다는 점도 단점이다.