AI

모델의 분산과 편향

essdpt 2026. 1. 12. 16:42

모델의 분산이란, 모델의 예측값을 확률변수로 보았을 때의 분산. 모델의 출력값을 확률변수로 본다. 정확히는 "고정된 입력 𝑥에 대해, 학습 데이터셋의 샘플링에 따라 달라지는 모델 예측값을 확률변수로 보았을 때의 분산".

어떤 학습데이터셋을 샘플링하여 모델 학습을 진행한다고 하면, 데이터셋을 다시 샘플링하면, 같은 알고리즘이라도 학습된 결과모델은 매번 조금씩 달라질 것. 

이때, 특정 입력 input vector에 대한 예측값은, 데이터셋 D에 따라 달라지는 값, 즉 확률변수임. 

"훈련데이터를 약간 바꾸면, 모델의 예측값이 얼마나 크게 달라지는가?" 이걸 정확하게 수치화한 개념이 모델의 분산. 

따라서, 

파라미터가 많거나 레이어가 많은 등 모델이 복잡하다 = 학습데이터셋에 포함된 노이즈에 대한 민감도가 커진다 → 분산이 크다 → 학습데이터셋이 바뀔 때마다 모델이 전혀 다른 결론을 낸다. = 추정치(예측값, 출력값)에 대한 변동 폭이 커진다 → 과대적합이 발생한다

이고, 주로 깊은 결정트리나, 과도한 차수의 다항회귀, 혹은 규제가 없는 신경망 등에서 발생한다. 

다음으로 모델의 편향은, 

'전체적으로 보았을 때, 여러 학습 데이터셋에 대하여 학습된 모델의 각 예측값들의 평균이, 실제 정답에서 얼마나 벗어나있는지를 나타내는 개념'이다. 즉, 모든 데이터셋들에 대한 예측값을 평균내어 전체적으로 바라보았을 때, 모델이 본질적으로 실제값과의 틀린 정도'를 의미한다. 편향이 높다는 것은, 모델이 평균적으로 틀린 방향에 있다는 뜻이다. 이 편향은, 선형 모델로 비선형 문제를 해결하려 할 때나, 차수가 낮은 모델로 복잡한 곡선을 근사하려 할 때 발생한다. 이로 미루어 보아, 편향은 모델 구조가 지나치게 단순하여, 진짜 데이터의 형태를 표현하기가 힘들 때, 그래서 전체적으로 발생하는 모델의 틀린 정도가 높아질 때 높아진다고 볼 수 있다. 

정리하자면, 모델의 분산은 모델이 너무 복잡할 때 발생할 수 있는 문제로서, 학습데이터셋의 노이즈에 민감하게 반응하여 발생하는 문제이고, 여러 데이터셋 간에 성능 차이가 발생함을 뜻한다. 모델의 편향은, 모델이 너무 단순할 때 발생할 수 있는 문제로서, 여러 개의 학습 데이터셋에 대한 모델 예측값 평균을 고려하였을 때, 전체적으로 학습된 모델이 얼마나 결과값을 벗어나있는지를 측정하는 개념이다. 따라서, 모델의 분산과 편향은, 모델복잡도를 기준으로 반비례하는 경향이 있다. 

고편향·저분산: 항상 비슷한 곳에 맞지만 중심에서 멂
저편향·고분산: 중심 근처이긴 한데 사방으로 흩어짐
저편향·저분산: 중심에 모여 있고, 항상 비슷한 형태