본문 바로가기

딥러닝/Deep learning 용어 정리

Bias와 Variance

 

Under fit(High bias) / Good / Overfit(High variance)

Bias (편향)이란?

모델이 Predict가 Ground truth와 얼마나 떨어져 있는지에 대한 Error 입니다. Bias는 지나치게 단순한 모델로 인해서 Under fitting을 일으킵니다. 모델에서 Bias가 크다는 의미는 Data에서 중요한 특성을 제대로 학습을 하지 못하고 있다는 뜻입니다.

Variance (분산)이란?

데이터에 비해서 지나치게 복잡한 모델로 인해서 발생하는 Error 입니다. Variance는 모델을 Training data에 지나치게 Overfitting 시켜서 모델이 일반화 특성을 가지기 어렵게 합니다.

왼쪽 그래프는 분산이 오른쪽에 비하여 작으며 일반화가 잘 되어 있기 때문에 예측 값이 일정한 패턴을 나타냅니다.

오른쪽 그래프는 Variance가 커서 Training data에 모델이 지나치게 Overfitting 되어 예측 값이 일정한 패턴이 없어 보입니다. 왼쪽 보다 오른쪽 그래프가 Variance가 크다는 것을 나타냅니다.

Bias-Variance trade off

모델이 복잡해질 수록 Bias는 감소하며 Variance는 증가합니다.(Over fitting).

모델이 단순해질수록 Bias는 증가하며 Variance은 감소합니다.(Under-fitting)

모델을 Bias와 Variance를 둘다 감소 시킬 수 없는 Trade off 관계 입니다. Error를 최소화 시키는 방법은 Bias와 Variance의 합이 최소가 되는 적정한 값을 찾아야 합니다.