과적합
-
#7. 과대적합과 과소적합인공지능/케라스 창시자에게 배우는 딥러닝 2021. 2. 14. 21:47
머신러닝은 결국 최적화(Optimization)와 일반화(Generalization) 사이의 균형을 맞추는 작업이다. 데이터가 무한할 경우 학습을 반복하는 것이 모델에 도움이 될 수 있지만 한정된 데이터 안에서 학습을 계속하는 것은 해당 학습 데이터에만 맞춰진 모델을 구축하는 결과를 낳는다. 이를 방지하기 위해 우리는 데이터를 더 모으거나, 모델이 수용할 수 있는 양을 조정하거나 저장할 수 있는 정보에 제약을 줌으로써 더 나은 일반화가 가능하다. 네트워크 크기 축소 과대적합을 막는 가장 단순한 방법은 네트워크 크기 축소다. 모델에 있는 학습 파라미터를 줄이게 되면 데이터는 압축된 표현을 학습하게 되고 이는 일반화의 성능을 올려준다. 쉽게 생각해 데이터를 뭉뚱그려 표현함으로써 좀 더 많은 데이터가 이에 적..
-
#5. 일반화된 모델을 위한 데이터 분할인공지능/케라스 창시자에게 배우는 딥러닝 2021. 2. 14. 20:54
머신러닝의 목표는 처음 본 데이터에서 잘 작동하는 일반화된 모델을 얻는 것이다. 데이터의 학습이 부족하면 과소적합(Under-Fitting)이 일어나고 데이터의 학습이 필요 이상이 될 경우 과대적합(Over-Fitting)이 발생한다. 이를 방지하기 위해 우리는 데이터를 훈련 데이터(Training Data), 검증 데이터(Validation Data), 테스트 데이터(Test Data)로 나눠 학습하게 된다. 데이터가 적을 경우 훈련 데이터와 테스트 데이터만을 사용하여 테스트 데이터로 모델을 검증하기도 하나, 일반적으로 이러한 방식은 테스트 데이터에 모델을 과대적합 시킬 위험이 있으므로 사용하지 않는다. 검증 데이터의 형태가 모델로 흘러들어가는 이러한 경우를 우리는 정보 누설(Information Le..