Seungwon's Blog

[DL Book] 7-8. Early Stopping

7.8. Early Stopping 모델을 학습시키다 보면, 훈련 오차율은 계속해서 내려가지만 검증 오차율은 어느 지점을 넘어서면 더 이상 내려가지 않고 거꾸로 올라가기까지 한다. 이것은 모델이 훈련 데이터에 대해 오버피팅되고 일반화 성능을 잃기 때문이다. 그렇다면 우리는 관측된 검증 오차율이 가장 낮은 시점으로 되돌아가 그 때의 모델이 최고라고...

[DL Book] 7-7. Multitask Learning

7.7. Multitask Learning 멀티태스크 러닝에서는 같은 입력 데이터를 가지고, 여러 개의 심층신경망을 이용해 여러 개의 문제를 동시에 푼다. 일반적으로는 두 개의 모델이 완전히 독립적으로 학습되겠지만, 멀티태스크 러닝의 핵심은 두 모델 사이에 일부 가중치를 공유하는 것이다. 위 그림은 전형적인 멀티태스크 러닝의 예시이다. 동일한 입...

[DL Book] 7-5. Noise Robustness

7.5. Noise Robustness 1절에서 설명했듯이, 일부 모델의 경우 입력값에 매우 작은 노이즈를 주입하는 것은 모델의 가중치에 페널티를 부가하는 것과 같다. 하지만 심층신경망에서 입력값이 아닌 은닉층에서 노이즈를 주입하는 것은 단순한 가중치 감쇠보다 더 큰 의미가 있다. 이 기법에 대한 연구는 매우 방대해 독자적인 분야가 있으며, 잘 알려진...

[DL Book] 7-4. Data Augmentation

머신러닝 모델의 일반화 성능을 올리는 가장 좋은 방법 중 하나는 더 많은 데이터로 학습시키는 것이다. 하지만 현실에서 우리가 사용할 수 있는 데이터는 제한되어 있으므로, 현실에 있을 법한 가짜 데이터를 만들어서 추가적으로 학습에 사용하는 것이 데이터 증강의 핵심이다. 데이터 증강은 분류 문제에 특히나 효율적이며, 이미지 데이터를 사용한다면 다양하고 ...

[DL Book] 7-1-1. Parameter Norm Penalties, L2 Regularization

7.1.1. L2 파라미터 정칙화 L2 파라미터 정칙화는 정칙화 항을 모델 파라미터에 대한 L2 노름의 제곱의 절반으로 삼는 전략으로, 딥러닝 이전에도 릿지 회귀 혹은 티호노프 정칙화라는 이름으로 이미 널리 알려졌다. 편의를 위해 편향 파라미터가 없는 모델의 목적함수 $J$와 L2 정칙화가 적용된 목적함수 $\hat{J}$를 생각해 보자. [\beg...

[DL Book] 7. Regularization for Deep Learning

정칙화의 개념 학습 데이터(Training data)뿐만 아니라 새로 들어오는 데이터(Test data)에도 모델이 좋은 예측을 할 수 있도록 학습 전략을 조정하는 것. 새로 들어오는 데이터에 대해서 정확도가 개선된다면, 학습 데이터에 대한 정확도를 조금 희생해도 좋다. 정칙화 전략은 다양하며, 현대 딥러닝에서 활발히 연구되는 분야 중 하나이...