[DL Book] 7-9. Parameter Tying and Parameter Sharing

7.9. Parameter Tying and Parameter Sharing 두 개 이상의 모델의 가중치를 비슷해지도록 제한하는 것을 Parameter Tying이라고 하며, 두 개 이상의 모델의 가중치가 완전히 일치하고 공유되도록 하는 것을 Parameter Sharing이라고 한다. (Parameter Sharing 은 7.7. Multitask ...

Sep 27, 2022 Deep Learning Book

[DL Book] 7-8. Early Stopping

7.8. Early Stopping 모델을 학습시키다 보면, 훈련 오차율은 계속해서 내려가지만 검증 오차율은 어느 지점을 넘어서면 더 이상 내려가지 않고 거꾸로 올라가기까지 한다. 이것은 모델이 훈련 데이터에 대해 오버피팅되고 일반화 성능을 잃기 때문이다. 그렇다면 우리는 관측된 검증 오차율이 가장 낮은 시점으로 되돌아가 그 때의 모델이 최고라고...

Sep 26, 2022 Deep Learning Book

[DL Book] 7-7. Multitask Learning

7.7. Multitask Learning 멀티태스크 러닝에서는 같은 입력 데이터를 가지고, 여러 개의 심층신경망을 이용해 여러 개의 문제를 동시에 푼다. 일반적으로는 두 개의 모델이 완전히 독립적으로 학습되겠지만, 멀티태스크 러닝의 핵심은 두 모델 사이에 일부 가중치를 공유하는 것이다. 위 그림은 전형적인 멀티태스크 러닝의 예시이다. 동일한 입...

Sep 25, 2022 Deep Learning Book

[DL Book] 7-5. Noise Robustness

7.5. Noise Robustness 1절에서 설명했듯이, 일부 모델의 경우 입력값에 매우 작은 노이즈를 주입하는 것은 모델의 가중치에 페널티를 부가하는 것과 같다. 하지만 심층신경망에서 입력값이 아닌 은닉층에서 노이즈를 주입하는 것은 단순한 가중치 감쇠보다 더 큰 의미가 있다. 이 기법에 대한 연구는 매우 방대해 독자적인 분야가 있으며, 잘 알려진...

Sep 24, 2022 Deep Learning Book

[DL Book] 7-4. Data Augmentation

머신러닝 모델의 일반화 성능을 올리는 가장 좋은 방법 중 하나는 더 많은 데이터로 학습시키는 것이다. 하지만 현실에서 우리가 사용할 수 있는 데이터는 제한되어 있으므로, 현실에 있을 법한 가짜 데이터를 만들어서 추가적으로 학습에 사용하는 것이 데이터 증강의 핵심이다. 데이터 증강은 분류 문제에 특히나 효율적이며, 이미지 데이터를 사용한다면 다양하고 ...

Sep 23, 2022 Deep Learning Book

[DL Book] 7-3. Regularization and Under-Constrained Problems

잘 정의되지 않은 선형회귀 잘 정의되지 않은 몇몇 기계학습 문제들은 정칙화를 통해 잘 정의된 문제로 바꿀 수 있다. 예를 들면 오차함수가 Sum Squared Errors로 설정된 선형회귀의 해를 살펴보자. (이 문제는 7.1.1에서도 다루었다.) [\boldsymbol{w=(X^{\text{T}}X)^{-1}X^{\text{T}}y} \hspace...

Sep 22, 2022 Deep Learning Book

[DL Book] 7-1-1. Parameter Norm Penalties, L1 Regularization

7.1.2. L1 정칙화 L2 정칙화는 가중치 감쇠(weight decay)의 가장 흔한 형태이지만 다른 형태의 정칙화도 존재한다. 대표적인 전략으로 L1 정칙화가 있다. L1 정칙화는 입력값의 각 원소의 절댓값의 합으로 정의된다. [\Omega(\theta)=|\boldsymbol w|_1=\sum \bolds...

Sep 21, 2022 Deep Learning Book

[DL Book] 7-1-1. Parameter Norm Penalties, L2 Regularization

7.1.1. L2 파라미터 정칙화 L2 파라미터 정칙화는 정칙화 항을 모델 파라미터에 대한 L2 노름의 제곱의 절반으로 삼는 전략으로, 딥러닝 이전에도 릿지 회귀 혹은 티호노프 정칙화라는 이름으로 이미 널리 알려졌다. 편의를 위해 편향 파라미터가 없는 모델의 목적함수 $J$와 L2 정칙화가 적용된 목적함수 $\hat{J}$를 생각해 보자. [\beg...

Sep 20, 2022 Deep Learning Book

[DL Book] 7. Regularization for Deep Learning

정칙화의 개념 학습 데이터(Training data)뿐만 아니라 새로 들어오는 데이터(Test data)에도 모델이 좋은 예측을 할 수 있도록 학습 전략을 조정하는 것. 새로 들어오는 데이터에 대해서 정확도가 개선된다면, 학습 데이터에 대한 정확도를 조금 희생해도 좋다. 정칙화 전략은 다양하며, 현대 딥러닝에서 활발히 연구되는 분야 중 하나이...

Sep 19, 2022 Deep Learning Book