[DL Book] 11.3. Determining Whether to Gather More Data

대부분의 경우 데이터를 더 모으는 것은 모델 성능의 개선으로 이어진다. 하지만 과연 데이터를 더 모은다고 해서 모든 일이 해결될까? 데이터를 모으는 것만이 유일한 해법은 아니기에, 우리는 데이터 수집에 들어가는 비용과 그 효용성을 저울질할 필요가 있다. 무작정 데이터를 탓하지 마라 데이터가 더 필요한지 확인하려면, 학습 데이터셋에 대해서 모델이 좋...

Oct 12, 2022 Deep Learning Book

[DL Book] 11.2. Default Baseline Models

성능 평가 지표를 선택했다면, 다음으로 할 일은 최대한 빠르게 end-to-end 시스템을 구성하는 것이다. 이는 모델의 성능을 비교할 때 어떤 값을 기준으로 삼을지 정하기 위함이다. 해결하고자 하는 문제가 단순하다면 간단한 머신러닝 알고리즘을 베이스라인 모델로 사용할 수도 있다. 물론 이미지 인식, 음석 인식 등의 복잡한 문제를 풀고자 한다면 딥러...

Oct 11, 2022 Deep Learning Book

[DL Book] 11.1. Evaluation Metrics

우리는 두 가지를 결정해야 한다. 어떤 성능 평가 지표를 사용할 것인가? 얼마나 낮은 값을 원하는가? 목표값 설정 대부분의 경우 오차율을 0까지 끌어내리는 것은 불가능하다. 베이즈 오차 (Bayes error, Irreducible error) 베이즈 오차는 훈련 데이터가 무한히 많이 있다고 해도 절대로 줄일 수 없는 오차를 말...

Oct 10, 2022 Deep Learning Book

[DL Book] 11. Practical Methodologies

단순히 여러 가지 알고리즘을 공부하는 것만으로는 딥러닝을 현실에 적용하기에 충분치 않다. 뛰어난 머신러닝 실무자는 다음과 같은 의문에 답하고 여러 가지 의사결정을 내릴 수 있어야 한다. 주어진 문제에 대해 데이터가 더 필요한가? 주어진 문제에 따라 어떤 알고리즘을 선택할 것인가? 현재의 알고리즘을 어떻게 개선할 것인가? 모델의 수용력을...

Oct 9, 2022 Deep Learning Book

[DL Book] 8.1. How Learning Differs from Pure Optimization

8.1. 일반적인 최적화와의 차이 머신러닝에 사용되는 최적화가 일반적인 최적화와 다른 가장 큰 부분은 최적화가 간접적으로 작용한다는 것이다. 일반적인 최적화에서는 주어진 함수를 최소화하는 문제 그 자체를 목적으로 한다. 반면 머신러닝에서의 최적화는 Training set에 대한 함수 $J(\theta)$의 최솟값을 찾는 것으로, Test se...

Oct 6, 2022 Deep Learning Book

[DL Book] 8. Optimization for Deep Learning

딥러닝 알고리즘은 최적화(Optimization)와 깊은 연관이 있다. 머신러닝의 영역에서 최적화는 알고리즘을 구상하거나 수학적으로 증명하는 데 사용된다. 최적화가 이용되는 많은 곳들 중에서도 가장 난해한 작업은 뉴럴 네트워크를 학습시키는 것이다. 현대에 이르러서는 여러 대의 컴퓨터를 동원해 몇 개월에 걸쳐 딥러닝 학습을 진행하는 것은 쉽게 찾아볼 ...

Oct 5, 2022 Deep Learning Book

[DL Book] 7-13. Adversarial Training

7.13. 적대적 훈련 최근 심층신경망은 일부 작업에서 인간의 오차율을 따라잡기 시작했다. 하지만 정말로 심층신경망이 인간 수준의 이해력을 가지고 있을까? 적대적 공격(Adversarial Attack)은 인간의 눈으로는 일반적인 데이터와 구분할 수 없는 입력으로 심층신경망을 교묘하게 속일 수 있다. 위 예시에서 사전 학습된 GoogLeNet 이...

Oct 1, 2022 Deep Learning Book

[DL Book] 7-12. Dropout

7.12. 드롭아웃 드롭아웃(Dropout)은 심층신경망을 훈련할 때 무작위로 일부 경로를 누락시키는 정칙화 기법이다. 이는 7.5. Noise Robustness에서 소개한 은닉층별로 적용되는 노이즈의 곱셈이나, 7.11. 앙상블 기법에서 소개한 배깅의 특별한 경우로도 바라볼 수 있다. 배깅과의 차이 일반적으로 배깅은 여러 개의 모델을 완전히 ...

Sep 30, 2022 Deep Learning Book

[DL Book] 7-11. Bagging and other Ensemble Methods

7.11. 앙상블 기법 Bagging 배깅(Bagging)은 Bootstrap Aggregating의 줄임말로, 하나의 Task에 대해 여러 개의 모델을 독립적으로 훈련시킨 뒤, 모든 모델이 협력하여 결과 추론에 참여하도록 하는 형태를 말한다. 이 경우 하나의 테스트 샘플에 대해서 모든 모델이 잘못된 예측을 하는 일은 확률적으로 낮기 때문에 성능 향상...

Sep 29, 2022 Deep Learning Book

[DL Book] 7-10. Sparse Representations

7.10. Sparse Representations 지금까지 알아본 L2과 L1 정칙화에서는 정칙화 항을 $\Omega(\theta)$, 즉 모델의 가중치에 대한 함수로 사용했다. 또한 L1 정칙화는 가중치의 많은 값들을 0으로 만드는 특징(Sparsity)이 있다고 했다. 같은 맥락에서 정칙화 항의 함수를 $\Omega(\boldsymbol h)$,...

Sep 28, 2022 Deep Learning Book