개념
기울기 소실은 깊은 인공신경망에서 역전파 과정 중 앞쪽 층으로 갈수록 기울기가 너무 작아져 학습이 잘 되지 않는 문제이다.
왜 문제가 되는가
기울기는 가중치를 어느 방향으로 얼마나 바꿀지 알려준다. 기울기가 거의 0이 되면 앞쪽 층의 가중치가 거의 업데이트되지 않는다. 그러면 깊은 층을 쌓아도 제대로 학습하기 어렵다.
깊은 신경망의 기울기는 여러 층의 미분값을 곱해 전달된다.
각 미분값의 크기가 계속 1보다 작으면 곱이 0에 가까워질 수 있다.
딥러닝과의 관계
초기 인공신경망은 이 문제 때문에 깊게 만들기 어려웠다. 이후 활성화 함수, 초기화 방법, 정규화, GPU 학습, 대규모 데이터 등이 발전하면서 딥러닝이 실용화되었다.