본문 바로가기

활성화함수

발전된 비선형 함수(Nonlinearity) (Ricky ReLU / Parametric ReLU 등) 【1】Deep Learning 시작하기_Vanishing Gradient Problem 발전된 비선형 함수(Nonlinearity) (Ricky ReLU / Parametric ReLU 등) 혜성처럼 등장한 ReLU는 그 존재감만큼 완벽할 것 같지만 아쉽게도 약간의 문제점이 존재한다. 모든 0 이하의 입력에 대해서는 미분 값이 0이 된다는 것이다. 가중치가 업데이트되면서 가중합이 음수가 되는 순간 ReLU는 0만 출력하여 그 이후의 노드들이 활성화되지 않게 된다. 이를 dying ReLU라고 하며 이러한 문제를 해결하기 위해 ReLU를 변형시킨 함수들이 등장했는데, 그중 대표적인 몇 가지를 소개하겠다. 리키렐루 (Leaky ReLU) 리키렐루는 아래와 같은 식을 가지는 ReLU의 변형된 함수이다. Lea.. 더보기
해결책 2 : 문제는 활성화 함수 - ReLU / (확률분포) 【1】Deep Learning 시작하기_다시 마주친 장벽, Vanishing Gradient Problem 해결책 2 : 문제는 활성화 함수 - ReLU / (확률분포) “We used the wrong type of non-linearity” 그 다음으로는 힌튼이 네번째로 제시한 이유인 활성화 함수에 대해 이야기하겠다. 오차 역전파는 출력층에서 입력층 방향으로 각 층의 가중치를 수정하는 방식이라는 것을 모두 알고 있을 것이다. 가중치를 수정하는 과정에서 활성화 함수의 미분이 진행되는데 문제는 바로 여기서 발생한다. 활성화 함수로 시그모이드 함수를 사용했더니 출력층과 가까운 경우에는 오차역전파가 잘 되는데 반해 출력층과 멀어지는 경우 오차 전파가 잘 안되는 문제가 생긴 것이다. 이러한 문제는 시그모이드 .. 더보기