본문 바로가기

딥러닝

RMSProp 【1】Deep Learning 시작하기_최적화가 가장 중요하다! RMSProp “아다그라드, 아직 갈 길이 먼데 보폭이 점점 작아지네? 상황을 보면서 줄여야지!” RMSProp은 딥러닝의 아버지라 불리는 제프리 힌튼이 소개한 방법으로 아다그라드의 단점을 해결하기 위해 등장했다. RMSProp은 모든 기울기를 단순히 더하는 것이 아니라 최신 기울기 정보를 더 크게 반영하는 원리이다. 과거의 정보는 약하게 반영하고 최신의 정보를 크게 반영하기 위해 지수이동평균(Exponential Moving Average, EMA)을 사용했다. 이를 수식으로 나타내면 다음과 같다. 새로운 변수 γ을 추가하여 G(t) 값이 무한히 커지는 것을 방지하면서 γ가 작을수록 최신의 정보(기울기)를 더 크게 반영한다. 작성자 홍다혜.. 더보기
Adagrad Optimizer (Adaptive Gradient) 【1】Deep Learning 시작하기_최적화가 가장 중요하다! Adagrad Optimizer (Adaptive Gradient) “SGD의 탐색 거리를 개선해보자! 처음엔 크게, 나중엔 작게! 맞춤형 학습률 주겠어!“ 이번에는 탐색 거리에 대한 문제를 해결하고자 등장한 Adagrad(Adaptive Gradient, Adagrad) 최적화에 대해서 설명하겠다. 수식에서 α라고 표시하는 학습률은 가중치의 최적 값을 탐색할 때 얼만큼 이동할지 결정하는 중요한 변수이다. 학습률이 너무 작으면 시간이 오래 걸리고, 너무 크면 최적 값을 찾지 못하고 치솟게 된다(발산한다고 말한다). 학습률 값은 초반에 큰 값을 주다가 점차 값을 줄이는데 이는 최적 값에 근접할 시 이동거리를 짧게 해 지나치지 않으려는 것이다... 더보기
Momentum Optimizer 【1】Deep Learning 시작하기_최적화가 가장 중요하다! Momentum Optimizer “SGD는 너무 지그재그로 가네? 진행 하던 방향으로 계속 가 보자!“ 작성자 홍다혜 ghdek11@gmail.com / 이원재 ondslee0808@gmail.com 더보기
발전된 초기화 함수(Initializer) (Xavier / He 등) 【1】Deep Learning 시작하기_다시 마주친 장벽, Vanishing Gradient Problem 발전된 초기화 함수(Initializer) (Xavier / He 등) >> Xavier 초기화의 정규분포 식 [도전! 연습문제] 아래 그림과 같은 3층 신경망이 있다. Xavier 를 이용해 은닉층 1, 2의 가중치 값을 초기화 를 계산 해 보아라. He 홍콩 중문대 박사과정의 Kaiming he가 이 초기화 방법을 사용해 ImageNet에서 에러율 3%를 달성하게 되며 주목을 받게 된 방식이다. 기존 Xavier 초기화에서 앞 층의 노드 수를 2로 나눈 후 루트를 씌운 방식으로 Xavier에 비해 분모가 작기 때문에 활성화 함수 값들을 더 넓게 분포 시킨다. Xavier와 유사하지만 He는 입력.. 더보기
해결책 2 : 문제는 활성화 함수 - ReLU / (확률분포) 【1】Deep Learning 시작하기_다시 마주친 장벽, Vanishing Gradient Problem 해결책 2 : 문제는 활성화 함수 - ReLU / (확률분포) “We used the wrong type of non-linearity” 그 다음으로는 힌튼이 네번째로 제시한 이유인 활성화 함수에 대해 이야기하겠다. 오차 역전파는 출력층에서 입력층 방향으로 각 층의 가중치를 수정하는 방식이라는 것을 모두 알고 있을 것이다. 가중치를 수정하는 과정에서 활성화 함수의 미분이 진행되는데 문제는 바로 여기서 발생한다. 활성화 함수로 시그모이드 함수를 사용했더니 출력층과 가까운 경우에는 오차역전파가 잘 되는데 반해 출력층과 멀어지는 경우 오차 전파가 잘 안되는 문제가 생긴 것이다. 이러한 문제는 시그모이드 .. 더보기
I am Hinton! 기울기 소실 사건을 해결하다! - 제한 볼츠만 머신(RBM) 【1】Deep Learning 시작하기_다시 마주친 장벽, Vanishing Gradient Problem I am Hinton! 기울기 소실 사건을 해결하다! - 제한 볼츠만 머신(RBM) 훗날 토론토 대학교의 제프리힌튼(Geoffrey Hinton) 교수는 딥러닝이 한계를 가지게 된 이유 4가지를 정리했다. 우리는 힌튼 교수의 제안을 바탕으로 기울기 소실 문제를 해결할 아이디어를 접근해볼 것이다. Geoffrey Hinton’s summary of findings up to today (1) Our labeled datasets were thousands of times too small. (2) Our computers were millions of times too slow. (3) We init.. 더보기
핑거 스냅? 기울기가 사라진다! 【1】Deep Learning 시작하기_다시 마주친 장벽, Vanishing Gradient Problem 다시 마주친 장벽, Vanishing Gradient Problem 오차역전파의 등장으로 신경망에서 최적의 가중치를 찾아낼 수 있으며 이를 통해 오차가 적은, 정답과 가까운 출력을 갖는 신경망을 만들 수 있음을 보이게 되었다. 사람들은 신경망이 XOR 문제 뿐만 아니라 더 복잡한 문제도 해결할 수 있다는 생각에 다시 관심을 갖기 시작했다. 연구진들은 복잡한 문제를 해결할 수 있는 신경망을 만들기 위해 은닉층을 깊게 쌓아보았으나 결과가 기대만큼 좋지 않게 되며 신경망은 두번째 침체기에 들어서게 된다. 도대체 어떠한 문제가 생긴 것인지 알아보자. 핑거 스냅? 기울기가 사라진다! 분명 우리는 앞의 글에서.. 더보기
오차 역전파를 직접 계산해보자! - (3) 은닉층 가중치 업데이트 【1】Deep Learning 시작하기_오차 역전파가 중요하다! 오차 역전파를 직접 계산해보자! - (3) 은닉층 가중치 업데이트 작성자 홍다혜 ghdek11@gmail.com / 이원재 wonway333@gmail.com 더보기
오차 역전파를 직접 계산해보자 - (2) 오차 구하기 【1】Deep Learning 시작하기_오차 역전파가 중요하다! 오차 역전파를 직접 계산해보자 - (2) 오차 구하기 작성자 홍다혜 ghdek11@gmail.com / 이원재 wonway333@gmail.com 더보기
오차 역전파를 직접 계산해보자! - (1) 출력층의 가중치 업데이트 【1】Deep Learning 시작하기_오차 역전파가 중요하다! 오차 역전파를 직접 계산해보자! - 출력층의 가중치 업데이트 출력층의 가중치 업데이트 작성자 홍다혜 ghdek11@gmail.com / 이원재 wonway333@gmail.com 더보기