※ 김성훈 교수님의 [모두를 위한 딥러닝] 강의 정리
- 참고자료 : Andrew Ng's ML class
1) https://class.coursera.org/ml-003/lecture
2) http://holehouse.org/mlclass/ (note)
1. Learning rate
- 어느 정도의 크기로 기울기가 줄어드는 지점으로 이동하겠는가를 나타내는 지표
- cost function을 최소화시키기 위해 사용하는 'Gradient descent algorithm'에서 cost 값의 미분한 값 앞 알파값
c.f) Gradient descent algorithm : 기울기 크기가 줄어드는 쪽으로 가면 cost function이 최소가 되는 지점을 찾아간다.
- overshooting : learning rate의 값이 너무 커서 최소값에 도달하지 않고 오히려 그래프를 벗어나는 경우
- small learning rate : step의 간격이 매우 작아서 학습 속도가 매우 느리게 됨
- cost 값을 확인하여, 적절한 learning rate을 정하는 것이 중요함 : data와 환경에 따라 다름
2. Preprocessing for gradient descent algorithm (전처리, 선처리)
- 두 개의 입력 값(x1, x2)이 적절한 범위 차이를 갖는 경우 :
- 두 개의 입력 값(x1, x2)이 매우 큰 차이를 갖는 경우 :
- Preprocessing 필요
- 여러 normalization (표준화) 중 standardization
3. Overfitting
- 학습 데이터에 딱 맞는 모델을 만드는 경우, 다른 실제 데이터와는 안 맞는 경우가 생김
- 학습 데이터(training data)가 많을 수록, feature(입력으로 들어오는 변수)의 개수를 줄일 수록, Regularization(일반화)할 수록 Overfitting을 방지할 수 있음
- Regularization : weight에 너무 큰 가중치를 두지 말 것. weight의 값이 커지면 그래프 형태가 구부러진 형태가 되고, weight의 크기가 작으면 그래프 형태가 선형을 이룬다. 이를 위해 cost function 뒤에 아래와 같은 식을 추가한다.
- Regularization의 Python 구현 : cost에 다음 변수 l2reg을 더함. cost 함수가 틀렸을 때 높은 비용이 발생할 수 있도록 벌점(penalty)을 부과하는 것처럼 W에 대한 값이 클 경우에 penalty를 부여함. λ 값을 사용하여 얼마나 penalty를 부여할 것인지 결정함
l2reg = 0.001 * tf.reduce_sum(tf.square(W))
'Deep Learning' 카테고리의 다른 글
[머신러닝/딥러닝] MNIST Dataset (0) | 2019.12.18 |
---|---|
[머신러닝/딥러닝] 딥러닝의 기본 개념 (0) | 2019.12.18 |
[머신러닝/딥러닝] Softmax Classification 구현하기 by TensorfFlow (0) | 2019.12.11 |
[머신러닝/딥러닝] Logistic (regression) classification 구현하기 by TensorfFlow (0) | 2019.12.04 |
[머신러닝/딥러닝] 파일에서 Tensorflow로 데이터 읽어오기 (0) | 2019.12.02 |