3. 고전적인 퍼셉트론과 로지스틱 회귀 분류기를 비교했을 때, 로지스틱 회귀 분류기가 선호되는 이유
- 로지스틱 회귀 분류기는 클래스 확률을 제공함. 반면, 고전적인 퍼셉트론은 정해진 임곗값을 기준으로 분류하여 확률 제공 불가
4. 왜 초창기의 다층 퍼셉트론을 훈련할 때 로지스틱 활성화 함수가 핵심 요소였는가?
- 손실 최적화를 위한 경사하강 시 미분이 가능해야 했는데, 계단 함수로는 미분이 불가능했기 때문에.
5. 인기 많은 활성화함수 3가지
- Sigmoid, ReLU, LeakyReLU
6. 입력층 (통과 뉴런 10개), 은닉층 (뉴런 50개), 출력층 (뉴런 3개), 활성화 함수 ReLU의 경우
- 입력 행렬 X의 크기는? m * 10, m은 배치 크기
- 은닉층 가중치 행렬 W_h와 편향 벡터 b_h의 크기는? 10 * 50, 편향 벡터 b_h 크기는 50
- 출력층 가중치 행렬 W_o와 편향 벡터 b_o의 크기는? 50 * 3, 편향 벡터 b_o 크기는 3
- 네트워크 출력 행렬 Y의 크기는? m * 3, m은 배치 크기
- X, W_h, b_h, W_o, b_o의 함수로 네트워크 출력 행렬 Y를 계산하는 식 써보기 Y = ((XW_h + b_h) * ReLU * W_o + b_o) * ReLU
7. 스팸 메일을 분류하려면 출력층에 몇개의 뉴런이 필요한지? 출력층에 어떠한 활성화 함수를 활용해야 하는지? MNIST 문제라면 출력층에 어떤 활성화 함수를 활용해야 하는지? 뉴런은 몇개여야 하는지? 주택 가격 예층용 네트워크에 대해서도 동일하게 답해주세요.
- 스팸메일을 분류하기 위해서는 출력층은 1개면 되고, 확률 출력을 위해 활성화 함수 sigmoid를 활용
- MNIST 문제라면 클래스마다 확률 출력을 하기 위해 활성화 함수 softmax를 활용, 뉴런은 10개 있어야 한다.
- 주택 가격 예측용 네트워크라면 회귀 문제이므로 활성화 함수는 보통 불필요하고, 뉴런은 1개만 있으면 된다.
8. 역전파란 무엇이고 어떻게 작동하는지? 역전파와 후진 모드 자동 미분의 차이점은?
- 역전파란 경사하강법을 활용하여 손실의 최저점을 찾아 가중치를 최적화하는 것이다. 후진 모드 자동 미분과의 차이점은 모르겠다.
- 역전파란 가중치에 대한 비용 함수의 그래디언트를 계산하고, 해당 그래디언트에 경사하강법을 적용하는 것이다. 후진 모드 자동 미분과의 차이점은 역전파는 전체적인 과정인 반면, 후진 모드 자동 미분은 역전파 과정에서 수행되는 일부분을 칭하는 말이다.
9. 다층 퍼셉트론에서 조정할 수 있는 하이퍼 파라미터를 모두 나열해보세요. 훈련 데이터에서 다층 퍼셉트론이 과대적합 되었다면 하이퍼파라미터를 어떻게 조정할 것인지?
- 학습 epoch 수, 은닉층 수, 은닉층 뉴런 수, 활성화 함수, 학습률, 옵티마이저
- 과대적합 시 은닉층 수를 줄여 일반화 성능을 높힐 것. 또한, epoch를 줄여 과대적합을 방지.
- 과대적합을 줄이기 위해 은닉층 뉴런 수도 줄여볼 수 있다.
'미분류' 카테고리의 다른 글
GraphCodeBERT 메모 (0) | 2024.03.20 |
---|---|
훈련하면 훈련한거지 사전훈련은 또 뭔데 (0) | 2024.03.15 |
딥러닝 관련 의문 (1) | 2024.03.08 |
딥러닝의 주요 개념 (0) | 2024.03.08 |
[구매후기] 체인지업 (0) | 2024.02.15 |