본문 바로가기

미분류

바다나우 어텐션

다들 은닉층 시점을 루옹 어텐션과의 차이점으로 이야기하던데...

내가 느낀 더 큰 차이점은 가중치였다.

 

바다나우 어텐션은 내부에 학습 가능한 가중치가 있다.

프로그래밍으로 말하자면, keras로 구현 시 Dense 레이어가 있다는 것이다.

 

또 새롭게 배운 하나는... query, key, value였다.

이전 페이지를 읽을 때에는 그냥 그런가보다~ 하고 넘어갔는데,

지금은 약간의 윤곽이 잡힌다.

 

루옹 어텐션의 경우, 그리고 어텐션 기반 seq2seq의 경우

query는 디코더의 은닉층을 의미하고,

key는 인코더의 은닉층을 의미한다.

value는 query와 key를 통해 계산된 attention value가 된다.

루옹의 경우, value값이 query와 key값의 곱으로 계산된다.

 

reference

https://wikidocs.net/73161

 

15-02 바다나우 어텐션(Bahdanau Attention)

앞서 어텐션 메커니즘의 목적과 어텐션 메커니즘의 일종인 닷 프로덕트 어텐션(루옹 어텐션)의 전체적인 개요를 살펴보고, 마지막에 표를 통해 그 외에도 다양한 어텐션 메커니즘이 존재…

wikidocs.net

 

'미분류' 카테고리의 다른 글

서브워드 토크나이저 vs. 워드 임베딩  (0) 2024.04.02
양방향 LSTM, Transformer 조금  (0) 2024.04.01
어텐션 메커니즘 대충  (0) 2024.03.27
encoder-decoder (seq2seq)  (0) 2024.03.26
Tokenizer은 어떻게 만들어졌는가?  (0) 2024.03.26