본문 바로가기

미분류

서브워드 토크나이저 vs. 워드 임베딩

두개가 같은 개념으로 알고 있었다.

시간이 갈수록 바닥만 보인다... 배울건 너무 많고.

언제쯤이면 1인분을 할 수 있을까?

 

서브워드 토크나이저는 Byte pair encoding, WordPiece, SentencePiece 등이다.

단어가 여러 의미의 어근(?)으로 이루어져 있는 경우,

예를 들자면 bidirectional이다. bi는 2개의, direct는 방향, -ion은 명사, -al은 형용사(맞나) 등으로 말이다.

예시가 제대로 들었나 모르겠지만, 의도는 통했으리라 생각하니 대충 넘어가자.

아무튼 토크나이저는 숫자로 바꿔주는 것이 아니다.

의미를 가진 가장 작은 단위로 바꾸고자 하는 도구가 토크나이저인 것이다.

 

워드 임베딩은 그 이후에 따라온다.

글자의 문맥에 따라 유사도를 평가하는 것이다.

강아지는 귀엽다

강아지는 멋지다

강아지는 애교가 많다

위의 세 문장이 있을 때, 워드 임베딩을 통해 벡터화하여

귀엽다, 멋지다, 애교가 많다를 비슷한 위치에 놔줄 수 있다.(틀린 정보)

 

+)

앞에서 어텐션의 가중치 여부에 대해 의문이 있었는데,

대략적으로는 해결된 것 같다.

우선 바다나우는 있는게 맞고, 기초적인 루옹 어텐션은 없는게 맞다.

다만 트랜스포머 아키텍처의 멀티 헤드 셀프 어텐션의 경우,

셀프 어텐션 구현 방식에서 가중치가 들어간다.

'미분류' 카테고리의 다른 글