미분류

토크나이저와 워드 임베딩

cape.coder 2024. 4. 4. 08:33

이해한게 맞는지 모르겠다...

GPT 없이 어떻게 살았지 예전엔

 

일단 '워드' 임베딩은 과거의 기술이라고 봐야할 듯 하다.

Word2Vec, GloVe 등은 토큰 자체의 벡터값을 서로 유사도에 따라서 설정하게 된다.

이 경우 동음이의어가 문제가 될 수 있을 것 같다.

 

반면 이제는 '임베딩'만 한다.

pre-trained tokenizer은 SentencePiece, WordPiece 등을 활용하여 토큰화 한다.

그리고 모델이 알아들을 수 있게 입력값을 벡터 형태로 변경해준다.

pre-trained라고 하지만, neural network가 개입하지는 않는다.

 

워드 임베딩은 의미 단위로 토큰화 한 후, 숫자로 인코딩하는 과정에서 토큰 자체에 내용의 의미가 반영된다.

반면, pre-trained tokenizer의 경우 토큰화 및 인코딩 과정에서 토큰 자체에 내용이 반영되지 않는다.

 

그럼 pre-trained tokenizer을 사용할 경우, 단어의 의미는 어떻게 알 수 있는가?

model에서 이를 설정하는 것이다.