미분류
토크나이저와 워드 임베딩
cape.coder
2024. 4. 4. 08:33
이해한게 맞는지 모르겠다...
GPT 없이 어떻게 살았지 예전엔
일단 '워드' 임베딩은 과거의 기술이라고 봐야할 듯 하다.
Word2Vec, GloVe 등은 토큰 자체의 벡터값을 서로 유사도에 따라서 설정하게 된다.
이 경우 동음이의어가 문제가 될 수 있을 것 같다.
반면 이제는 '임베딩'만 한다.
pre-trained tokenizer은 SentencePiece, WordPiece 등을 활용하여 토큰화 한다.
그리고 모델이 알아들을 수 있게 입력값을 벡터 형태로 변경해준다.
pre-trained라고 하지만, neural network가 개입하지는 않는다.
워드 임베딩은 의미 단위로 토큰화 한 후, 숫자로 인코딩하는 과정에서 토큰 자체에 내용의 의미가 반영된다.
반면, pre-trained tokenizer의 경우 토큰화 및 인코딩 과정에서 토큰 자체에 내용이 반영되지 않는다.
그럼 pre-trained tokenizer을 사용할 경우, 단어의 의미는 어떻게 알 수 있는가?
model에서 이를 설정하는 것이다.