이해한게 맞는지 모르겠다...
GPT 없이 어떻게 살았지 예전엔
일단 '워드' 임베딩은 과거의 기술이라고 봐야할 듯 하다.
Word2Vec, GloVe 등은 토큰 자체의 벡터값을 서로 유사도에 따라서 설정하게 된다.
이 경우 동음이의어가 문제가 될 수 있을 것 같다.
반면 이제는 '임베딩'만 한다.
pre-trained tokenizer은 SentencePiece, WordPiece 등을 활용하여 토큰화 한다.
그리고 모델이 알아들을 수 있게 입력값을 벡터 형태로 변경해준다.
pre-trained라고 하지만, neural network가 개입하지는 않는다.
워드 임베딩은 의미 단위로 토큰화 한 후, 숫자로 인코딩하는 과정에서 토큰 자체에 내용의 의미가 반영된다.
반면, pre-trained tokenizer의 경우 토큰화 및 인코딩 과정에서 토큰 자체에 내용이 반영되지 않는다.
그럼 pre-trained tokenizer을 사용할 경우, 단어의 의미는 어떻게 알 수 있는가?
model에서 이를 설정하는 것이다.
'미분류' 카테고리의 다른 글
정사영, 벡터의 크기 (0) | 2024.05.22 |
---|---|
hugginface & pytorch 함께 어떻게 쓸까 (0) | 2024.04.03 |
서브워드 토크나이저 vs. 워드 임베딩 (0) | 2024.04.02 |
양방향 LSTM, Transformer 조금 (0) | 2024.04.01 |
바다나우 어텐션 (0) | 2024.03.29 |