미분류
Tokenizer은 어떻게 만들어졌는가?
cape.coder
2024. 3. 26. 09:03
BPE. Byte-pair encoding.
글자 두개가 중복되면 다른 글자로 치환해주고, 이를 반복하는 것.
Word-piece
BPE 방식을 활용함.
우선 띄어쓰기 기준으로 단어로 분리하고 (그래서 word-piece)
각 단어를 Byte-pair encoding을 진행함.
그리고 이를 통해 만들어진 토큰 집합을 벡터 변경시 활용한다.
Sentence-piece
Word-piece와 다른 점은 띄어쓰기 기준으로 분리하지 않는다는 것.
그래서 띄어쓰기를 쓰지 않거나 띄어쓰기가 다른 용도로 활용되는 언어에 좋음.