미분류

Tokenizer은 어떻게 만들어졌는가?

cape.coder 2024. 3. 26. 09:03

BPE. Byte-pair encoding.

글자 두개가 중복되면 다른 글자로 치환해주고, 이를 반복하는 것.

 

Word-piece

BPE 방식을 활용함.

우선 띄어쓰기 기준으로 단어로 분리하고 (그래서 word-piece)

각 단어를 Byte-pair encoding을 진행함.

그리고 이를 통해 만들어진 토큰 집합을 벡터 변경시 활용한다.

 

Sentence-piece

Word-piece와 다른 점은 띄어쓰기 기준으로 분리하지 않는다는 것.

그래서 띄어쓰기를 쓰지 않거나 띄어쓰기가 다른 용도로 활용되는 언어에 좋음.