본문 바로가기

미분류

Tokenizer은 어떻게 만들어졌는가?

BPE. Byte-pair encoding.

글자 두개가 중복되면 다른 글자로 치환해주고, 이를 반복하는 것.

 

Word-piece

BPE 방식을 활용함.

우선 띄어쓰기 기준으로 단어로 분리하고 (그래서 word-piece)

각 단어를 Byte-pair encoding을 진행함.

그리고 이를 통해 만들어진 토큰 집합을 벡터 변경시 활용한다.

 

Sentence-piece

Word-piece와 다른 점은 띄어쓰기 기준으로 분리하지 않는다는 것.

그래서 띄어쓰기를 쓰지 않거나 띄어쓰기가 다른 용도로 활용되는 언어에 좋음.

'미분류' 카테고리의 다른 글

어텐션 메커니즘 대충  (0) 2024.03.27
encoder-decoder (seq2seq)  (0) 2024.03.26
huggingface의 AutoModel 클래스  (0) 2024.03.20
GraphCodeBERT 메모  (0) 2024.03.20
훈련하면 훈련한거지 사전훈련은 또 뭔데  (0) 2024.03.15