BPE. Byte-pair encoding.
글자 두개가 중복되면 다른 글자로 치환해주고, 이를 반복하는 것.
Word-piece
BPE 방식을 활용함.
우선 띄어쓰기 기준으로 단어로 분리하고 (그래서 word-piece)
각 단어를 Byte-pair encoding을 진행함.
그리고 이를 통해 만들어진 토큰 집합을 벡터 변경시 활용한다.
Sentence-piece
Word-piece와 다른 점은 띄어쓰기 기준으로 분리하지 않는다는 것.
그래서 띄어쓰기를 쓰지 않거나 띄어쓰기가 다른 용도로 활용되는 언어에 좋음.
'미분류' 카테고리의 다른 글
어텐션 메커니즘 대충 (0) | 2024.03.27 |
---|---|
encoder-decoder (seq2seq) (0) | 2024.03.26 |
huggingface의 AutoModel 클래스 (0) | 2024.03.20 |
GraphCodeBERT 메모 (0) | 2024.03.20 |
훈련하면 훈련한거지 사전훈련은 또 뭔데 (0) | 2024.03.15 |