Hugging Face

개요

pytorch-pretrained-bert로 시작했던 허깅페이스가 이렇게나 커버렸다. Hub라는 플랫폼을 제공하며 Models, Datasets, Spaces(데모 용도)를 git-based로 호스팅한다.

Subword Tokenization

드물게 등장하는 단어를 더 작은 단위로 나눔

  • BPE: GPT 사용. 단어를 유니코드 문자가 아닌 바이트 단위 구성으로 간주
  • WordPiece: BERT 사용
  • SentencePiece: BPE + Unigram LM Tokenizer
    text = "Jack Sparrow loves New York!"
    WordPiece는 York과 ! 사이에 공백 정보를 잃어버리지만 SentencePiece는 U+2581을 공백으로 치환할 경우 보존.

Last Modified: 2023/01/07 20:01:35

is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.