RLHF

서비스

1

trlX

발표2

SFT 학습

Vicuna 학습 시 wandb 로그인:

$ wandb login

wandb 사이트에서 User Settings > API 키를 찾아서 입력한다. 또는,

$ export WANDB_MODE=offline

으로 비활성화 가능하다.

LIMA

Meta의 LIMA 논문에서는 1,000개로 gpt-4에 근접하는 성능을 낼 수 있다고 했지만 한글 데이터로 실험 결과 1,000개로는 부족했고 5,000개 정도로 괜찮은 결과를 낼 수 있었다.

Last Modified: 2024/02/12 12:53:21

is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.