
RLHF
서비스
trlX
발표2
SFT 학습
Vicuna 학습 시 wandb 로그인:
$ wandb login
wandb 사이트에서 User Settings > API 키를 찾아서 입력한다. 또는,
$ export WANDB_MODE=offline
으로 비활성화 가능하다.
LIMA
Meta의 LIMA 논문에서는 1,000개로 gpt-4에 근접하는 성능을 낼 수 있다고 했지만 한글 데이터로 실험 결과 1,000개로는 부족했고 5,000개 정도로 괜찮은 결과를 낼 수 있었다.
Last Modified: 2023/08/21 17:17:12