학습 성능 논문
CPT
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs
Samsung Research India, Oct 2024
2.2 Instruction Residuals:
\(\Theta_r^{v1} = \theta_i^{d1v1} - \theta_b^{d1}\)
\(\theta_i^{d1d2v1} = \theta_b^{d1d2} \oplus \Theta_r^{v1},\)
L3b를 라마3 base, L3i는 라마3 instruct, 3Lr (instruction residual)이 바로 라마3로 추출한 값이다. d1은 기존 base 데이터셋, v1는 기존 instruct 데이터셋, d2가 CPT를 위한 데이터셋이다. 즉 L3i - L3b 해서 추출한 v1 weights를 d2를 학습한 CPT 모델에 element-wise add 할 수 있다.
Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning
cohere에서 aya 23과 함께 공개. 논문은 Oct 2024
- SFT → (merge) → DPO, data mixture보다 각각 학습 후 mergekit으로 SLERP 진행시 가장 좋은 성능을 냈다고
- 평가는 GPT-4를 이용한 llm as an evaluator safety와 multilingual case에 대해 진행
SmolLM
Cosmopedia prompt exaple:
Here is an extract from a webpage:
...
Write an informative and insightful blog post that expands upon the extract above, within the context of "Medicine".
프롬프트 개선에 집중:
- 주제 선정
- 중학생과 대학생이라는 두 가지 다른 청중 대상으로 생성
- 중학생 대상 모델이 MMLU를 제외한 모든 벤치마크에서 높은 점수 기록
- MMLU는 고급 지식과 전문성이 필요한 문제가 포함되어 있음
- FineWeb-Edu는 HuggingFaceFW/fineweb-edu-classifier 모델로 구분하여 고품질 데이터 유지
- Python-Edu도 동일한 방식으로 접근. 결국 큐레이션을 통한 고품질 데이터가 성능을 높이는데 도움이 됐다는 내용이다.
학습:
- Chinchila optimal point를 넘어서도 더 긴 학습으로 성능이 계속 향상되는 것을 관찰
- 작은 모델은 토큰을 적게 투입했는데 400B이후 성능 향상이 느려지기 시작했기 때문
We find that:
- SmolLM-135M은 600B 학습으로 MobileLLM의 1T 학습을 능가
LoRA
LoRA vs Full Fine-tuning: An Illusion of Equivalence
Oct 2024 MIT CSAIL
- LoRA와 full fine-tuning은 fine tuning task 내에서는 동일한 성능을 보이지만 다른 task에서는 매우 다른 generalization behaviors를 보인다.
- LoRa는 새로운 데이터를 수용하는 모양으로 전체 모델을 미묘하게 조정하는 대신 벡터 공간을 강력한 “점퍼(intruder dimension)”으로 연결하여 동작을 변경함으로써 어느 정도 모델에 트라우마를 입힌다. 특히 LoRA는 기존 사전 학습 분포를 더 많이 잊는다.
Last Modified: 2024/11/19 13:45:34