학습 성능 논문

CPT

Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs

Samsung Research India, Oct 2024

2.2 Instruction Residuals:
\(\Theta_r^{v1} = \theta_i^{d1v1} - \theta_b^{d1}\)
\(\theta_i^{d1d2v1} = \theta_b^{d1d2} \oplus \Theta_r^{v1},\)

L3b를 라마3 base, L3i는 라마3 instruct, 3Lr (instruction residual)이 바로 라마3로 추출한 값이다. d1은 기존 base 데이터셋, v1는 기존 instruct 데이터셋, d2가 CPT를 위한 데이터셋이다. 즉 L3i - L3b 해서 추출한 v1 weights를 d2를 학습한 CPT 모델에 element-wise add 할 수 있다.

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning

cohere에서 aya 23과 함께 공개. 논문은 Oct 2024

  • SFT → (merge) → DPO, data mixture보다 각각 학습 후 mergekit으로 SLERP 진행시 가장 좋은 성능을 냈다고
  • 평가는 GPT-4를 이용한 llm as an evaluator safety와 multilingual case에 대해 진행

SmolLM

Cosmopedia prompt exaple:

Here is an extract from a webpage:
...
Write an informative and insightful blog post that expands upon the extract above, within the context of "Medicine".

프롬프트 개선에 집중:

  • 주제 선정
  • 중학생과 대학생이라는 두 가지 다른 청중 대상으로 생성
    • 중학생 대상 모델이 MMLU를 제외한 모든 벤치마크에서 높은 점수 기록
    • MMLU는 고급 지식과 전문성이 필요한 문제가 포함되어 있음
  • FineWeb-Edu는 HuggingFaceFW/fineweb-edu-classifier 모델로 구분하여 고품질 데이터 유지
  • Python-Edu도 동일한 방식으로 접근. 결국 큐레이션을 통한 고품질 데이터가 성능을 높이는데 도움이 됐다는 내용이다.

학습:

  • Chinchila optimal point를 넘어서도 더 긴 학습으로 성능이 계속 향상되는 것을 관찰
  • 작은 모델은 토큰을 적게 투입했는데 400B이후 성능 향상이 느려지기 시작했기 때문

We find that:

  • SmolLM-135M은 600B 학습으로 MobileLLM의 1T 학습을 능가

LoRA

LoRA vs Full Fine-tuning: An Illusion of Equivalence

Oct 2024 MIT CSAIL

  • LoRA와 full fine-tuning은 fine tuning task 내에서는 동일한 성능을 보이지만 다른 task에서는 매우 다른 generalization behaviors를 보인다.
  • LoRa는 새로운 데이터를 수용하는 모양으로 전체 모델을 미묘하게 조정하는 대신 벡터 공간을 강력한 “점퍼(intruder dimension)”으로 연결하여 동작을 변경함으로써 어느 정도 모델에 트라우마를 입힌다. 특히 LoRA는 기존 사전 학습 분포를 더 많이 잊는다.

Last Modified: 2024/11/19 13:45:34

is a collection of Papers I have written.
© 2000 - Sang Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.