학습 성능 논문

CPT
LoRA
- LoRA vs Full Fine-tuning: An Illusion of Equivalence
SLM
- Aya Expanse
- SLM Survey
Decoding
- Contrastive Decoding
Adaptive Contrastive Decoding (ACD)

CPT

Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs

Samsung Research India, Oct 2024

2.2 Instruction Residuals:
\(\Theta_r^{v1} = \theta_i^{d1v1} - \theta_b^{d1}\)
\(\theta_i^{d1d2v1} = \theta_b^{d1d2} \oplus \Theta_r^{v1},\)

L3b를 라마3 base, L3i는 라마3 instruct, 3Lr (instruction residual)이 바로 라마3로 추출한 값이다. d1은 기존 base 데이터셋, v1는 기존 instruct 데이터셋, d2가 CPT를 위한 데이터셋이다. 즉 L3i - L3b 해서 추출한 v1 weights를 d2를 학습한 CPT 모델에 element-wise add 할 수 있다.

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning

cohere에서 aya 23과 함께 공개. 논문은 Oct 2024

SFT → (merge) → DPO, data mixture보다 각각 학습 후 mergekit으로 SLERP 진행시 가장 좋은 성능을 냈다고
평가는 GPT-4를 이용한 llm as an evaluator safety와 multilingual case에 대해 진행

SmolLM

Cosmopedia prompt exaple:

Here is an extract from a webpage:
...
Write an informative and insightful blog post that expands upon the extract above, within the context of "Medicine".

프롬프트 개선에 집중:

주제 선정
중학생과 대학생이라는 두 가지 다른 청중 대상으로 생성
- 중학생 대상 모델이 MMLU를 제외한 모든 벤치마크에서 높은 점수 기록
- MMLU는 고급 지식과 전문성이 필요한 문제가 포함되어 있음
FineWeb-Edu는 HuggingFaceFW/fineweb-edu-classifier 모델로 구분하여 고품질 데이터 유지
Python-Edu도 동일한 방식으로 접근. 결국 큐레이션을 통한 고품질 데이터가 성능을 높이는데 도움이 됐다는 내용이다.

학습:

Chinchila Optimal Point를 넘어서도 더 긴 학습으로 성능이 계속 향상되는 것을 관찰
작은 모델은 토큰을 적게 투입했는데 400B이후 성능 향상이 느려지기 시작했기 때문

We find that:

SmolLM-135M은 600B 학습으로 MobileLLM의 1T 학습을 능가

LoRA

LoRA vs Full Fine-tuning: An Illusion of Equivalence

Oct 2024 MIT CSAIL

LoRA와 full fine-tuning은 fine tuning task 내에서는 동일한 성능을 보이지만 다른 task에서는 매우 다른 generalization behaviors를 보인다.
LoRa는 새로운 데이터를 수용하는 모양으로 전체 모델을 미묘하게 조정하는 대신 벡터 공간을 강력한 “점퍼(intruder dimension)”으로 연결하여 동작을 변경함으로써 어느 정도 모델에 트라우마를 입힌다. 특히 LoRA는 기존 사전 학습 분포를 더 많이 잊는다.

SLM

Aya Expanse

23개 언어를 학습한 Aya 23의 다음 버전.

The use of synthetic data has played a critical role in recent state-of-art breakthroughs. However, overly relying on a single oracle teacher model to generate data has been shown to lead to model collapse and invite propagation of biases.

introducing “multilingual arbitrage” 데이터 중재는 인간이 다양한 기술을 위해 다른 교사에게 찾아가는 학습 방식에서 영감. 피아노 연주를 배우고 싶다면 피아노 교사에게, 베이킹을 배우려면 베이킹 전문가에게. 동일한 철학을 적용해 데이터 분포에 따라 다양한 “교사” 모델을 전략적으로 선택하여 다국어 기능에 적합한 합성 데이터 생성

online DPO 진행했다고. 각 클러스터에서 공유하는 언어를 가중 선형 평균으로 merge, 8B에 비해 35B가 3배까지 더 이득. 대규모 merge가 이득이라는 연구와 일치¹

SLM Survey

Small Language Models: Survey, Measurements, and Insights

100M ~ 5B 59개 SLM 조사

MHA → GQA 경향
LayerNorm → RMSNorm 경향

Chinchila Law에 따르면,

1B model with 20B tokens
하지만 학습 토큰 ↑ 성능 ↑ 경향 있음, 1T 이상인 경우 데이터 품질이 더 중요

2 stage Pre-Training Strategy

coarse-quality data
annealing phase, high-quality knowledge and SFT data

메모리:

vocab이 크면 memory 더 차지하는 경향
Qwen2 131k context length일때 kvcache가 전체 83~87% 차지
32k context length는 80% 메모리 차리

속도:

The impact of model architecture on inference speed is more significant on prefill stage. 왜냐면 compute-bound이고, computational density is higher하기 때문
Qwen1.5-0.5B가 25.4% more params, 하지만 Qweb2-0.5B보다 Jetson Orin NX 16GB에서 31.9% 더 빠르다.
wider models have higher computational parallelism.
mul_mat_vec은 inference time의 70% 차지

Quantization:

More regular quantization precision leads to better perf. 5bit, 6bit가 8bit보다 더 늦다.

DLCM, FineWeb-Edu 데이터셋 고품질이다.

Decoding

Contrastive Decoding

큰 모델과 작은 모델을 두고 작은 모델의 변동성을 이용해 전체 성능을 끌어올릴 수 있다는 내용. 모델 2개를 배치해야 한다는 점에서 Speculative Decoding과 비슷한데, 이건 속도를 높이는 기법이고 CD는 품질을 높이는 기법이다.

Adaptive Contrastive Decoding (ACD)

네이버 논문으로, RAG 검색 정보에 노이즈가 많을 때 이를 해결하는 방법. 디코딩에 contrastive를 도입해 alternative outputs that are similar but differ in important ways를 고려한다고. uncertainly 분포의 엔트로피 H를 분모에 적용.

https://arxiv.org/pdf/2410.03617 ↩

Last Modified: 2024/12/18 01:15:13