42dot LLM 공개
2023년 10월 6일 작성
개요
- 공식 소개 글: https://fb.watch/nigfKu5FuO/
- 페이스북 TensorFlow KR 홍보 글: https://www.facebook.com/groups/TensorFlowKR/posts/2138892963118417
국내 최초로 한영통합 언어 모델(42dot LLM)을 무료로 공개하여 소개합니다. 1.3B 사이즈의 모델로, PLM의 경우 학습 데이터로 1.4T 토큰을 49,152 GPU-hours 동안 학습하였고, SFT의 경우 112 GPU-hours 동안 학습을 진행하였습니다. PLM/SFT 모두 정교하게 데이터를 선별하여 직접 학습을 진행하였으며, 평가 결과 동일 사이즈 대비 최고의 성능을 달성하였습니다.
특징
42dot LLM은 포티투닷 (42dot)에서 자체 개발한 언어 모델들의 시리즈로, 다음의 특징을 가지고 있습니다.
- 국내 최초의 한영통합 언어 모델 (=42dot LLM-PLM) 공개
- 42dot LLM-PLM 기반의 생성형 언어 모델 (=42dot LLM-SFT) 공개
- 직접 구축한 (수집, 정제) 데이터, 자체 학습 인프라 사용
구성
호환성을 위해 LLaMA 2와 거의 동일한 아키텍처를 채택하였습니다. 토크나이저의 경우 별도로 1,000만 건의 문서를 샘플링해 약 50K의 Vocab을 추출하였고, Vocab 또한 마찬가지로 모두 무료로 공개합니다.
링크
- 홈페이지: https://42dot.ai/openDataset/nlp/overview
- 깃허브: https://github.com/42dot/42dot_LLM
- 허깅페이스 PLM: https://huggingface.co/42dot/42dot_LLM-PLM-1.3B
- 허깅페이스 SFT: https://huggingface.co/42dot/42dot_LLM-SFT-1.3B
깃허브에는 모델에 대한 소개와 함께 간단한 샘플 코드가 제공되며, $ python example_cli.py
로 실행할 수 있습니다. 실행 시 허깅페이스에서 모델을 내려받아 자동으로 실행됩니다.
라이센스
또한 각 모델 파일은 허깅페이스에 모두 무료로 공개하였으며, 라이센스는 CC BY-NC 4.0으로, 출처를 밝히면 비상업적 용도에 한해 누구나 자유롭게 활용하실 수 있습니다.
우리는 오픈소스 생태계의 힘을 믿습니다. 이번 국내 최초의 한영통합 언어 모델 공개로 국내 LLM 생태계가 한 단계 더 도약하길 기대해봅니다.
많은 이용 바랍니다.