42dot LLM 공개

최고의 성능을 달성한 한영통합 언어 모델 42dot LLM을 소개합니다.

2023년 10월 6일 작성

개요

국내 최초로 한영통합 언어 모델(42dot LLM)을 무료로 공개하여 소개합니다. 1.3B 사이즈의 모델로, PLM의 경우 학습 데이터로 1.4T 토큰을 49,152 GPU-hours 동안 학습하였고, SFT의 경우 112 GPU-hours 동안 학습을 진행하였습니다. PLM/SFT 모두 정교하게 데이터를 선별하여 직접 학습을 진행하였으며, 평가 결과 동일 사이즈 대비 최고의 성능을 달성하였습니다.

특징

42dot LLM은 포티투닷 (42dot)에서 자체 개발한 언어 모델들의 시리즈로, 다음의 특징을 가지고 있습니다.

  • 국내 최초의 한영통합 언어 모델 (=42dot LLM-PLM) 공개
  • 42dot LLM-PLM 기반의 생성형 언어 모델 (=42dot LLM-SFT) 공개
  • 직접 구축한 (수집, 정제) 데이터, 자체 학습 인프라 사용

구성

호환성을 위해 LLaMA 2와 거의 동일한 아키텍처를 채택하였습니다. 토크나이저의 경우 별도로 1,000만 건의 문서를 샘플링해 약 50K의 Vocab을 추출하였고, Vocab 또한 마찬가지로 모두 무료로 공개합니다.

링크

깃허브에는 모델에 대한 소개와 함께 간단한 샘플 코드가 제공되며, $ python example_cli.py로 실행할 수 있습니다. 실행 시 허깅페이스에서 모델을 내려받아 자동으로 실행됩니다.

라이센스

또한 각 모델 파일은 허깅페이스에 모두 무료로 공개하였으며, 라이센스는 CC BY-NC 4.0으로, 출처를 밝히면 비상업적 용도에 한해 누구나 자유롭게 활용하실 수 있습니다.

우리는 오픈소스 생태계의 힘을 믿습니다. 이번 국내 최초의 한영통합 언어 모델 공개로 국내 LLM 생태계가 한 단계 더 도약하길 기대해봅니다.

많은 이용 바랍니다.

is a collection of Papers I have written.
© 2000 - Sang Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.