사람도 어떤 전문 분야를 배우기 전에 기초 교육을 먼저 받습니다. 초등학교에서 글 읽기, 숫자 세기, 세상의 기본 상식을 배우는 것처럼요. AI도 마찬가지입니다. 특정 일을 잘하기 전에, 먼저 세상에 대한 기초 지식을 쌓아야 합니다. 이 과정이 바로 사전 훈련입니다.
인터넷에 있는 수많은 글, 책, 뉴스, 백과사전 등을 읽으면서 언어가 어떻게 작동하는지, 세상 지식은 어떤 것들이 있는지 스스로 익힙니다. 마치 어린아이가 주변 환경을 보고 듣고 따라 하면서 자연스럽게 말을 배우는 것과 같습니다.
OpenAI의 GPT 시리즈가 수천억 개의 문장을 읽고 기초를 다진 덕분에 ChatGPT라는 대화 서비스로 발전할 수 있었습니다. Google의 Gemini도 글뿐 아니라 그림, 영상까지 폭넓게 기초 교육을 받아 다양한 질문에 답할 수 있게 되었고요. Meta의 LLaMA는 이 기초 교육 과정을 공개해서 전 세계 연구자들이 자유롭게 활용할 수 있도록 했습니다.
📚 이 문서는 사전학습의 최상위 개념입니다. 하위 기법으로 Autoregressive, MLM, Contrastive Learning, Denoising 등이 있습니다.
사전학습 손실 은 모델 파라미터 수 , 데이터셋 토큰 수 의 **멱법칙(power law)**을 따른다:
Chinchilla 최적화1에 따르면 토큰 수는 파라미터 수의 약 20배가 이상적:
| 방식 | 모델 | 특성 |
|---|---|---|
| 자기회귀 | GPT 계열 | 다음 토큰 예측, 생성에 강함 |
| MLM | BERT 계열 | 빈칸 채우기, 이해에 강함 |
| 대조학습 | CLIP 등 | 유사도 비교, 멀티모달에 강함 |
| 디노이징 | T5, BART | 입력 복원, 이해+생성 모두 가능 |
코사인 학습률 감쇠: \eta(t) = \eta_\min + \frac{1}{2}(\eta_\max - \eta_\min)(1 + \cos(\pi t / T))
혼합 정밀도(Mixed Precision)와 ZeRO 최적화로 수천 GPU에서 학습을 진행한다.
Chinchilla: Hoffmann et al. (2022)의 연구로, 고정된 컴퓨트 예산에서 모델 크기와 데이터를 균형 있게 키우는 것이 최적임을 보임 ↩
서비스 2 · 게시글 1