Question 1

Pretraining이란 무엇인가요?

Accepted Answer

사람도 어떤 전문 분야를 배우기 전에 기초 교육을 먼저 받습니다. 초등학교에서 글 읽기, 숫자 세기, 세상의 기본 상식을 배우는 것처럼요. AI도 마찬가지입니다. 특정 일을 잘하기 전에, 먼저 세상에 대한 기초 지식을 쌓아야 합니다. 이 과정이 바로 사전 훈련입니다.

인터넷에 있는 수많은 글, 책, 뉴스, 백과사전 등을 읽으면서 언어가 어떻게 작동하는지, 세상 지식은 어떤 것들이 있는지 스스로 익힙니다. 마치 어린아이가 주변 환경을 보고 듣고 따라 하면서 자연스럽게 말을 배우는 것과 같습니다.

OpenAI의 GPT 시리즈가 수천억 개의 문장을 읽고 기초를 다진 덕분에 ChatGPT라는 대화 서비스로 발전할 수 있었습니다. Google의 Gemini도 글뿐 아니라 그림, 영상까지 폭넓게 기초 교육을 받아 다양한 질문에 답할 수 있게 되었고요. Meta의 LLaMA는 이 기초 교육 과정을 공개해서 전 세계 연구자들이 자유롭게 활용할 수 있도록 했습니다.

Question 2

Pretraining의 기술적 원리는 무엇인가요?

Accepted Answer

📚 이 문서는 사전학습의 최상위 개념입니다. 하위 기법으로 Autoregressive, MLM, Contrastive Learning, Denoising 등이 있습니다.

스케일링 법칙

사전학습 손실 은 모델 파라미터 수 , 데이터셋 토큰 수 의 멱법칙(power law)을 따른다:

Chinchilla 최적화[^1]에 따르면 토큰 수는 파라미터 수의 약 20배가 이상적:

학습 목적 함수 분류

| 방식 | 모델 | 특성 |
|------|------|------|
| 자기회귀 | GPT 계열 | 다음 토큰 예측, 생성에 강함 |
| MLM | BERT 계열 | 빈칸 채우기, 이해에 강함 |
| 대조학습 | CLIP 등 | 유사도 비교, 멀티모달에 강함 |
| 디노이징 | T5, BART | 입력 복원, 이해+생성 모두 가능 |

학습 안정성

코사인 학습률 감쇠:

혼합 정밀도(Mixed Precision)와 ZeRO 최적화로 수천 GPU에서 학습을 진행한다.

Pretraining

쉽게 이해하기

기술 심층 분석

스케일링 법칙

학습 목적 함수 분류

학습 안정성

하위 방법론

댓글

방식	모델	특성
자기회귀	GPT 계열	다음 토큰 예측, 생성에 강함
MLM	BERT 계열	빈칸 채우기, 이해에 강함
대조학습	CLIP 등	유사도 비교, 멀티모달에 강함
디노이징	T5, BART	입력 복원, 이해+생성 모두 가능

Pretraining

쉽게 이해하기

기술 심층 분석

스케일링 법칙

학습 목적 함수 분류

학습 안정성

Footnotes

하위 방법론

댓글