마스크드 언어 모델링(MLM)은 문장에서 일부 단어를 지우고, AI가 그 빈칸을 채우도록 학습시키는 방법입니다. 초등학교 국어 시험의 "빈칸 채우기 문제"와 똑같습니다.
예를 들어 "오늘 날씨가 매우 [MASK] 하다"라는 문장에서, AI는 앞뒤 문맥을 보고 "덥다", "춥다", "맑다" 등의 적절한 단어를 예측합니다. 이 과정을 수십억 개의 문장에 걸쳐 반복하면, AI는 한국어(또는 영어)의 문법, 어휘, 상식을 자연스럽게 익히게 됩니다.
이 방식이 특별한 이유는 양방향(Bidirectional) 문맥을 활용한다는 점입니다. 빈칸의 왼쪽과 오른쪽 단어를 모두 참고하여 예측하기 때문에, 문장 전체의 의미를 훨씬 깊이 이해할 수 있습니다. 반면 GPT 같은 자기회귀 모델은 왼쪽만 보고 오른쪽을 예측하는 방식이라, 양쪽 문맥을 동시에 활용하는 MLM이 문장 이해 태스크(분류, 감성 분석, 질의응답 등)에서 강점을 보입니다.
BERT(2018)가 MLM으로 학습된 대표적인 모델로, 이후 네이버 HyperCLOVA, 카카오 KoGPT 등 많은 한국어 모델들도 MLM 방식을 채택했습니다.
📚 선수학습: 사전학습(Pretraining) 개념과 Transformer 인코더 구조를 먼저 숙지하세요.
MLM의 학습 목표는 마스킹된 위치 집합 에 대해 조건부 교차 엔트로피를 최소화하는 것이다:
여기서 는 원본 토큰, 는 마스킹된 시퀀스다. BERT의 15% 마스킹 전략은 세 가지로 구성된다:
| 처리 방식 | 비율 | 역할 |
|---|---|---|
| [MASK] 토큰으로 교체 | 80% | 명시적 복원 학습 |
| 무작위 토큰으로 교체 | 10% | 표현 견고성 강화 |
| 원본 토큰 유지 | 10% | 컨텍스트 표현 학습 |
후자 두 가지는 모델이 [MASK] 토큰에만 의존하는 것을 방지하고, 파인튜닝 시 [MASK]가 없는 실제 입력과의 분포 불일치(distribution mismatch) 문제를 완화한다.
자기회귀 모델은 왼쪽에서 오른쪽으로 한 토큰씩 생성하므로 텍스트 생성에 자연스럽게 맞지만, MLM은 양방향 문맥을 활용하므로 분류·추출·이해 태스크에서 우수하다.
RoBERTa(Liu et al., 2019): 다음 문장 예측(NSP) 제거, 더 많은 데이터와 더 큰 배치, **동적 마스킹(dynamic masking)**을 도입하여 BERT를 일관되게 능가했다.
SpanBERT: 개별 토큰이 아닌 **연속 스팬(span)**을 통째로 마스킹. Span Boundary Objective(SBO)를 추가하여 스팬 경계 토큰만으로 스팬 내부를 복원하도록 학습 → 질의응답(QA)과 공지시(coreference resolution)에서 BERT보다 우수.
DeBERTa: 위치 정보와 콘텐츠를 분리한 분리형 어텐션(Disentangled Attention) 사용. 상대 위치 인코딩을 K/V에 별도로 적용:
이를 통해 절대 위치 임베딩의 한계를 극복하고 SuperGLUE에서 BERT를 크게 능가했다.
ELECTRA: MLM 대신 Replaced Token Detection 사용. 소형 생성기가 토큰을 생성하면, 판별기가 각 토큰이 원본인지 생성된 것인지 분류. 마스킹된 15%만 학습하는 MLM과 달리 전체 토큰을 학습하므로 같은 연산량 대비 훨씬 효율적이다.
[대규모 텍스트 코퍼스]
↓ MLM 사전학습
[BERT/RoBERTa 인코더]
↓ [CLS] 토큰 + 분류 헤드 추가
[태스크별 파인튜닝: SFT, LoRA 등]
SFT나 LoRA로 다운스트림 태스크에 적응할 때, MLM으로 학습된 표현이 훨씬 빠른 수렴을 가능하게 한다.
Denoising Pretraining