Question 1

Masked Language Modeling (MLM)이란 무엇인가요?

Accepted Answer

마스크드 언어 모델링(MLM)은 문장에서 일부 단어를 지우고, AI가 그 빈칸을 채우도록 학습시키는 방법입니다. 초등학교 국어 시험의 "빈칸 채우기 문제"와 똑같습니다.

예를 들어 "오늘 날씨가 매우 [MASK] 하다"라는 문장에서, AI는 앞뒤 문맥을 보고 "덥다", "춥다", "맑다" 등의 적절한 단어를 예측합니다. 이 과정을 수십억 개의 문장에 걸쳐 반복하면, AI는 한국어(또는 영어)의 문법, 어휘, 상식을 자연스럽게 익히게 됩니다.

이 방식이 특별한 이유는 양방향(Bidirectional) 문맥을 활용한다는 점입니다. 빈칸의 왼쪽과 오른쪽 단어를 모두 참고하여 예측하기 때문에, 문장 전체의 의미를 훨씬 깊이 이해할 수 있습니다. 반면 GPT 같은 자기회귀 모델은 왼쪽만 보고 오른쪽을 예측하는 방식이라, 양쪽 문맥을 동시에 활용하는 MLM이 문장 이해 태스크(분류, 감성 분석, 질의응답 등)에서 강점을 보입니다.

BERT(2018)가 MLM으로 학습된 대표적인 모델로,

Question 2

Masked Language Modeling (MLM)의 기술적 원리는 무엇인가요?

Accepted Answer

📚 선수학습: 사전학습(Pretraining) 개념과 Transformer 인코더 구조를 먼저 숙지하세요.

핵심 수학적 구조

MLM의 학습 목표는 마스킹된 위치 집합 에 대해 조건부 교차 엔트로피를 최소화하는 것이다:

여기서 는 원본 토큰, 는 마스킹된 시퀀스다. BERT의 15% 마스킹 전략은 세 가지로 구성된다:

| 처리 방식 | 비율 | 역할 |
|----------|------|------|
| [MASK] 토큰으로 교체 | 80% | 명시적 복원 학습 |
| 무작위 토큰으로 교체 | 10% | 표현 견고성 강화 |
| 원본 토큰 유지 | 10% | 컨텍스트 표현 학습 |

후자 두 가지는 모델이 [MASK] 토큰에만 의존하는 것을 방지하고, 파인튜닝 시 [MASK]가 없는 실제 입력과의 분포 불일치(distribution mismatch) 문제를 완화한다.

자기회귀 사전학습과 비교

자기회귀 모델은 왼쪽에서 오른쪽으로 한 토큰씩 생성하므로 텍스트 생성에 자연스럽게

Masked Language Modeling (MLM)

쉽게 이해하기

기술 심층 분석

핵심 수학적 구조

자기회귀 사전학습과 비교

주요 변형 모델

사전학습 후 파인튜닝 파이프라인

Footnotes

댓글

처리 방식	비율	역할
[MASK] 토큰으로 교체	80%	명시적 복원 학습
무작위 토큰으로 교체	10%	표현 견고성 강화
원본 토큰 유지	10%	컨텍스트 표현 학습