잡음 제거 사전학습(Denoising Pretraining)은 일부러 망가뜨린 텍스트를 원래대로 복원하도록 AI를 학습시키는 방법입니다. 문장에서 단어를 지우거나, 순서를 섞거나, 아예 통째로 빈칸으로 만들어 놓고 "원본을 복원해봐라"는 문제를 내는 것입니다.
망가진 문서를 복원하는 복원 전문가에 비유할 수 있습니다. 낡고 훼손된 오래된 문서를 받아서 원래 내용을 추정하고 복원하는 작업을 반복하다 보면, 그 언어와 맥락을 누구보다 잘 이해하게 됩니다. AI에게 이 반복 작업을 수십억 번 시키는 것이 바로 잡음 제거 사전학습입니다.
가장 유명한 예는 Google의 **T5(Text-to-Text Transfer Transformer)**와 BART입니다. T5는 텍스트 일부를 특수 토큰으로 대체하고 그 부분을 예측하도록 학습했고, BART는 더 다양한 방식의 텍스트 손상을 복원하도록 학습했습니다. 이 두 모델은 번역, 요약, 질의응답 등 "텍스트를 텍스트로 변환하는" 모든 태스크에서 탁월한 성능을 보입니다.
MLM이 인코더(문장 이해)에 특화된 사전학습이라면, 잡음 제거 사전학습은 인코더-디코더 구조에서 더 강력하게 작동하여 이해와 생성을 모두 잘합니다.
📚 관련 기법: MLM과 목적 함수를 비교해보면 이해가 깊어집니다. T5는 이 기법의 대표 모델입니다.
손상 함수(Corruption Function) 의 설계다. 입력 에 대해 손상된 버전 를 만들고, 모델은 를 최대화하도록 학습한다:
BART(Lewis et al., 2019)는 5가지 손상 유형을 체계적으로 실험했다:
| 손상 유형 | 설명 | 효과 |
|---|---|---|
| Token Masking | 임의 토큰 → [MASK] | MLM과 유사 |
| Token Deletion | 임의 토큰 완전 제거 | 위치 파악 학습 |
| Text Infilling | 임의 스팬 → 단일 [MASK] | 스팬 길이 예측 |
| Sentence Permutation | 문장 순서 섞기 | 구조 이해 |
| Document Rotation | 임의 토큰부터 시작 | 문서 시작 감지 |
실험 결과 Text Infilling이 단독으로 가장 효과적이었으며, 특히 요약 태스크에서 두드러진 성능을 보였다.
5의 Span Corruption
T5(Raffel et al., 2020)는 **스팬 마스킹(Span Corruption)**을 채택한다. 임의 길이의 연속 스팬을 단일 센티넬 토큰(sentinel token) <extra_id_0>, <extra_id_1>으로 대체하고, 디코더가 모든 센티넬 토큰에 해당하는 원본 텍스트를 순서대로 생성한다:
입력: "The <extra_id_0> walks in <extra_id_1> park"
목표: "<extra_id_0> dog <extra_id_1> the <extra_id_2>"
평균 스팬 길이 3, 전체 토큰의 15% 마스킹이 기본 설정이다. MLM이 각 토큰을 독립적으로 예측하는 반면, T5 Span Corruption은 연속된 토큰 군을 자기회귀적으로 생성하므로 더 어려운 과제이다.
잡음 제거 사전학습이 인코더-디코더 구조에서 특히 효과적인 이유:
인코더가 손상된 컨텍스트 전체를 양방향으로 이해한 뒤, 디코더가 이를 참고하여 원본을 생성한다. 이 구조는 번역, 요약, 질의응답처럼 "입력을 이해하고 새로운 텍스트를 생성"하는 모든 태스크에 자연스럽게 들어맞는다.
| 기준 | MLM | Denoising Pretraining |
|---|---|---|
| 아키텍처 | 인코더만 | 인코더-디코더 |
| 출력 | 토큰 분류 | 시퀀스 생성 |
| 강점 | 이해 태스크 | 생성 + 이해 통합 |
| 대표 모델 | BERT, RoBERTa | T5, BART |