Question 1

Denoising Pretraining이란 무엇인가요?

Accepted Answer

잡음 제거 사전학습(Denoising Pretraining)은 일부러 망가뜨린 텍스트를 원래대로 복원하도록 AI를 학습시키는 방법입니다. 문장에서 단어를 지우거나, 순서를 섞거나, 아예 통째로 빈칸으로 만들어 놓고 "원본을 복원해봐라"는 문제를 내는 것입니다.

망가진 문서를 복원하는 복원 전문가에 비유할 수 있습니다. 낡고 훼손된 오래된 문서를 받아서 원래 내용을 추정하고 복원하는 작업을 반복하다 보면, 그 언어와 맥락을 누구보다 잘 이해하게 됩니다. AI에게 이 반복 작업을 수십억 번 시키는 것이 바로 잡음 제거 사전학습입니다.

가장 유명한 예는 Google의 T5(Text-to-Text Transfer Transformer)와 BART입니다. T5는 텍스트 일부를 특수 토큰으로 대체하고 그 부분을 예측하도록 학습했고, BART는 더 다양한 방식의 텍스트 손상을 복원하도록 학습했습니다. 이 두 모델은 번역, 요약, 질의응답 등 "텍스트를 텍스트로 변환하는" 모든 태스크에서 탁월

Question 2

Denoising Pretraining의 기술적 원리는 무엇인가요?

Accepted Answer

📚 관련 기법: MLM과 목적 함수를 비교해보면 이해가 깊어집니다. T5는 이 기법의 대표 모델입니다.

손상 함수의 종류잡음 제거 사전학습의 핵심은

손상 함수(Corruption Function) 의 설계다. 입력 에 대해 손상된 버전 를 만들고, 모델은 를 최대화하도록 학습한다:

BART(Lewis et al., 2019)는 5가지 손상 유형을 체계적으로 실험했다:

| 손상 유형 | 설명 | 효과 |
|----------|------|------|
| Token Masking | 임의 토큰 → [MASK] | MLM과 유사 |
| Token Deletion | 임의 토큰 완전 제거 | 위치 파악 학습 |
| Text Infilling | 임의 스팬 → 단일 [MASK] | 스팬 길이 예측 |
| Sentence Permutation | 문장 순서 섞기 | 구조 이해 |
| Document Rotation | 임의 토큰부터 시작 | 문서 시작 감지 |

실험 결과 Text

기준	MLM	Denoising Pretraining
아키텍처	인코더만	인코더-디코더
출력	토큰 분류	시퀀스 생성
강점	이해 태스크	생성 + 이해 통합
대표 모델	BERT, RoBERTa	T5, BART

Denoising Pretraining

쉽게 이해하기

기술 심층 분석

손상 함수의 종류잡음 제거 사전학습의 핵심은

T

인코더-디코더 아키텍처와의 시너지

MLM과 비교

실무 활용 가이드

Footnotes

댓글

손상 유형	설명	효과
Token Masking	임의 토큰 → [MASK]	MLM과 유사
Token Deletion	임의 토큰 완전 제거	위치 파악 학습
Text Infilling	임의 스팬 → 단일 [MASK]	스팬 길이 예측
Sentence Permutation	문장 순서 섞기	구조 이해
Document Rotation	임의 토큰부터 시작	문서 시작 감지