AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론Transfer LearningPretrainingDenoising Pretraining

Denoising Pretraining

Pretraining

쉽게 이해하기

잡음 제거 사전학습(Denoising Pretraining)은 일부러 망가뜨린 텍스트를 원래대로 복원하도록 AI를 학습시키는 방법입니다. 문장에서 단어를 지우거나, 순서를 섞거나, 아예 통째로 빈칸으로 만들어 놓고 "원본을 복원해봐라"는 문제를 내는 것입니다.

망가진 문서를 복원하는 복원 전문가에 비유할 수 있습니다. 낡고 훼손된 오래된 문서를 받아서 원래 내용을 추정하고 복원하는 작업을 반복하다 보면, 그 언어와 맥락을 누구보다 잘 이해하게 됩니다. AI에게 이 반복 작업을 수십억 번 시키는 것이 바로 잡음 제거 사전학습입니다.

가장 유명한 예는 Google의 **T5(Text-to-Text Transfer Transformer)**와 BART입니다. T5는 텍스트 일부를 특수 토큰으로 대체하고 그 부분을 예측하도록 학습했고, BART는 더 다양한 방식의 텍스트 손상을 복원하도록 학습했습니다. 이 두 모델은 번역, 요약, 질의응답 등 "텍스트를 텍스트로 변환하는" 모든 태스크에서 탁월한 성능을 보입니다.

MLM이 인코더(문장 이해)에 특화된 사전학습이라면, 잡음 제거 사전학습은 인코더-디코더 구조에서 더 강력하게 작동하여 이해와 생성을 모두 잘합니다.

기술 심층 분석

📚 관련 기법: MLM과 목적 함수를 비교해보면 이해가 깊어집니다. T5는 이 기법의 대표 모델입니다.

손상 함수의 종류잡음 제거 사전학습의 핵심은

손상 함수(Corruption Function) C\mathcal{C}C의 설계다. 입력 xxx에 대해 손상된 버전 x~=C(x)\tilde{x} = \mathcal{C}(x)x~=C(x)를 만들고, 모델은 Pθ(x∣x~)P_\theta(x | \tilde{x})Pθ​(x∣x~)를 최대화하도록 학습한다:

LDenoising=−Ex~∼C(x)[∑tlog⁡Pθ(xt∣x~,x<t)]\mathcal{L}_\text{Denoising} = -\mathbb{E}_{\tilde{x} \sim \mathcal{C}(x)}\left[\sum_t \log P_\theta(x_t | \tilde{x}, x_{<t})\right]LDenoising​=−Ex~∼C(x)​[∑t​logPθ​(xt​∣x~,x<t​)]

BART(Lewis et al., 2019)는 5가지 손상 유형을 체계적으로 실험했다:

손상 유형설명효과
Token Masking임의 토큰 → [MASK]MLM과 유사
Token Deletion임의 토큰 완전 제거위치 파악 학습
Text Infilling임의 스팬 → 단일 [MASK]스팬 길이 예측
Sentence Permutation문장 순서 섞기구조 이해
Document Rotation임의 토큰부터 시작문서 시작 감지

실험 결과 Text Infilling이 단독으로 가장 효과적이었으며, 특히 요약 태스크에서 두드러진 성능을 보였다.

T

5의 Span Corruption

T5(Raffel et al., 2020)는 **스팬 마스킹(Span Corruption)**을 채택한다. 임의 길이의 연속 스팬을 단일 센티넬 토큰(sentinel token) <extra_id_0>, <extra_id_1>으로 대체하고, 디코더가 모든 센티넬 토큰에 해당하는 원본 텍스트를 순서대로 생성한다:

입력: "The <extra_id_0> walks in <extra_id_1> park"
목표: "<extra_id_0> dog <extra_id_1> the <extra_id_2>"

평균 스팬 길이 3, 전체 토큰의 15% 마스킹이 기본 설정이다. MLM이 각 토큰을 독립적으로 예측하는 반면, T5 Span Corruption은 연속된 토큰 군을 자기회귀적으로 생성하므로 더 어려운 과제이다.

인코더-디코더 아키텍처와의 시너지

잡음 제거 사전학습이 인코더-디코더 구조에서 특히 효과적인 이유:

Encoder⏟손상된 입력 이해 (양방향 어텐션)⟶Decoder⏟원본 복원 (인과적 어텐션)\underbrace{\text{Encoder}}_{\text{손상된 입력 이해 (양방향 어텐션)}} \longrightarrow \underbrace{\text{Decoder}}_{\text{원본 복원 (인과적 어텐션)}}손상된 입력 이해 (양방향 어텐션)Encoder​​⟶원본 복원 (인과적 어텐션)Decoder​​

인코더가 손상된 컨텍스트 전체를 양방향으로 이해한 뒤, 디코더가 이를 참고하여 원본을 생성한다. 이 구조는 번역, 요약, 질의응답처럼 "입력을 이해하고 새로운 텍스트를 생성"하는 모든 태스크에 자연스럽게 들어맞는다.

MLM과 비교

기준MLMDenoising Pretraining
아키텍처인코더만인코더-디코더
출력토큰 분류시퀀스 생성
강점이해 태스크생성 + 이해 통합
대표 모델BERT, RoBERTaT5, BART

실무 활용 가이드

  • 요약(Summarization): BART나 T5를 선택. BART는 CNN/DailyMail 등 뉴스 요약에서 강하고, T5는 다국어 지원과 태스크 프롬프팅 유연성이 높다.
  • 번역(Translation): T5는 "translate English to German: ..."처럼 텍스트-투-텍스트 프롬프트로 다양한 언어 쌍을 처리한다.
  • SFT 이전 단계: 사전학습된 T5 위에 SFT를 적용하면, 자기회귀 모델보다 적은 데이터로도 높은 성능을 달성하는 경우가 많다.

Footnotes

이전글

Corrective RAG (CRAG)

다음글

DPO (Direct Preference Optimization)

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

Transfer LearningPretraining

관련 게시글

2개

사용 서비스

10개

관련 게시글

AI 이미지 생성 도구 비교: Midjourney vs DALL-E 3 vs Stable Diffusion vs Flux

COMPARISON

AI 영상 생성 비교 2026: Runway vs Pika vs Kling vs Sora

COMPARISON

사용 서비스

Midjourney

HeyGen

Runway

관련 방법론

Autoregressive Pretraining

Contrastive Learning

Masked Language Modeling (MLM)