Question 1

SFT (Supervised Fine-Tuning)이란 무엇인가요?

Accepted Answer

지도 미세조정(SFT)은 AI에게 "이런 질문에는 이렇게 답해야 해"라고 정답 예시를 보여주며 가르치는 방법입니다. 학교에서 선생님이 문제와 모범 답안을 함께 알려주는 것과 똑같습니다.

예를 들어, "서울의 날씨 알려줘"라는 질문에 "오늘 서울은 맑고 기온은 15도입니다"라는 좋은 답변 예시를 수천, 수만 개 준비합니다. AI는 이 예시들을 반복 학습하면서, 질문을 받았을 때 어떤 식으로 대답해야 하는지 패턴을 익힙니다.

이것은 자기회귀 사전학습과 중요한 차이가 있습니다. 사전학습에서 AI는 "텍스트를 그럴싸하게 계속 이어 쓰는 법"을 배웁니다. 하지만 그것만으로는 좋은 대화 상대가 되지 않습니다. "오늘 날씨는?"이라는 질문에 "오늘 날씨는 매우 중요한 주제입니다. 기상에 관한 역사를 살펴보면..." 같은 엉뚱한 답변도 나올 수 있습니다. SFT는 이 AI에게 "질문에는 짧고 명확하게 답하는 것이 좋은 방식"임을 가르칩니다.

ChatGPT가 만들어진 과정이 대표적인 예입니다.

Question 2

SFT (Supervised Fine-Tuning)의 기술적 원리는 무엇인가요?

Accepted Answer

📚 선수학습: Fine-tuning 개념을 먼저 숙지하세요. SFT 이후 단계로 DPO, RLHF가 이어집니다.

핵심 손실 함수: 응답 마스킹

SFT와 일반 언어 모델 파인튜닝의 결정적 차이는 프롬프트 부분의 손실을 마스킹한다는 점이다:

여기서 는 인스트럭션(프롬프트), 는 인간이 작성한 응답이다. 인덱스 가 부터 시작하므로, 프롬프트 토큰에는 그래디언트가 계산되지 않는다. 이 설계의 이유:

1. 프롬프트를 잘 쓰는 능력을 학습할 필요가 없음
2. 응답 생성 품질에만 최적화 집중
3. 프롬프트 형식을 변경해도 학습이 안정적

데이터 형식: Instruction-Response 쌍

SFT 데이터는  3-tuple 또는  2-tuple 형식이다:

```[INST]#

파라미터	권장 범위	주의사항
Learning Rate	$1 \times 10^{-5}$ ~ $3 \times 10^{-5}$	너무 크면 파국적 망각
Epochs	2~5	과적합 위험 시 Early Stopping
Batch Size	32~128 (gradient accumulation 활용)	작으면 학습 불안정
Warmup	전체 스텝의 3~5%	Cosine decay 스케줄 권장

SFT (Supervised Fine-Tuning)

쉽게 이해하기

기술 심층 분석

핵심 손실 함수: 응답 마스킹

데이터 형식: Instruction-Response 쌍

Instruction:`,

데이터 품질 > 데이터 양

하이퍼파라미터 가이드

효율적 SFT: LoRA/QLoRA 결합

SFT 이후의 정렬 파이프라인

Footnotes

댓글

관련 방법론