파인튜닝은 이미 만들어진 AI를 특정 분야의 전문가로 다시 훈련시키는 것입니다. 비유하자면, 의대를 졸업한 의사가 심장 전문의가 되려면 심장 관련 수련을 추가로 받아야 합니다. AI도 마찬가지입니다. 세상의 수많은 글을 읽고 배운 AI가 있는데, 이걸 법률 전문가로 만들고 싶다면 법률 문서를 집중적으로 더 공부시키는 겁니다. 처음부터 새로 만드는 것이 아니라, 이미 배운 지식 위에 전문 지식을 얹는 것이라 시간과 비용이 훨씬 적게 듭니다.
실제로 OpenAI는 기업 고객들이 GPT-4를 자기 회사 업무에 맞게 파인튜닝할 수 있는 서비스를 제공합니다. 삼성전자도 갤럭시 스마트폰에 들어가는 AI를 한국어와 삼성 기기에 특화되도록 파인튜닝해서 탑재했습니다. Bloomberg는 금융 데이터를 집중 학습시켜 금융 전문 AI인 BloombergGPT를 만들었습니다.
이것이 오늘날 수많은 회사가 AI를 자기 사업에 활용하는 가장 기본적인 방법입니다.
**파인튜닝(Fine-tuning)**은 대규모 코퍼스1로 사전학습된 언어 모델의 전체 파라미터를 특정 다운스트림 태스크2에 맞게 재조정하는 전이학습(Transfer Learning) 기법이다.
파인튜닝의 목적함수는 조건부 언어 모델링 손실로 정의된다:
여기서 는 입력 시퀀스, 는 시점 에서의 목표 토큰이다. 모델은 교차 엔트로피(Cross-Entropy) 기반으로 전체 파라미터 를 업데이트한다:
가장 중요한 하이퍼파라미터는 **학습률(Learning Rate)**이다. 사전학습 대비 배 작은 값( ~ )을 사용해야 하며, 학습률이 너무 크면 파국적 망각(Catastrophic Forgetting)3이 발생한다.
차별적 학습률(Discriminative Learning Rate) 기법에서는 레이어별로 다른 학습률을 적용한다:
여기서 은 레이어 인덱스, 은 총 레이어 수, 은 감쇠 계수이다.
전체 파인튜닝은 파라미터당 약 12바이트(AdamW 기준: fp32 그래디언트 4B + 1차 모멘트 4B + 2차 모멘트 4B)의 추가 메모리가 필요하다. 70B 모델의 경우 옵티마이저 상태만 ~840GB로, 분산 학습이 필수적이다. 이러한 비용 문제를 해결하기 위해 LoRA, QLoRA, Adapter Tuning 같은 파라미터 효율적 기법들이 등장했다.
| 데이터 규모 | 추천 방법 |
|---|---|
| 수천 건 이하 | LoRA, Adapter |
| 수만~수십만 건 | 전체 파인튜닝 |
| 행동 정렬 필요 | SFT → DPO |
ORPO
서비스 2 · 게시글 5
Amazon Bedrock