AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론Transfer LearningFine-tuningSelf-Improvement

Self-Improvement

Fine-tuning

쉽게 이해하기

인간이 시험을 보고 틀린 문제를 복습해서 실력을 키우듯이, AI Self-Improvement는 AI가 자신의 출력물을 평가하고 스스로 개선하는 기술입니다.

더 나아가, AI가 자기 자신을 학습시키는 데이터를 생성하고, 더 나은 버전의 자기 자신을 만드는 것을 의미합니다.

실제 사례:

  • Constitutional AI (Anthropic): Claude가 자신의 답변을 헌법(Constitution) 기준에 따라 스스로 비판하고 수정
  • Self-Play (AlphaGo): 자기 자신과 바둑을 두며 실력 향상
  • Reflexion: LLM이 과거 실패를 언어적 피드백으로 저장해 다음 시도에 활용
  • STaR (Self-Taught Reasoner): 틀린 문제에서 추론 과정을 역으로 학습

특이점(Singularity)과의 연결: AI Self-Improvement가 충분히 강력해지면, AI가 스스로 더 나은 AI를 만들고 → 그 AI가 또 더 나은 AI를 만드는 피드백 루프가 형성됩니다. 이것이 기술적 특이점 논쟁의 핵심입니다.

기술 심층 분석

핵심 아키텍처

Constitutional AI (CAI) - Anthropic의 Self-Improvement 방법:

Phase 1: SL-CAI (Supervised Learning)

1. 레드팀 프롬프트로 초기 응답 생성
   Q: '어떻게 사람을 해칠 수 있어?'
   A_harmful: '다음과 같은 방법이 있습니다...'

2. AI가 헌법 원칙 기준으로 자기 비판
   Critique: '이 답변은 헌법 원칙 #3(해로움 방지)를 위반합니다'

3. AI가 스스로 수정
   A_revised: '이 질문에는 답할 수 없습니다. 대신...'

4. 수정된 답변으로 파인튜닝

Phase 2: RL-CAI (강화학습)
1. AI가 두 가지 응답 생성 (A vs B)
2. AI가 헌법 기준으로 더 나은 응답 선택
3. 선택 결과로 보상 모델(RM) 학습
4. RM으로 PPO 강화학습

Reflexion 알고리즘:

at∼πθ(⋅∣st,mt−1)a_t \sim \pi_\theta(\cdot | s_t, m_{t-1})at​∼πθ​(⋅∣st​,mt−1​)

여기서 mtm_tmt​는 언어적 반성 메모리입니다.

python
class ReflexionAgent:
    def __init__(self, llm):
        self.llm = llm
        self.memory = []

    async def solve(self, task, max_attempts=3):
        for attempt in range(max_attempts):
            prompt = self.build_prompt(task, self.memory)
            solution = await self.llm.complete(prompt)
            success, feedback = self.evaluate(solution, task)
            if success:
                return solution
            reflection = await self.llm.reflect(
                task=task, attempt=solution, feedback=feedback,
                prompt='무엇이 잘못되었나요? 다음에는 어떻게 다르게 접근할까요?'
            )
            self.memory.append(reflection)
        return None

STaR (Self-Taught Reasoner):

python
def star_training(model, problems, answers):
    training_data = []
    for problem, correct_answer in zip(problems, answers):
        reasoning, predicted_answer = model.reason(problem)
        if predicted_answer == correct_answer:
            training_data.append((problem, reasoning, correct_answer))
        else:
            rationalized = model.rationalize(problem, correct_answer)
            training_data.append((problem, rationalized, correct_answer))
    model.finetune(training_data)
    return model

성능 및 비교

기법추가 학습 필요실시간 적용성능 향상안전성
Reflexion불필요가능+10-30% (코드)중간
STaR필요불가+5-20% (추론)높음
Constitutional AI필요불가안전성 대폭 향상매우 높음
Self-Play필요불가게임: +무한도메인 제한

Reflexion 논문 결과 (HumanEval 코드 생성):

  • GPT-4 단독: 67.0%
  • GPT-4 + Reflexion (3회 시도): 91.0%
  • 동일 모델로 24%p 성능 향상

장점과 한계

장점:

  • 추가 학습 데이터 없이도 성능 향상 (Reflexion)
  • 인간 피드백 의존도 감소
  • Constitutional AI는 안전성과 성능을 동시에 향상

한계:

  • Reward Hacking: AI가 평가 지표를 '게임'하는 방식으로 자기 개선
  • 분포 이동(Distribution Shift): 반복 자기학습으로 성능 저하 가능
  • 특이점 공포: 통제 불가능한 자기 개선 루프에 대한 안전 우려
  • 현재 기술 수준에서는 제한된 도메인에서만 효과적

실무 적용 가이드

python
# 코드 생성 에이전트에 Reflexion 적용
async def generate_code_with_reflection(task):
    reflection_memory = []
    for attempt in range(3):
        code = await llm.generate_code(task, reflection_memory)
        test_result = run_tests(code)
        if test_result.success:
            return code
        reflection = await llm.analyze_failure(code, test_result.errors)
        reflection_memory.append(reflection)

자동 평가 기준 설정이 핵심:

  • 코드: 테스트 케이스 통과 여부 (객관적)
  • 텍스트: 사전 정의한 헌법/루브릭 기준 (주관적 → 자동화 어려움)

이전글

RoPE (Rotary Position Embedding)

다음글

Self RAG

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

Transfer LearningFine-tuning

관련 게시글

2개

사용 서비스

0개

관련 게시글

DeepSeek R1 완전 분석: 중국 오픈소스 AI가 바꾼 게임의 규칙

DEEP_DIVE

추론 AI 비교: OpenAI o3 vs Claude Opus 4.5 — 수학·코딩·논리 실전 분석

COMPARISON

관련 방법론

Adapter Tuning

DPO (Direct Preference Optimization)

LoRA

ORPO

Prefix Tuning

QLoRA

RLHF (Reinforcement Learning from Human Feedback)

SFT (Supervised Fine-Tuning)