DeepSeek R1이 왜 충격이었나?
2025년 1월, DeepSeek이 R1 모델을 공개하면서 AI 업계에 충격을 던졌습니다. 이유는 단순합니다:
- OpenAI o1 수준의 추론 성능
- 훈련 비용 약 $6백만 (OpenAI GPT-4 추정치의 1~5% 수준)
- MIT 라이선스, 완전 오픈소스
엔비디아 주가가 17% 급락했고, "미국 AI 독점 시대가 끝났다"는 말이 나왔습니다.
DeepSeek R1이 뭘 잘하는가
flowchart LR R1[DeepSeek R1] --> Math[수학 추론<br/>AMC/AIME 벤치마크<br/>72.6%] R1 --> Code[코딩<br/>CodeForces 96.3% 백분위] R1 --> Logic[논리 추론<br/>LiveCodeBench 65.9%] R1 --> Science[과학 문제<br/>GPQA Diamond 71.5%]
ai.zip 리더보드 기준으로 DeepSeek R1 계열은 상위권에 위치합니다. 특히 수학·코딩·과학 분야에서 OpenAI o1과 거의 동등하거나 일부 벤치마크에서 앞섭니다.
기술 혁신: 왜 이렇게 저렴하게 만들 수 있었나
1. 순수 강화학습 훈련
기존 방법론(GPT-4, Claude 등)은 대규모 SFT(Supervised Fine-Tuning) 데이터가 필요합니다. R1은 **GRPO(Group Relative Policy Optimization)**라는 강화학습만으로 추론 능력을 달성했습니다.
기존: 대규모 사람 라벨링 데이터 → SFT → RLHF → 추론 모델
R1: 기본 모델 → 순수 강화학습 → 추론 모델
2. Mixture of Experts (MoE) 아키텍처
R1은 671B 파라미터이지만 실제로는 37B만 활성화됩니다. 입력에 따라 필요한 "전문가(expert)" 레이어만 선택적으로 실행합니다.
| 항목 | DeepSeek R1 | GPT-4o (추정) |
|---|---|---|
| 총 파라미터 | 671B | ~200B |
| 활성 파라미터 | 37B | ~200B |
| 컨텍스트 | 128K | 128K |
| 훈련 비용 | ~$6M | ~$100M+ |
3. 효율적인 추론 과정 (Chain-of-Thought)
R1은 답변 전에 <think>...</think> 태그 안에서 단계별 추론을 수행합니다. 이 "생각 과정"이 복잡한 문제 해결 능력의 핵심입니다.
실제 사용: API 연결
DeepSeek API는 OpenAI와 완전히 호환됩니다:
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
# R1 추론 모델
response = client.chat.completions.create(
model="deepseek-reasoner", # R1
messages=[
{"role": "user", "content": "다음 수열의 패턴을 찾아 100번째 항을 구하세요: 1, 1, 2, 3, 5, 8, 13..."}
]
)
# 추론 과정과 최종 답변 분리
reasoning = response.choices[0].message.reasoning_content # <think> 내용
answer = response.choices[0].message.content # 최종 답변
print(f"추론: {reasoning[:200]}...")
print(f"답변: {answer}")
가격 (2025년 3월 기준):
- deepseek-chat (V3): 입력 1.10/1M
- deepseek-reasoner (R1): 입력 2.19/1M
GPT-4o (10.00) 대비 4~5배 저렴합니다.
오픈소스로 로컬 실행
R1은 완전 오픈소스라 Ollama로 로컬 실행도 가능합니다:
# Distill 버전 (소형화된 버전)
ollama run deepseek-r1:7b # ~5GB, 가벼운 추론
ollama run deepseek-r1:14b # ~9GB, 균형
ollama run deepseek-r1:32b # ~20GB, 고성능
ollama run deepseek-r1:70b # ~42GB, 최고 성능 (로컬)
Distill 버전이란? 671B R1의 추론 능력을 Llama/Qwen 기반 소형 모델에 증류(distillation)한 것입니다. 671B 원본보다 가볍지만 추론 능력을 상당 부분 유지합니다.
DeepSeek R1 vs OpenAI o1: 실전 비교
| 태스크 | DeepSeek R1 | OpenAI o1 |
|---|---|---|
| AIME 2024 (수학) | 79.8% | 74.4% |
| Codeforces (코딩) | 96.3% 백분위 | 96.6% 백분위 |
| GPQA Diamond (과학) | 71.5% | 77.3% |
| 한국어 이해 | ★★★☆☆ | ★★★★☆ |
| API 가격 | ★★★★★ | ★★☆☆☆ |
| 오픈소스 | ✓ | ✗ |
결론: 수학·코딩에서는 사실상 동급. 한국어는 o1이 약간 우세. 비용은 R1이 압도적.
한계와 주의사항
1. 검열 이슈 중국 기업이 만든 모델이라 특정 정치적 주제에 대한 답변이 제한됩니다. 기업 서비스에 사용 시 이 점을 인지해야 합니다.
2. 한국어 품질 영어·중국어 대비 한국어는 약간 부족합니다. 순수 한국어 서비스보다는 기술적 추론 태스크(코딩, 수학, 데이터 분석)에 더 적합합니다.
3. 긴 추론 비용 R1은 답변 전에 긴 추론 과정을 거칩니다. 간단한 질문에도 수천 토큰의 추론이 발생해 비용이 예상보다 높을 수 있습니다.
어떤 상황에 DeepSeek R1을 쓸까?
추천:
- 수학/알고리즘 문제 해결
- 복잡한 코드 디버깅
- 과학 계산, 데이터 분석
- 비용 절감이 중요한 배치 처리
비추천:
- 한국어 콘텐츠 생성 (Claude/GPT가 유리)
- 빠른 응답이 필요한 실시간 서비스 (추론 과정이 길어 레이턴시 높음)
- 정치적으로 민감한 주제
DeepSeek R1은 "AI는 막대한 자원이 있는 미국 빅테크만 만들 수 있다"는 가정을 깼습니다. ai.zip 리더보드에서 최신 벤치마크 점수를 확인하세요.
