DeepSeek R1이 왜 충격이었나?

2025년 1월, DeepSeek이 R1 모델을 공개하면서 AI 업계에 충격을 던졌습니다. 이유는 단순합니다:

OpenAI o1 수준의 추론 성능
훈련 비용 약 $6백만 (OpenAI GPT-4 추정치의 1~5% 수준)
MIT 라이선스, 완전 오픈소스

엔비디아 주가가 17% 급락했고, "미국 AI 독점 시대가 끝났다"는 말이 나왔습니다.

DeepSeek R1이 뭘 잘하는가

mermaid


flowchart LR
    R1[DeepSeek R1] --> Math[수학 추론<br/>AMC/AIME 벤치마크<br/>72.6%]
    R1 --> Code[코딩<br/>CodeForces 96.3% 백분위]
    R1 --> Logic[논리 추론<br/>LiveCodeBench 65.9%]
    R1 --> Science[과학 문제<br/>GPQA Diamond 71.5%]

ai.zip 리더보드 기준으로 DeepSeek R1 계열은 상위권에 위치합니다. 특히 수학·코딩·과학 분야에서 OpenAI o1과 거의 동등하거나 일부 벤치마크에서 앞섭니다.

기술 혁신: 왜 이렇게 저렴하게 만들 수 있었나

1. 순수 강화학습 훈련

기존 방법론(GPT-4, Claude 등)은 대규모 SFT(Supervised Fine-Tuning) 데이터가 필요합니다. R1은 **GRPO(Group Relative Policy Optimization)**라는 강화학습만으로 추론 능력을 달성했습니다.

기존: 대규모 사람 라벨링 데이터 → SFT → RLHF → 추론 모델
R1:  기본 모델 → 순수 강화학습 → 추론 모델

2. Mixture of Experts (MoE) 아키텍처

R1은 671B 파라미터이지만 실제로는 37B만 활성화됩니다. 입력에 따라 필요한 "전문가(expert)" 레이어만 선택적으로 실행합니다.

항목	DeepSeek R1	GPT-4o (추정)
총 파라미터	671B	~200B
활성 파라미터	37B	~200B
컨텍스트	128K	128K
훈련 비용	~$6M	~$100M+

3. 효율적인 추론 과정 (Chain-of-Thought)

R1은 답변 전에 <think>...</think> 태그 안에서 단계별 추론을 수행합니다. 이 "생각 과정"이 복잡한 문제 해결 능력의 핵심입니다.

실제 사용: API 연결

DeepSeek API는 OpenAI와 완전히 호환됩니다:

python

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

# R1 추론 모델
response = client.chat.completions.create(
    model="deepseek-reasoner",  # R1
    messages=[
        {"role": "user", "content": "다음 수열의 패턴을 찾아 100번째 항을 구하세요: 1, 1, 2, 3, 5, 8, 13..."}
    ]
)

# 추론 과정과 최종 답변 분리
reasoning = response.choices[0].message.reasoning_content  # <think> 내용
answer = response.choices[0].message.content  # 최종 답변
print(f"추론: {reasoning[:200]}...")
print(f"답변: {answer}")

가격 (2025년 3월 기준):

deepseek-chat (V3): 입력 $0.27/1M, 출력$ 1.10/1M
deepseek-reasoner (R1): 입력 $0.55/1M, 출력$ 2.19/1M

GPT-4o ( $2.50/$ 10.00) 대비 4~5배 저렴합니다.

오픈소스로 로컬 실행

R1은 완전 오픈소스라 Ollama로 로컬 실행도 가능합니다:

bash

# Distill 버전 (소형화된 버전)
ollama run deepseek-r1:7b   # ~5GB, 가벼운 추론
ollama run deepseek-r1:14b  # ~9GB, 균형
ollama run deepseek-r1:32b  # ~20GB, 고성능
ollama run deepseek-r1:70b  # ~42GB, 최고 성능 (로컬)

Distill 버전이란? 671B R1의 추론 능력을 Llama/Qwen 기반 소형 모델에 증류(distillation)한 것입니다. 671B 원본보다 가볍지만 추론 능력을 상당 부분 유지합니다.

DeepSeek R1 vs OpenAI o1: 실전 비교

태스크	DeepSeek R1	OpenAI o1
AIME 2024 (수학)	79.8%	74.4%
Codeforces (코딩)	96.3% 백분위	96.6% 백분위
GPQA Diamond (과학)	71.5%	77.3%
한국어 이해	★★★☆☆	★★★★☆
API 가격	★★★★★	★★☆☆☆
오픈소스	✓	✗

결론: 수학·코딩에서는 사실상 동급. 한국어는 o1이 약간 우세. 비용은 R1이 압도적.

한계와 주의사항

1. 검열 이슈 중국 기업이 만든 모델이라 특정 정치적 주제에 대한 답변이 제한됩니다. 기업 서비스에 사용 시 이 점을 인지해야 합니다.

2. 한국어 품질 영어·중국어 대비 한국어는 약간 부족합니다. 순수 한국어 서비스보다는 기술적 추론 태스크(코딩, 수학, 데이터 분석)에 더 적합합니다.

3. 긴 추론 비용 R1은 답변 전에 긴 추론 과정을 거칩니다. 간단한 질문에도 수천 토큰의 추론이 발생해 비용이 예상보다 높을 수 있습니다.

어떤 상황에 DeepSeek R1을 쓸까?

추천:

수학/알고리즘 문제 해결
복잡한 코드 디버깅
과학 계산, 데이터 분석
비용 절감이 중요한 배치 처리

비추천:

한국어 콘텐츠 생성 (Claude/GPT가 유리)
빠른 응답이 필요한 실시간 서비스 (추론 과정이 길어 레이턴시 높음)
정치적으로 민감한 주제

DeepSeek R1은 "AI는 막대한 자원이 있는 미국 빅테크만 만들 수 있다"는 가정을 깼습니다. ai.zip 리더보드에서 최신 벤치마크 점수를 확인하세요.

DeepSeek R1 완전 분석: 중국 오픈소스 AI가 바꾼 게임의 규칙

핵심 포인트