2
025년 주요 LLM API 가격표
(2025년 3월 기준, 1M 토큰 = 약 75만 한국어 글자)
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 컨텍스트 | 특징 |
|---|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 128K | OpenAI 주력 |
| GPT-4o mini | $0.15 | $0.60 | 128K | 경량, 빠름 |
| GPT-o3 | $10.00 | $40.00 | 200K | 고추론 |
| Claude Opus 4.5 | $15.00 | $75.00 | 200K | 최고 성능 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | 균형형 |
| Claude Haiku 4.5 | $0.80 | $4.00 | 200K | 경량, 저비용 |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M | 대용량 |
| Gemini 2.5 Flash | $0.075 | $0.30 | 1M | 최저비용 |
| DeepSeek V3.1 | $0.27 | $1.10 | 128K | 가성비 최상 |
실제 월 사용료 시뮬레이션
시나리오 A: 개인 개발자 (소규모 챗봇)
- 일 1,000회 API 호출, 평균 1,000토큰 입력 + 500토큰 출력
- 월 기준: 입력 30M 토큰, 출력 15M 토큰
| 모델 | 월 비용 |
|---|---|
| Gemini 2.5 Flash | $6.75 |
| GPT-4o mini | $10.50 |
| Claude Haiku 4.5 | $84 |
| GPT-4o | $225 |
| Claude Sonnet 4.6 | $315 |
→ 소규모 앱이라면 Gemini Flash 압도적 우위
시나리오 B: 스타트업 (문서 분석 서비스)
- 일 100개 문서 처리, 문서당 평균 10,000토큰 입력 + 2,000토큰 출력
- 월 기준: 입력 30M 토큰, 출력 6M 토큰
| 모델 | 월 비용 |
|---|---|
| Gemini 2.5 Flash | $4.05 |
| DeepSeek V3.1 | $14.7 |
| GPT-4o mini | $8.10 |
| Claude Haiku 4.5 | $48 |
| Claude Sonnet 4.6 | $180 |
시나리오 C: 기업 (고품질 추론 필요)
- 일 1,000회, 복잡한 분석 태스크. 평균 5,000토큰 입력 + 3,000토큰 출력
- 월 기준: 입력 150M 토큰, 출력 90M 토큰
| 모델 | 월 비용 |
|---|---|
| Claude Opus 4.5 | $9,000 |
| GPT-o3 | $5,100 |
| Claude Sonnet 4.6 | $1,800 |
| GPT-4o | $1,275 |
→ 고품질 추론이 필요하면 GPT-o3 또는 Claude Sonnet이 Opus 대비 훨씬 합리적
비용 절감 전략
1. 모델 라우팅 (가장 효과적)
모든 요청을 같은 모델로 보내지 말고, 복잡도에 따라 라우팅합니다.
def route_request(query: str) -> str:
if is_simple_query(query): # 간단한 분류, 추출
return "gemini-2.5-flash"
elif is_medium_query(query): # 일반 대화, 요약
return "claude-haiku-4-5"
else: # 복잡한 추론, 코드
return "claude-sonnet-4-6"
2. 캐싱
동일하거나 유사한 요청은 결과를 캐시합니다. Anthropic과 OpenAI 모두 Prompt Caching 기능을 제공해 반복되는 시스템 프롬프트 비용을 최대 90% 줄일 수 있습니다.
3. 청크 최적화
불필요하게 긴 컨텍스트를 줄이는 것만으로 비용을 50% 이상 줄일 수 있습니다.
4. 배치 처리
OpenAI Batch API, Anthropic Batch API를 사용하면 동일 비용으로 2배 처리량, 또는 비용 50% 절감이 가능합니다.
한국 원화 환산 (참고)
$1 ≈ ₩1,350 기준:
| 예산 | 가능한 것 (Gemini Flash 기준) |
|---|---|
| 월 1만원 ($7.4) | 약 10만회 API 호출 |
| 월 5만원 ($37) | 약 50만회 API 호출 |
| 월 10만원 ($74) | 약 100만회 API 호출 |
결론
2025년 LLM API 비용의 핵심은 모델 선택과 라우팅에 있습니다.
- 비용 최우선 → Gemini 2.5 Flash 또는 DeepSeek V3.1
- 품질 균형 → Claude Sonnet 4.6 또는 GPT-4o
- 최고 성능 → Claude Opus 4.5 또는 GPT-o3 (비용 대비 효과 신중히 검토)
- 한국어 대용량 → BGE-M3 임베딩 + Gemini Flash 조합이 가성비 최상
ai.zip 리더보드에서 각 모델의 벤치마크 점수와 가격을 실시간으로 비교하세요.





