비교2026년 3월 28일
2025 오픈소스 LLM 완전 지형도: Llama, Mistral, Qwen, Gemma 비교
## 왜 오픈소스 LLM인가?
2023년까지 "오픈소스 LLM = 클로즈드 모델의 열등한 대안"이었습니다. 2025년에는 달라졌습니다.
```mermaid
flowchart TD
OS[오픈소스 LLM<br/>장점] --> Cost[비용<br/>API 비용 0원]
OS --> Privacy[프라이버시<br/>데이터 외부 전송 없음]
OS --> Control[제어<br/>파인튜닝, 양자화 자유]
OS --> License[라이선스<br/>상업적 사용 가능]
Closed[클로즈드 LLM<br/>장점] --> Quality[품질<br/>최상위 성능]
Closed --> Ease[편의<br/>API 바로 사용]
Closed --> Update[최신성<br/>지속 업데이트]
```
**2025년 격차**: 오픈소스 상위 모델(Llama 3.3 70B, Qwen 2.5 72B)은 GPT-4o의 80~90% 수준에 도달했습니다.
---
## 주요 오픈소스 LLM 지형도
### Meta: Llama 시리즈
```
Llama 3.1 (2024.07)
├── 8B — 로컬 실행 최적, 코딩 강점
├── 70B — 오픈소스 중 가장 검증된 선택
└── 405B — 오픈소스 최강이었으나 이제 경쟁자 많음
Llama 3.2 (2024.09)
├── 1B, 3B — 모바일/엣지 특화
└── 11B, 90B Vision — 멀티모달
Llama 3.3 (2024.12)
└── 70B — Llama 3.1 405B 수준 성능, 70B 크기
```
**특징:**
- Meta AI 계열사 지원으로 생태계가 가장 성숙
- HuggingFace, Ollama, vLLM 등 모든 도구에서 1순위 지원
- Llama 라이선스: 월 사용자 7억 명 이상이면 별도 협의 필요
```python
# Ollama로 Llama 3.3 70B 실행
# ollama pull llama3.3
import ollama
response = ollama.chat(model="llama3.3", messages=[
{"role": "user", "content": "Python으로 퀵소트 구현해줘"}
])
print(response["message"]["content"])
```
---
### Mistral AI: 유럽의 강자
```
Mistral 7B v0.1 (2023.09) — 오픈소스 LLM 혁신의 시작
Mixtral 8x7B (2023.12) — MoE로 성능 대폭 향상
Mistral Large (2024) — GPT-4 경쟁 모델
Mistral Small 3.2 (2025) — 24B, 로컬 최적화
```
**특징:**
- 유럽 규제(GDPR) 준수에 유리
- 코딩 특화 Codestral, 멀티모달 Pixtral 출시
- Apache 2.0 라이선스 (완전 자유)
```bash
# Mistral Small 3.2 로컬 실행 (24GB VRAM 권장)
ollama pull mistral-small3.2
ollama run mistral-small3.2
```
---
### Alibaba: Qwen 시리즈
한국어 성능이 가장 강한 오픈소스 모델입니다.
```
Qwen 2.5 (2024.09)
├── 0.5B ~ 72B 라인업
├── Qwen2.5-Coder — 코딩 특화
└── Qwen2.5-Math — 수학 특화
Qwen3 (2025)
├── 0.6B ~ 235B
├── Thinking 버전 — 추론 특화
└── VL 버전 — 비전-언어
```
**특징:**
- 중국어 + 한국어 + 일본어 강세 (아시아 언어 최강)
- 다양한 크기 옵션 (0.5B ~ 235B)
- Apache 2.0 라이선스
```python
# Qwen2.5 14B 한국어 테스트
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen2.5-14B-Instruct",
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-14B-Instruct")
messages = [{"role": "user", "content": "한국의 AI 규제 현황을 설명해줘"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=500)
print(tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
```
---
### Google: Gemma 시리즈
```
Gemma 2 (2024.06)
├── 2B, 9B, 27B
└── 27B — 오픈소스 중 영어 최강급
Gemma 3 (2025)
├── 4B, 12B, 27B
└── 멀티모달(이미지 이해) 통합
```
**특징:**
- Google의 Gemini 훈련 기술을 오픈소스에 적용
- TPU 최적화 (Google Cloud에서 빠름)
- Gemma 라이선스 (상업적 사용 허용)
---
### DeepSeek 계열
중국 스타트업 DeepSeek이 2024~2025년 오픈소스 생태계를 흔들었습니다:
```
DeepSeek V3 (2024.12) — 671B MoE, GPT-4o와 동등
DeepSeek R1 (2025.01) — o1 수준 추론, MIT 라이선스
R1 Distill 시리즈 — 1.5B ~ 70B 경량화 버전
```
---
## 크기별 추천 모델 (2025년 기준)
| 파라미터 | 추천 모델 | VRAM 필요 | 용도 |
|----------|-----------|-----------|------|
| ~3B | Qwen3 4B (free) | 4GB | 모바일, 엣지 |
| ~7B | Qwen2.5 7B, Mistral 7B | 8GB | 가벼운 태스크 |
| ~14B | Qwen2.5 14B | 12GB | 균형잡힌 선택 |
| ~30B | Qwen3 32B | 24GB | 고품질 로컬 |
| ~70B | Llama 3.3 70B | 48GB | 최고 오픈소스 |
| 70B+ | DeepSeek R1 Distill 70B | 48GB | 추론 특화 |
---
## 모델 선택 가이드
```mermaid
flowchart TD
Start[오픈소스 모델 선택] --> Lang{주요 언어?}
Lang -- 한국어 --> Qwen[Qwen2.5 or Qwen3]
Lang -- 영어 --> Task{태스크?}
Task -- 코딩 --> Code[Qwen2.5-Coder<br/>or Mistral Codestral]
Task -- 추론/수학 --> Reason[DeepSeek R1 Distill<br/>or Qwen3 Thinking]
Task -- 범용 --> Size{VRAM?}
Size -- 8GB 이하 --> Small[Mistral 7B<br/>or Qwen2.5 7B]
Size -- 24GB --> Mid[Qwen2.5 14B<br/>or Mistral Small 3.2]
Size -- 48GB 이상 --> Large[Llama 3.3 70B]
```
---
## 라이선스 비교
| 모델 | 라이선스 | 상업 사용 | 수정/배포 |
|------|----------|-----------|-----------|
| Llama 3 | Llama 3 Community | ✓ (7억 MAU 이하) | ✓ |
| Mistral | Apache 2.0 | ✓ 무제한 | ✓ |
| Qwen | Qwen License | ✓ (조건부) | ✓ |
| Gemma | Gemma ToU | ✓ | ✓ |
| DeepSeek R1 | MIT | ✓ 무제한 | ✓ |
**가장 자유로운 라이선스**: Mistral(Apache 2.0), DeepSeek R1(MIT)
---
## 결론
2025년 오픈소스 LLM은 실용적인 선택지가 됐습니다.
**추천 시작점:**
1. **한국어 서비스**: `Qwen2.5-14B` (Ollama로 로컬 실행)
2. **코딩 어시스턴트**: `Qwen2.5-Coder-32B`
3. **추론 태스크**: `DeepSeek-R1-Distill-Qwen-32B`
4. **범용 최강**: `Llama-3.3-70B` (48GB VRAM 필요)
클라우드 API 비용이 부담되거나 데이터 프라이버시가 중요한 프로젝트라면 오픈소스 LLM을 진지하게 검토할 시점입니다.