AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델DeepSeek: R1

R1

DeepSeekLLM자연어 처리컴퓨터 비전오디오 처리64K 토큰
2025년 1월 20일MIT License

DeepSeek R1이란

DeepSeek R1은 중국 AI 스타트업 DeepSeek이 2025년 1월 20일에 공개한 추론 특화 대형 언어 모델이다. 671B 파라미터의 Mixture-of-Experts(MoE) 아키텍처를 사용하며, 추론 시에는 37B만 활성화된다. 가장 주목받은 점은 학습 방식이다. 기존 모델들이 의존하던 대규모 지도 학습(SFT) 대신, 강화학습(GRPO)만으로 추론 능력을 끌어올렸다. MIT 라이선스로 전체 가중치를 공개했고, 출시 일주일 만에 미국 iOS 앱스토어에서 ChatGPT를 제치고 1위를 차지하며 업계에 충격을 줬다. 학습 비용이 약 6M으로GPT−4(6M으로 GPT-4(6M으로GPT−4(100M 추정)의 6% 수준이라는 점이 알려지면서, Nvidia 주가가 하루 18% 빠지기도 했다.

주요 특징

R1의 가장 핵심적인 차별점은 강화학습 기반 추론이다. 대부분의 추론 모델이 인간이 만든 고품질 데이터로 SFT를 먼저 하고 나서 RL로 보정하는 구조인데, R1은 SFT를 거치지 않고 GRPO(Group Relative Policy Optimization) 강화학습만으로 추론 패턴을 자체 발견했다. 정답 여부만 보상 신호로 주고, 추론 과정 자체는 모델이 알아서 만들게 했다는 것이 논문의 핵심 주장이다 (출처: 공식 논문 arxiv 2501.12948).

두 번째는 완전 공개 정책이다. 671B 풀사이즈 모델 전체를 MIT 라이선스로 공개했다. 상업적 사용, 증류, 파인튜닝이 모두 자유롭다. 여기에 Qwen 기반(1.5B/7B/14B/32B)과 Llama 기반(8B/70B) 증류 모델 6종도 함께 배포했다. 특히 14B 증류 모델이 커뮤니티에서 인기가 높은데, 개인 PC에서 돌릴 수 있으면서도 추론 성능이 상당히 나오기 때문이다.

세 번째는 사고 과정의 투명성이다. OpenAI o1이 추론 과정(Chain-of-Thought)을 숨기는 것과 달리, R1은 전체 사고 과정을 그대로 노출한다. 사용자가 모델이 어떤 경로로 답에 도달했는지 직접 확인할 수 있다. 이 투명성 덕분에 교육용이나 디버깅 용도로 선호하는 사용자가 많다.

실사용자 반응을 보면, "수학과 코딩에서는 o1과 구분이 안 된다"는 긍정 평가가 지배적이다. Reddit에서는 "ChatGPT Plus 구독을 해지하고 DeepSeek으로 갈아탔다"는 후기가 다수 올라왔다. 반면 긴 대화 세션에서 "탈선"하거나 "완전히 엉뚱한 말"을 하는 경우가 보고되며, 일상 대화나 창작 글쓰기에서는 ChatGPT나 Claude에 비해 자연스럽지 못하다는 지적이 반복된다 (출처: reddit, toksta.com).

DeepSeek R1 핵심 특징

할 수 있는 것

수학과 과학 추론이 R1의 가장 강한 영역이다. AIME 2024에서 79.8%, MATH-500에서 97.3%를 달성했으며, Codeforces에서는 2029 Elo(상위 96.3%)를 기록했다 (출처: 공식 논문). 실사용자들도 "수학 문제 풀이에서는 o1과 체감 차이가 없다"고 평가한다.

코딩에서도 강한 면모를 보인다. LiveCodeBench 65.9%, SWE-bench Verified 49.2%를 기록했으며, Codeforces 기준으로 o1(96.6%)과 거의 동일한 수준이다. Reddit과 개발자 커뮤니티에서 "코딩 챌린지를 한 번에 해결해줬다"는 후기가 올라오는 한편, "긴 코딩 세션에서 맥락을 놓치고 탈선하는 경우가 있다"는 경고도 함께 나온다 (출처: reddit, getbind.co).

반면 일상 대화와 창작 글쓰기는 약점이다. "대화가 끊기거나 중간에 뜬금없는 말이 섞인다", "역할극이나 창작에서 완전히 깨지는 경우가 있다"는 후기가 다수 있다. 일반적인 AI 어시스턴트 용도로는 ChatGPT나 Claude가 더 안정적이라는 것이 커뮤니티의 중론이다 (출처: neuriflux.com, toksta.com).

한국어의 경우, 풀사이즈 모델(671B)은 한국어로 답변이 나오지만 내부 사고 과정(think)은 영어나 중국어로 진행되는 경향이 있다. 클리앙 등 한국 커뮤니티에서는 "추론 능력은 오픈소스 최강인데 한국어 능력은 아직 별로"라는 평가가 대세다. 증류 모델(70B 이하)에서는 한국어만 사용하라고 지시해도 외국어가 섞여 나오는 문제가 보고된다 (출처: clien.net, wikidocs.net).

성능

벤치마크DeepSeek R1OpenAI o1비고
AIME 202479.8%79.2%수학 경시대회 (출처: 공식 논문)
MATH-50097.3%96.4%수학 추론 (출처: 공식 논문)
GPQA Diamond71.5%75.7%대학원 과학 (출처: 공식 논문)
MMLU-PRO84.0%83.0%전문 지식 (출처: 공식 논문)
IFEval83.3%-명령어 따르기 (출처: 공식 논문)
Codeforces96.3%ile96.6%ile경쟁 코딩 (출처: 공식 논문)
LiveCodeBench65.9%-코드 생성 (출처: 공식 논문)
SWE-bench Verified49.2%48.9%실무 코딩 (출처: 공식 논문)
AlpacaEval 2.087.6%-일반 대화 (출처: 공식 논문)

o1과 비교하면 수학에서는 대등하거나 약간 우위(AIME +0.6p, MATH +0.9p), 과학 추론에서는 열세(GPQA -4.2p)인 구도다. 코딩은 거의 동일한 수준. 하지만 API 비용이 o1의 약 3.6% 수준이라 가성비에서는 압도적이다.

벤치마크와 실사용 체감의 괴리도 있다. 벤치마크 점수는 o1에 필적하지만, 실제 사용에서는 레이턴시가 문제다. 추론 모델 특성상 긴 사고 과정을 거치기 때문에 첫 응답까지 시간이 걸린다. 또한 "벤치마크에서는 잘 풀지만 실무 코딩에서는 맥락 유지가 불안정하다"는 지적도 있다. 중국 서버 의존도 때문에 피크 시간대(베이징 기준 오전-오후)에 "Server is busy" 오류가 빈번하다는 것도 실사용자들의 공통 불만이다 (출처: neuriflux.com, designforonline.com).

DeepSeek R1 벤치마크 비교

사용 방법

웹에서는 chat.deepseek.com에서 무료로 사용 가능하다. 회원 가입 후 DeepThink(R1) 모드를 선택하면 된다. 별도 구독이나 사용량 제한 없이 무료로 제공되지만, 피크 시간대에는 서버 혼잡으로 대기가 발생할 수 있다. 모바일 앱도 iOS/Android 모두 제공된다.

API 연동의 경우, platform.deepseek.com에서 API 키를 발급받아 사용한다. OpenAI SDK 호환이므로 기존 코드에서 base_url을 https://api.deepseek.com으로, model을 deepseek-reasoner로 변경하면 된다. 신규 가입 시 무료 크레딧이 제공된다.

OpenRouter, DeepInfra, Together.ai, Fireworks 등 서드파티 제공자를 통해서도 API 접근이 가능하며, 제공자별로 가격과 속도가 다르다. 로컬 구동을 원한다면 HuggingFace에서 가중치를 다운로드하거나 GGUF 양자화 버전을 사용할 수 있다. 다만 671B 풀사이즈 모델은 상당한 GPU 메모리가 필요하므로, 14B 증류 모델이 개인 사용에 현실적이다.

가격

DeepSeek 공식 API 기준 입력 0.55/1M토큰,출력0.55/1M 토큰, 출력 0.55/1M토큰,출력2.19/1M 토큰이다 (출처: api-docs.deepseek.com). 캐시 히트 시 입력 비용은 $0.14/1M 토큰으로 대폭 할인된다.

경쟁 모델과 비교하면 OpenAI o1(입력 15,출력15, 출력 15,출력60) 대비 약 27배 저렴하다. Claude 3.5 Sonnet(입력 3,출력3, 출력 3,출력15) 대비로도 5배 이상 저렴하고, GPT-4o(입력 2.50,출력2.50, 출력 2.50,출력10) 대비로도 4.5배 차이가 난다 (출처: pricepertoken.com).

서드파티 제공자를 통하면 추가 절감이 가능하다. DeepInfra 블렌딩 0.91/1M,Novita0.91/1M, Novita 0.91/1M,Novita1.15/1M, Nebius 1.20/1M수준이다(출처:artificialanalysis.ai).반면Together.ai나Fireworks는1.20/1M 수준이다 (출처: artificialanalysis.ai). 반면 Together.ai나 Fireworks는 1.20/1M수준이다(출처:artificialanalysis.ai).반면Together.ai나Fireworks는7-8/1M으로 비싼 편.

실사용자들의 가성비 평가는 압도적으로 긍정적이다. "o1급 성능을 o1 비용의 3.6%에 쓸 수 있다"는 것이 핵심이고, Reddit에서 "ChatGPT Plus 해지하고 DeepSeek API로 전환했다"는 후기가 반복적으로 등장한다. 다만 추론 모델 특성상 긴 사고 과정이 출력 토큰에 포함되므로, 복잡한 질문일수록 실제 비용이 예상보다 높아질 수 있다.

한국어 토큰 효율 데이터는 공식적으로 미공개 상태다. Byte-level BPE 토크나이저(128K 어휘)가 다국어 압축을 지원하긴 하지만, 한국어 특화 효율 수치는 확인되지 않는다. 비영어권 언어로 추론 시 영어 대비 20-40% 토큰 절감이 관찰되었다는 연구 결과가 있으나, 이는 한국어에 특정된 수치가 아니다 (출처: numberanalytics.com).

DeepSeek R1 가격 비교

기술 사양

항목사양
파라미터671B 총 / 37B 활성화 (MoE)
전문가 구성256개/레이어, 8개 활성 + 1개 공유
아키텍처Transformer + MoE + Multi-head Latent Attention (MLA)
학습 방법SFT 2단계 + GRPO 강화학습 2단계
학습 데이터14.8T tokens (DeepSeek-V3-Base 기반)
컨텍스트 윈도우64,000 토큰
최대 출력16,000 토큰
토크나이저Byte-level BPE, 128K 어휘
기반 모델DeepSeek-V3-Base
학습 데이터 기준일2024년 7월
출시일2025년 1월 20일
라이선스MIT License
학습 비용약 $6M (추정)
증류 모델6종 (Qwen 1.5B/7B/14B/32B, Llama 8B/70B)

R1의 핵심 아키텍처 혁신은 DeepSeek-V3에서 이어받은 것들이다. MLA(Multi-head Latent Attention)로 추론 시 KV 캐시 메모리를 대폭 절감하고, MoE 구조로 671B 파라미터 중 37B만 활성화해 연산 효율을 높였다. 여기에 GRPO 강화학습을 적용해 추론 능력을 별도로 강화한 것이 R1의 독자적 기여다. 학습 과정에서 약 600K의 추론 관련 샘플과 200K의 비추론 샘플을 사용했다 (출처: 공식 논문 arxiv 2501.12948).

DeepSeek R1 기술 사양

참고 자료

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
arXiv.org

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

General reasoning represents a long-standing and formidable challenge in artificial intelligence. Recent breakthroughs, exemplified by large language models (LLMs) and chain-of-thought prompting, have achieved considerable success on foundational reasoning tasks. However, this success is heavily contingent upon extensive human-annotated demonstrations, and models' capabilities are still insufficient for more complex problems. Here we show that the reasoning abilities of LLMs can be incentivized through pure reinforcement learning (RL), obviating the need for human-labeled reasoning trajectories. The proposed RL framework facilitates the emergent development of advanced reasoning patterns, such as self-reflection, verification, and dynamic strategy adaptation. Consequently, the trained model achieves superior performance on verifiable tasks such as mathematics, coding competitions, and STEM fields, surpassing its counterparts trained via conventional supervised learning on human demonstrations. Moreover, the emergent reasoning patterns exhibited by these large-scale models can be systematically harnessed to guide and enhance the reasoning capabilities of smaller models.

DeepSeek-R1 Release | DeepSeek API Docs
api-docs.deepseek.com

DeepSeek-R1 Release | DeepSeek API Docs

* ⚡ Performance on par with OpenAI-o1

deepseek-ai/DeepSeek-R1 · Hugging Face
huggingface.co

deepseek-ai/DeepSeek-R1 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

DeepSeek R1 0528 - Intelligence, Performance & Price Analysis
artificialanalysis.ai

DeepSeek R1 0528 - Intelligence, Performance & Price Analysis

Analysis of DeepSeek's DeepSeek R1 0528 (May '25) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

DeepSeek-R1 Overview: Features, Capabilities, Parameters
Fireworks AI

DeepSeek-R1 Overview: Features, Capabilities, Parameters

A deep dive of DeepSeek R1 and its key features, model specs, training setup, licensing, and how to start using it.

Price Per Token

R1 API Pricing 2026 - Costs, Performance & Providers

R1 pricing: $0.55/M input, $2.00/M output. See benchmarks, capabilities, and find the cheapest provider.

DeepSeek Review 2026: The Best Free ChatGPT Alternative? Complete Verdict
Neuriflux

DeepSeek Review 2026: The Best Free ChatGPT Alternative? Complete Verdict

DeepSeek shook the AI industry in January 2025. We tested R1, V3.2, and the API for weeks. Performance, privacy bans, and DeepSeek V4 incoming — our complete, unfiltered verdict for April 2026.

wikidocs.net

wikidocs.net

스펙

컨텍스트 윈도우

64K 토큰

라이선스

MIT License

출시일

2025년 1월 20일

학습 마감일

2024년 7월 31일

가성비 지수

3.0

API 가격 (혼합)

입력 $0.550/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.55 / 1M 토큰

출력 (Completion)

$2.19 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

수학/추론최강

84.4

수학, 과학, 논리적 추론

일반지식

84.0

다양한 분야 지식 및 이해

지시따르기

83.3

복잡한 지시사항 이해 및 수행

Provider

DeepSeek

DeepSeek의 다른 모델

DeepSeek: R1 0528DeepSeek: DeepSeek V3.2DeepSeek: DeepSeek V3

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
GAIAAgentic30.351.174.5

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
R1DeepSeek84.741.0
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

관련 블로그 글

가이드2026년 3월 28일

온프레미스 AI 구축 가이드: GPU 서버부터 프라이빗 LLM까지

## 온프레미스 AI가 필요한 경우 - **데이터 주권**: 금융, 의료, 법무 — 외부 API에 데이터를 보낼 수 없는 경우 - **비용 절감**: 대용량 트래픽에서 API 비용보다 GPU 운영이 저렴 - **레이턴시**: 내부 네트워크로 100ms 이하 응답 - **커스터마이징**: 파인튜닝, 모델 수정, 특수 설정 --- ## GPU 요구사항 ```mermaid flowchart TD Model[모델 크기] --> Calc{VRAM 계산} Calc --> |7B FP16| G1["14GB VRAM<br/>(RTX 3090/4090)"] Calc --> |13B FP16| G2["26GB VRAM<br/>(A100 40GB)"] Calc --> |70B FP16| G3["140GB VRAM<br/>(4x A100 80GB)"] Calc --> |7B Q4| G4["4-5GB VRAM<br/>(RTX 3060 12GB)"] Calc --> |70B Q4| G5["35-40GB VRAM<br/>(2x RTX 4090)"] ``` **실용 공식:** - FP16: 파라미터 수(B) × 2 = 필요 VRAM(GB) - INT8: 파라미터 수(B) × 1 = 필요 VRAM(GB) - Q4 (4-bit): 파라미터 수(B) × 0.5 = 필요 VRAM(GB) **추천 GPU 구성:** | 용도 | GPU | VRAM | 가격대 | |------|-----|------|--------| | 개발/테스트 | RTX 4090 | 24GB | ₩200만 | | 소규모 프로덕션 | A100 40GB | 40GB | ₩1,500만 | | 대규모 프로덕션 | H100 80GB | 80GB | ₩4,000만 | | 멀티GPU | 4x A100 80GB | 320GB | ₩8,000만 | --- ## Ollama: 가장 쉬운 로컬 LLM ```bash # 설치 curl -fsSL https://ollama.ai/install.sh | sh # 모델 다운로드 및 실행 ollama pull llama3.2:3b ollama pull qwen2.5:7b ollama pull mistral:7b # 대화 시작 ollama run llama3.2:3b # REST API 서버 (기본 포트 11434) ollama serve # Python에서 사용 import ollama response = ollama.chat( model='qwen2.5:7b', messages=[{'role': 'user', 'content': '한국어로 인사해줘'}] ) print(response['message']['content']) ``` --- ## vLLM: 프로덕션 LLM 서빙 Ollama보다 3-5배 높은 처리량: ```bash # vLLM 설치 (CUDA 12.1 필요) pip install vllm # OpenAI 호환 API 서버 실행 python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3.1-8B-Instruct \ --dtype auto \ --api-key your-secret-key \ --port 8000 \ --max-model-len 8192 # GPU 여러 개 사용 (tensor parallelism) python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3.1-70B-Instruct \ --tensor-parallel-size 4 \ --port 8000 ``` **OpenAI SDK로 연결:** ```python from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="your-secret-key" ) response = client.chat.completions.create( model="meta-llama/Llama-3.1-8B-Instruct", messages=[ {"role": "system", "content": "한국어로 답변하는 AI 어시스턴트입니다."}, {"role": "user", "content": "RAG 시스템 구축 방법을 알려줘"} ], temperature=0.7, max_tokens=1000, ) print(response.choices[0].message.content) ``` --- ## Docker로 배포 ```yaml # docker-compose.yml version: '3.8' services: vllm: image: vllm/vllm-openai:latest runtime: nvidia environment: - NVIDIA_VISIBLE_DEVICES=all volumes: - ~/.cache/huggingface:/root/.cache/huggingface ports: - "8000:8000" command: > --model Qwen/Qwen2.5-7B-Instruct --dtype auto --api-key secret-key --max-model-len 4096 deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] ``` ```bash docker compose up -d ``` --- ## 모델 선택 가이드 | 모델 | 크기 | 한국어 | 코딩 | 용도 | |------|------|--------|------|------| | Qwen2.5-7B | 7B | ★★★★☆ | ★★★★☆ | 범용 | | Llama-3.1-8B | 8B | ★★★☆☆ | ★★★★☆ | 영어 중심 | | EXAONE-3.5-7.8B | 7.8B | ★★★★★ | ★★★★☆ | 한국어 특화 | | Mistral-7B | 7B | ★★★☆☆ | ★★★★☆ | 유럽어 | | Gemma-2-9B | 9B | ★★★☆☆ | ★★★★★ | 코드 생성 | | DeepSeek-R1-8B | 8B | ★★★★☆ | ★★★★★ | 추론 | --- ## 비용 비교 (월 100만 토큰 기준) ``` 클라우드 API: - GPT-4o: 입력 $2.50/M + 출력 $10/M = 약 ₩1.8만/100만 토큰 - Claude Sonnet: 입력 $3/M + 출력 $15/M = 약 ₩2.5만/100만 토큰 온프레미스 (RTX 4090, 월 리스 기준): - 서버 월 리스: 약 ₩30만 - 전기 요금 (350W × 720h): 약 ₩3만 - 총 월 고정비: ₩33만 - 100만 토큰/일 = 3,000만 토큰/월에서 손익분기점 ``` 하루 300만 토큰 이상 처리한다면 온프레미스가 경제적입니다. Hugging Face Model Hub에서 모델을 받고 vLLM으로 서빙하는 조합이 현재 가장 실용적인 온프레미스 AI 스택입니다.

이전글

DeepSeek: DeepSeek V3.2

다음글

DeepSeek: R1 0528

댓글

0개

댓글을 작성하려면

로그인

해주세요

관련 기사

온프레미스 AI 구축 가이드: GPU 서버부터 프라이빗 LLM까지

GUIDE

DeepSeek R1 완전 분석: 중국 오픈소스 AI가 바꾼 게임의 규칙

DEEP_DIVE

로컬 LLM 완전 가이드: Ollama로 GPT급 AI를 내 PC에서 실행하기 (2025)

TUTORIAL

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

코딩

72.7

코드 생성, 버그 수정, 소프트웨어 엔지니어링

%
GPQALLM71.564.094.3%
HumanEvalLLM96.186.097.6%
IFEvalLLM83.385.395.9%
MATH Lvl 5LLM97.375.599.2%
MMLU-PROLLM84.073.890.5%
SWE-bench VerifiedAgentic49.263.680.9%
τ-benchAgentic36.061.799.3%
Mistral Large 3 2512
Mistral AI
72.8
-
심층 분석2026년 3월 28일

DeepSeek R1 완전 분석: 중국 오픈소스 AI가 바꾼 게임의 규칙

## DeepSeek R1이 왜 충격이었나? 2025년 1월, DeepSeek이 R1 모델을 공개하면서 AI 업계에 충격을 던졌습니다. 이유는 단순합니다: - **OpenAI o1 수준의 추론 성능** - **훈련 비용 약 $6백만** (OpenAI GPT-4 추정치의 1~5% 수준) - **MIT 라이선스**, 완전 오픈소스 엔비디아 주가가 17% 급락했고, "미국 AI 독점 시대가 끝났다"는 말이 나왔습니다. --- ## DeepSeek R1이 뭘 잘하는가 ```mermaid flowchart LR R1[DeepSeek R1] --> Math[수학 추론<br/>AMC/AIME 벤치마크<br/>72.6%] R1 --> Code[코딩<br/>CodeForces 96.3% 백분위] R1 --> Logic[논리 추론<br/>LiveCodeBench 65.9%] R1 --> Science[과학 문제<br/>GPQA Diamond 71.5%] ``` ai.zip 리더보드 기준으로 DeepSeek R1 계열은 상위권에 위치합니다. 특히 **수학·코딩·과학** 분야에서 OpenAI o1과 거의 동등하거나 일부 벤치마크에서 앞섭니다. --- ## 기술 혁신: 왜 이렇게 저렴하게 만들 수 있었나 ### 1. 순수 강화학습 훈련 기존 방법론(GPT-4, Claude 등)은 대규모 SFT(Supervised Fine-Tuning) 데이터가 필요합니다. R1은 **GRPO(Group Relative Policy Optimization)**라는 강화학습만으로 추론 능력을 달성했습니다. ``` 기존: 대규모 사람 라벨링 데이터 → SFT → RLHF → 추론 모델 R1: 기본 모델 → 순수 강화학습 → 추론 모델 ``` ### 2. Mixture of Experts (MoE) 아키텍처 R1은 671B 파라미터이지만 실제로는 **37B만 활성화**됩니다. 입력에 따라 필요한 "전문가(expert)" 레이어만 선택적으로 실행합니다. | 항목 | DeepSeek R1 | GPT-4o (추정) | |------|-------------|----------------| | 총 파라미터 | 671B | ~200B | | 활성 파라미터 | 37B | ~200B | | 컨텍스트 | 128K | 128K | | 훈련 비용 | ~$6M | ~$100M+ | ### 3. 효율적인 추론 과정 (Chain-of-Thought) R1은 답변 전에 `<think>...</think>` 태그 안에서 단계별 추론을 수행합니다. 이 "생각 과정"이 복잡한 문제 해결 능력의 핵심입니다. --- ## 실제 사용: API 연결 DeepSeek API는 OpenAI와 완전히 호환됩니다: ```python from openai import OpenAI client = OpenAI( api_key="your-deepseek-api-key", base_url="https://api.deepseek.com" ) # R1 추론 모델 response = client.chat.completions.create( model="deepseek-reasoner", # R1 messages=[ {"role": "user", "content": "다음 수열의 패턴을 찾아 100번째 항을 구하세요: 1, 1, 2, 3, 5, 8, 13..."} ] ) # 추론 과정과 최종 답변 분리 reasoning = response.choices[0].message.reasoning_content # <think> 내용 answer = response.choices[0].message.content # 최종 답변 print(f"추론: {reasoning[:200]}...") print(f"답변: {answer}") ``` **가격 (2025년 3월 기준):** - deepseek-chat (V3): 입력 $0.27/1M, 출력 $1.10/1M - deepseek-reasoner (R1): 입력 $0.55/1M, 출력 $2.19/1M GPT-4o ($2.50/$10.00) 대비 **4~5배 저렴**합니다. --- ## 오픈소스로 로컬 실행 R1은 완전 오픈소스라 Ollama로 로컬 실행도 가능합니다: ```bash # Distill 버전 (소형화된 버전) ollama run deepseek-r1:7b # ~5GB, 가벼운 추론 ollama run deepseek-r1:14b # ~9GB, 균형 ollama run deepseek-r1:32b # ~20GB, 고성능 ollama run deepseek-r1:70b # ~42GB, 최고 성능 (로컬) ``` **Distill 버전이란?** 671B R1의 추론 능력을 Llama/Qwen 기반 소형 모델에 증류(distillation)한 것입니다. 671B 원본보다 가볍지만 추론 능력을 상당 부분 유지합니다. --- ## DeepSeek R1 vs OpenAI o1: 실전 비교 | 태스크 | DeepSeek R1 | OpenAI o1 | |--------|-------------|-----------| | AIME 2024 (수학) | 79.8% | 74.4% | | Codeforces (코딩) | 96.3% 백분위 | 96.6% 백분위 | | GPQA Diamond (과학) | 71.5% | 77.3% | | 한국어 이해 | ★★★☆☆ | ★★★★☆ | | API 가격 | ★★★★★ | ★★☆☆☆ | | 오픈소스 | ✓ | ✗ | **결론:** 수학·코딩에서는 사실상 동급. 한국어는 o1이 약간 우세. 비용은 R1이 압도적. --- ## 한계와 주의사항 **1. 검열 이슈** 중국 기업이 만든 모델이라 특정 정치적 주제에 대한 답변이 제한됩니다. 기업 서비스에 사용 시 이 점을 인지해야 합니다. **2. 한국어 품질** 영어·중국어 대비 한국어는 약간 부족합니다. 순수 한국어 서비스보다는 기술적 추론 태스크(코딩, 수학, 데이터 분석)에 더 적합합니다. **3. 긴 추론 비용** R1은 답변 전에 긴 추론 과정을 거칩니다. 간단한 질문에도 수천 토큰의 추론이 발생해 비용이 예상보다 높을 수 있습니다. --- ## 어떤 상황에 DeepSeek R1을 쓸까? **추천:** - 수학/알고리즘 문제 해결 - 복잡한 코드 디버깅 - 과학 계산, 데이터 분석 - 비용 절감이 중요한 배치 처리 **비추천:** - 한국어 콘텐츠 생성 (Claude/GPT가 유리) - 빠른 응답이 필요한 실시간 서비스 (추론 과정이 길어 레이턴시 높음) - 정치적으로 민감한 주제 DeepSeek R1은 "AI는 막대한 자원이 있는 미국 빅테크만 만들 수 있다"는 가정을 깼습니다. ai.zip 리더보드에서 최신 벤치마크 점수를 확인하세요.

튜토리얼2026년 3월 28일

로컬 LLM 완전 가이드: Ollama로 GPT급 AI를 내 PC에서 실행하기 (2025)

## 왜 로컬 LLM인가? 클라우드 API를 쓰면 편하지만 이런 상황에서는 로컬 실행이 훨씬 낫습니다: - **비용**: 월 $20~$100 API 비용 없이 무제한 사용 - **프라이버시**: 코드, 내부 문서, 개인 데이터를 외부 서버에 보내지 않음 - **오프라인**: 인터넷 없이도 동작 - **레이턴시**: 로컬 SSD에서 불러오면 네트워크 왕복 없음 2025년 기준, M2 MacBook Pro나 RTX 3080 이상의 GPU가 있다면 충분히 실용적인 수준의 로컬 LLM을 돌릴 수 있습니다. --- ## Ollama: 로컬 LLM의 사실상 표준 [Ollama](https://ollama.ai)는 복잡한 설정 없이 로컬 LLM을 실행할 수 있는 도구입니다. Docker처럼 모델을 `pull`해서 `run`하는 단순한 인터페이스가 특징입니다. ### 설치 및 첫 실행 ```bash # macOS brew install ollama # Linux curl -fsSL https://ollama.ai/install.sh | sh # 모델 다운로드 및 실행 ollama run llama3.2 # Meta Llama 3.2 (3B, ~2GB) ollama run llama3.1:8b # Llama 3.1 8B (~5GB) ollama run qwen2.5:7b # Alibaba Qwen 2.5 7B (~5GB) ollama run gemma2:9b # Google Gemma 2 9B (~6GB) ollama run mistral # Mistral 7B (~4GB) ``` ### OpenAI 호환 API Ollama는 OpenAI API와 호환되는 로컬 서버를 제공합니다. 기존 코드의 API URL만 바꾸면 됩니다: ```python from openai import OpenAI # 기존: client = OpenAI(api_key="sk-...") client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="llama3.1:8b", messages=[{"role": "user", "content": "안녕하세요!"}] ) print(response.choices[0].message.content) ``` --- ## 모델 선택 가이드 ### RAM/VRAM별 추천 모델 | 메모리 | 추천 모델 | 성능 수준 | |--------|-----------|-----------| | 8GB RAM | Llama 3.2 3B, Gemma 2 2B | GPT-3.5 수준 | | 16GB RAM | Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B | GPT-3.5~4 사이 | | 32GB RAM | Llama 3.1 70B (4-bit), Qwen 2.5 32B | GPT-4 근접 | | 64GB+ RAM | Llama 3.1 70B (8-bit), 405B (4-bit) | GPT-4 수준 | | RTX 3080 (10GB VRAM) | Llama 3.1 8B, Mistral 7B | GPT-3.5~4 사이 | | RTX 4090 (24GB VRAM) | Llama 3.1 70B (4-bit) | GPT-4 근접 | ### 한국어 성능이 좋은 모델 (2025 기준) **1. Qwen 2.5 (Alibaba)** 중국어 훈련 덕분에 동아시아 언어 전반이 뛰어납니다. 7B, 14B, 32B 라인업이 있고 로컬 한국어 작업에서 가장 추천하는 선택입니다. ```bash ollama run qwen2.5:14b # 14B, ~9GB, 한국어 최강 ``` **2. EEVE Korean (야놀자 연구소)** 한국어 특화 파인튜닝 모델. 영어 기반 태스크는 Qwen보다 약하지만 순수 한국어 이해에서 강합니다. **3. Llama 3.1 (Meta)** 영어 기반이지만 다국어 훈련으로 한국어도 준수합니다. 코딩 태스크에서는 Qwen보다 강한 경향. --- ## LM Studio: GUI로 쉽게 코드가 싫다면 **LM Studio**를 사용하세요. ChatGPT 같은 인터페이스로 로컬 LLM을 사용할 수 있습니다. - Hugging Face에서 GGUF 형식 모델 직접 검색/다운로드 - OpenAI 호환 로컬 서버 원클릭 시작 - GPU 가속 자동 설정 - 무료, macOS/Windows/Linux 지원 --- ## llama.cpp: 최고의 성능 가장 빠른 추론 속도가 필요하다면 `llama.cpp`를 직접 사용합니다. Ollama 내부도 llama.cpp를 씁니다. ```bash # 빌드 git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j4 # Apple Silicon Metal 가속 LLAMA_METAL=1 make -j4 # CUDA 가속 (NVIDIA) LLAMA_CUDA=1 make -j4 # 실행 ./main -m ./models/llama-3.1-8b-q4_k_m.gguf -n 512 --temp 0.7 -p "한국의 AI 트렌드를 분석해줘" ``` **양자화(Quantization) 이해:** - `Q4_K_M`: 4-bit 양자화, 메모리 75% 절감, 품질 손실 최소 → **가장 추천** - `Q8_0`: 8-bit, 메모리 50% 절감, 원본에 가장 가까운 품질 - `F16`: 원본 품질, 메모리 절감 없음 --- ## 실용적인 로컬 LLM 활용 사례 ### 1. 코드 리뷰 자동화 (완전 프라이빗) ```python import ollama def review_code(code: str) -> str: response = ollama.chat( model="qwen2.5:14b", messages=[{ "role": "user", "content": f"다음 코드를 리뷰해주세요. 보안 취약점, 성능 이슈, 개선 사항을 지적해주세요: {code}" }] ) return response["message"]["content"] ``` ### 2. 내부 문서 Q&A (RAG + 로컬) ```python # LlamaIndex + Ollama 조합 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader from llama_index.llms.ollama import Ollama from llama_index.embeddings.ollama import OllamaEmbedding llm = Ollama(model="llama3.1:8b", request_timeout=120.0) embed_model = OllamaEmbedding(model_name="nomic-embed-text") documents = SimpleDirectoryReader("./internal_docs").load_data() index = VectorStoreIndex.from_documents(documents, embed_model=embed_model) query_engine = index.as_query_engine(llm=llm) response = query_engine.query("우리 회사 휴가 정책이 어떻게 돼?") ``` --- ## 로컬 LLM의 현실적인 한계 솔직히 말하면 2025년 현재 로컬 LLM은 GPT-4o, Claude Sonnet과 비교하면 여전히 차이가 있습니다. | 태스크 | 로컬 8B | 로컬 70B | GPT-4o | |--------|---------|---------|--------| | 단순 Q&A | 충분 | 좋음 | 최상 | | 코딩 (단순) | 충분 | 좋음 | 최상 | | 코딩 (복잡) | 부족 | 괜찮음 | 최상 | | 한국어 이해 | 보통 | 좋음 | 좋음 | | 긴 문서 분석 | 부족 | 괜찮음 | 최상 | | 추론/수학 | 부족 | 보통 | 좋음 | **추천 전략**: 프라이버시가 중요하거나 반복적인 단순 작업은 로컬로, 복잡한 추론이나 고품질이 필요한 작업은 클라우드 API로 분리하는 **하이브리드 접근**이 현실적입니다. --- ## 결론로컬 LLM을 시작하는 가장 빠른 방법: 1. **Ollama 설치** → `ollama run qwen2.5:7b`로 첫 테스트 2. **LM Studio 설치** → GUI로 모델 탐색 3. RAM 16GB 이상이면 8B 모델로 실용적인 업무 자동화 가능 4. 한국어 작업이 많다면 **Qwen 2.5 14B** 강력 추천 클라우드 API 대비 비용 절감 + 프라이버시 보장이라는 장점은 명확합니다. 완벽하진 않지만 충분히 실용적인 수준에 도달했습니다.

비교2026년 3월 28일

추론 AI 비교: OpenAI o3 vs Claude Opus 4.5 — 수학·코딩·논리 실전 분석

## 추론 특화 AI란? 2024~2025년에 등장한 "추론 모델"은 기존 LLM과 다른 방식으로 동작합니다. 답을 바로 생성하는 대신, **내부적으로 생각하는 과정(Chain-of-Thought)을 길게 실행**한 뒤 최종 답을 냅니다. 이 "생각 시간"이 길수록 더 정확한 답을 내지만 시간과 비용이 증가합니다. ai.zip 리더보드 기준: - **OpenAI o3**: 310.2점 - **Claude Opus 4.5**: 437.2점 (전체 1위권) - **xAI Grok 4**: 556.5점 --- ## 핵심 아키텍처 차이 | 항목 | OpenAI o3 | Claude Opus 4.5 | |------|-----------|-----------------| | 추론 방식 | 명시적 "thinking" 토큰 | Extended thinking 모드 | | 생각 과정 공개 | 요약본만 | 선택적 공개 | | 추론 깊이 조절 | low/medium/high | 예산 토큰 설정 | | 입력 가격 ($/1M) | $10.00 | $15.00 | | 출력 가격 ($/1M) | $40.00 | $75.00 | | 컨텍스트 창 | 200K | 200K | --- ## 영역별 성능 분석 ### 수학·과학 추론 **o3의 강점:** OpenAI o3는 수학 올림피아드(AIME), 대학원 수준 물리·화학 문제에서 탁월한 성능을 보입니다. 공식적인 AIME 2024 기준 o3가 96.7%를 달성했습니다. **Claude Opus의 강점:** 단계별 수학 증명, 개념 설명, 실수 없는 계산에서 o3와 대등하거나 상회합니다. 특히 답뿐만 아니라 **왜 그런지 설명**하는 능력이 뛰어납니다. ### 코딩 **o3:** - 알고리즘 경쟁 문제(Codeforces, LeetCode Hard)에서 매우 높은 정답률 - 복잡한 시스템 설계 문제 처리 능력 우수 - SWE-bench Verified에서 업계 최고 수준 **Claude Opus 4.5:** - 실무 코딩 (버그 수정, 리팩토링, 코드 리뷰)에서 자연스러운 설명 포함 - 긴 코드베이스 이해 후 수정하는 태스크에서 컨텍스트 활용 뛰어남 - Claude Code와의 통합으로 에이전트형 코딩 작업 최적화 ### 논리·추론 ``` 문제: "A, B, C, D 4명이 있다. A는 B보다 키가 크다. C는 D보다 작다. B와 C는 같은 키다. 가장 작은 사람은?" o3: 단계별로 정리 → D Claude Opus: 관계도 시각화 → D ``` 두 모델 모두 기본 논리 퍼즐은 완벽히 해결합니다. 차이는 **복잡도가 극단적으로 높아질 때** 나타납니다. ### 멀티스텝 에이전트 태스크 실제 업무에서 중요한 "여러 단계를 거쳐 목표를 달성하는" 태스크: **Claude Opus의 강점:** - 긴 지시사항을 정확히 따르는 능력 (Instruction Following) - 중간에 오류가 생겼을 때 자체 감지 후 수정 - 에이전트 루프에서 안전하고 예측 가능한 동작 **o3의 강점:** - 단일 복잡 문제 해결 속도 - 수학적으로 검증 가능한 태스크 --- ## 비용 대비 성능 분석 같은 예산($100)으로 처리할 수 있는 양: | 모델 | 처리 가능 태스크 수 (1K 입력 + 2K 출력 기준) | |------|---------------------------------------------| | Claude Haiku 4.5 | 약 6,250건 | | GPT-4o | 약 2,857건 | | Claude Sonnet 4.6 | 약 1,538건 | | o3 | 약 556건 | | Claude Opus 4.5 | 약 364건 | **핵심:** o3와 Opus는 단순 Q&A나 요약에 쓰기엔 너무 비쌉니다. 정말 어려운 문제에만 써야 ROI가 나옵니다. --- ## 언제 추론 모델이 필요한가? **추론 모델이 필요한 경우:** - 수학 증명, 고급 알고리즘 설계 - 여러 변수가 얽힌 비즈니스 최적화 문제 - 코드에서 미묘한 보안 취약점 탐지 - 복잡한 법률 문서 다단계 해석 **추론 모델이 필요 없는 경우 (Sonnet/Haiku로 충분):** - 일반 대화, 요약, 번역 - 간단한 코드 생성 - 문서 작성, 이메일 초안 - 일상적인 Q&A --- ## 결론 o3와 Claude Opus 4.5는 각자의 방식으로 최고 수준의 추론 능력을 보입니다. - **수학/과학 극한 성능** → o3 - **에이전트 태스크 + 긴 컨텍스트 + 설명력** → Claude Opus 4.5 - **비용 효율성** → 두 모델 모두 비쌈, 대부분 Sonnet으로 충분 ai.zip 리더보드에서 최신 모델 점수를 확인하며 선택하세요. 벤치마크 점수보다 실제 태스크에서 직접 테스트하는 것이 항상 중요합니다.

Cohere

Mistral: Mistral Large 3 2512

Mistral AI