AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Microsoft: Phi 4

Phi 4

MicrosoftLLM자연어 처리컴퓨터 비전오디오 처리16K 토큰
2025년 1월 10일MIT

Phi-4는 Microsoft Research가 개발한 14B 파라미터 소형 언어 모델(SLM)로, "데이터 품질이 모델 크기를 이긴다"는 철학 아래 수학적 추론과 복잡한 논리 문제 해결에 특화되어 설계되었다. 2024년 12월에 공개되었으며, MIT 라이선스로 완전 오픈소스다.

주요 특징

Phi-4의 가장 두드러진 특성은 크기 대비 추론 성능이다. 14B라는 작은 파라미터 수에도 불구하고, 수학과 과학 추론에서 자신보다 5배 큰 모델들을 능가한다. Microsoft Research는 9.8T 토큰 규모의 고품질 합성 데이터(synthetic data)와 엄선된 학술 자료, 코드 데이터를 혼합해 학습시켰고, 1920대의 H100 GPU에서 21일 만에 학습을 완료했다(출처: 공식 기술 보고서 arxiv:2412.08905).

핵심 차별점 5가지:

  1. 합성 데이터 중심 학습: 일반적인 웹 크롤링 데이터 대신 수학, 코딩, 추론에 특화된 합성 데이터로 학습하여 같은 크기 모델 대비 추론 능력이 월등하다.
  2. MIT 라이선스: Llama의 커뮤니티 라이선스나 Qwen의 Apache 2.0과 달리, 가장 개방적인 MIT 라이선스를 채택했다. 상업적 제한이 전혀 없다.
  3. 소비자 GPU 실행 가능: INT4 양자화 시 8-10GB VRAM이면 충분하다. RTX 4070 이상에서 초당 약 50 토큰 속도로 로컬 실행이 가능하다(출처: 클리앙 사용자 테스트, RTX 4080 Super 기준).
  4. 교사 모델 능가: GPQA(대학원 수준 과학 문제)와 MATH(경시대회 수학) 벤치마크에서 자신의 교사 모델인 GPT-4o를 능가하는 특이한 사례를 만들었다(출처: 공식 기술 보고서).
  5. Phi 패밀리 확장: 기본 14B 모델 이후 Phi-4-reasoning(추론 강화), Phi-4-mini(3.8B 경량), Phi-4-multimodal(음성+비전+텍스트 통합 5.6B), Phi-4-reasoning-vision(15B 비전 추론) 등으로 빠르게 패밀리가 확장되고 있다.

실사용자들이 체감하는 가장 큰 차이는 "이 크기에서 이 정도 추론을 하는 모델은 없다"는 점이다. 클리앙의 한 사용자는 "일반적인 능력은 GPT-4o급에 PDF/텍스트 파일 분석도 가능하다"고 평가했다. 반면, 영어 중심 학습 데이터 때문에 한국어 성능은 EXAONE3.5나 Aya-Expanse 같은 다국어 특화 모델에 비해 뒤처진다는 의견이 많다.

Phi-4 주요 특징

할 수 있는 것

Phi-4가 실제로 잘하는 것과 못하는 것을 나눠서 보자.

잘하는 것:

  • 수학 문제 풀이: 경시대회 수준의 수학 문제에서 MATH 80.4%를 기록한다. 같은 크기의 Qwen 2.5 14B(75.6%)를 크게 앞서고, 5배 큰 Llama 3.3 70B(66.3%)도 넘는다(출처: 공식 기술 보고서). 실제로 수학 과외용 AI로 쓰기에 적합하다.
  • 코드 생성: HumanEval 82.6%로 같은 크기 오픈소스 모델 중 최고 수준이다. 간단한 함수 작성, 알고리즘 구현, 버그 수정에 실용적이다(출처: 공식 기술 보고서).
  • 과학 추론: GPQA 56.1%로 대학원 수준 과학 문제에서 GPT-4o(50.6%)를 능가한다. 물리, 화학, 생물 관련 개념 설명이나 문제 풀이에 효과적이다(출처: 공식 기술 보고서).
  • 로컬 AI 어시스턴트: Ollama나 LM Studio에서 양자화 모델을 돌리면 인터넷 없이도 작동하는 개인 AI 어시스턴트를 만들 수 있다. 프라이버시가 중요한 업무에 적합하다.

못하는 것 / 한계:

  • 지시 따르기(instruction following): DEV Community의 한 개발자가 체스 평가 프레임워크로 테스트한 결과, Phi-4는 Gemma 2 9B 대비 약 6배 많은 토큰을 생성하면서도 10배 많은 실수를 했다. 단순한 프롬프트 지시조차 자주 위반했고, 지나치게 장황한 응답이 원인으로 지목되었다(출처: DEV Community, maximsaplin). 벤치마크 점수와 실제 사용감의 괴리를 잘 보여주는 사례다.
  • 사실 정확도: SimpleQA 벤치마크에서 3.0%를 기록하며, GPT-4o(39.4%)는 물론 같은 크기의 Qwen 2.5 14B(5.4%)보다도 낮다(출처: 공식 기술 보고서). 사실 확인이 필요한 작업에는 부적합하다. 한 Hugging Face 사용자는 "MMLU-PRO 점수는 48로 이 크기에서 불가능할 만큼 높은데, SimpleQA는 3으로 극단적으로 낮다. 이 정도 과적합은 처음 본다"고 지적했다.
  • 긴 컨텍스트 처리: 16K 토큰 컨텍스트 윈도우는 현재 기준으로 매우 작다. Llama 3.3(128K)이나 Qwen 2.5(128K) 대비 8분의 1 수준이다. RAG 파이프라인이나 긴 문서 분석에는 심각한 제약이 된다.
  • 한국어 성능: 영어 최적화 모델이라 한국어에서의 성능은 제한적이다. 기본적인 한국어 대화와 텍스트 교정은 가능하지만, EXAONE3.5나 Qwen 계열에 비해 자연스러움이 떨어진다는 평가가 지배적이다.
  • Agentic 작업: 16K 컨텍스트와 지시 따르기 문제로 인해 SWE-bench 같은 에이전트 벤치마크 결과가 보고되지 않았다. 복잡한 멀티스텝 에이전트 워크플로우에는 적합하지 않다.

성능벤치마크 수치를 보면 Phi-4의 위치가 명확해진다.

벤치마크Phi-4 14BQwen 2.5 14BGPT-4o miniLlama 3.3 70BGPT-4o
MMLU84.879.981.886.388.1
GPQA56.142.940.949.150.6
MATH80.475.673.066.374.6
HumanEval82.672.186.278.990.6
MGSM80.679.686.589.190.4
SimpleQA3.05.49.920.939.4
IFEval82.6--92.1-

(출처: Microsoft Phi-4 Technical Report arxiv:2412.08905, OpenAI simple-evals)

수학(MATH 80.4)과 과학(GPQA 56.1)에서는 14B 모델로서 압도적이다. 자신보다 5배 큰 Llama 3.3 70B(MATH 66.3, GPQA 49.1)보다 높고, Qwen 2.5 72B(MATH 80.0)와 거의 동급이다. 코딩(HumanEval 82.6)도 같은 크기 대비 최상위권이다.

그러나 "벤치마크는 이런데 실제로는 이렇다"가 Phi-4를 이해하는 핵심이다. 벤치마크에서 높은 점수를 받는 것과 실제 작업에서 안정적으로 작동하는 것은 다르다. DEV Community의 체스 테스트에서 드러났듯, 지시를 안정적으로 따르는 능력이 부족하다. Artificial Analysis의 종합 평가에서도 Intelligence Index 10점으로 "평균 이하"로 분류되었다(출처: artificialanalysis.ai).

속도 측면에서도 API 기준 31.6 tokens/second, TTFT 2.12초로 같은 급 모델 대비 "상당히 느린 편"이라는 평가를 받았다(출처: artificialanalysis.ai). 로컬 실행 시에는 하드웨어에 따라 크게 다르지만, RTX 4080 Super에서 초당 50 토큰 정도가 보고되었다.

Phi-4 벤치마크 성능 비교

사용 방법일반 사용자:

  • Azure AI Foundry: https://ai.azure.com/catalog/models/Phi-4 에서 바로 사용 가능. Microsoft 계정으로 로그인하면 웹 UI에서 대화할 수 있다.
  • Ollama: ollama run phi4로 로컬에서 즉시 실행. INT4 양자화 버전이 기본 제공되어 8GB VRAM이면 충분하다.
  • LM Studio: GUI 기반으로 Phi-4를 다운로드하고 실행할 수 있다. 프로그래밍 지식 없이도 로컬 AI를 운영할 수 있다.

개발자:

  • Hugging Face Transformers:
python
import transformers
pipeline = transformers.pipeline(
    "text-generation",
    model="microsoft/phi-4",
    model_kwargs={"torch_dtype": "auto"},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Solve: x^2 + 5x + 6 = 0"},
]
outputs = pipeline(messages, max_new_tokens=256)
  • API 호출: OpenRouter, DeepInfra, Azure AI 등 다수 프로바이더에서 OpenAI 호환 API로 제공. 기존 코드베이스에서 모델명만 바꾸면 된다.
  • 채팅 템플릿: <|im_start|>system<|im_sep|>...<|im_end|> 형식의 ChatML 템플릿을 사용한다.

가격Phi-4의 가격 경쟁력은 명확하다.

API 기준 (OpenRouter):

  • 입력: $0.065 / 1M 토큰
  • 출력: $0.14 / 1M 토큰
  • 블렌딩 비용 (3:1 기준): $0.22 / 1M 토큰

Azure AI 기준:

  • 입력: $0.13 / 1M 토큰
  • 출력: $0.50 / 1M 토큰

GPT-4o(입력 2.50,출력2.50, 출력 2.50,출력10.00)와 비교하면 약 40배 저렴하다. GPT-4o mini(입력 0.15,출력0.15, 출력 0.15,출력0.60)와 비교해도 절반 이하다. 비용에 극도로 민감한 대량 처리 워크로드에서 큰 장점이 된다.

로컬 실행 비용: MIT 라이선스이므로 로컬에서 무료로 실행할 수 있다. INT4 양자화 시 RTX 4070 급이면 충분하다. 전기료만 부담하면 되므로 대량 처리 시 API 대비 극적인 비용 절감이 가능하다.

다만, Artificial Analysis는 Phi-4를 "비슷한 크기의 오픈 모델 대비 다소 비싼 편"으로 평가했다(입력 평균 0.06대비0.06 대비 0.06대비0.13, 출력 평균 0.18대비0.18 대비 0.18대비0.50)(출처: artificialanalysis.ai). 이는 Azure 기준이고, OpenRouter 등 서드파티 프로바이더를 이용하면 훨씬 저렴하게 이용할 수 있다.

한국어 토큰 효율 데이터는 미공개다. Phi-4는 기본 토크나이저를 사용하며, 다국어 최적화 토크나이저(예: Qwen의 200K 어휘)를 채택한 모델에 비해 한국어 입력 시 토큰 수가 더 많이 소요될 가능성이 있다. Phi-4-mini는 200K 토큰 어휘의 확장된 토크나이저를 사용하지만, 기본 Phi-4 14B에는 적용되지 않는다.

Phi-4 가격 비교

기술 사양

항목사양
파라미터14B (140억)
아키텍처Dense Decoder-only Transformer
컨텍스트 윈도우16,384 토큰
최대 출력16,384 토큰
학습 데이터9.8T 토큰
학습 구성합성 데이터 + 엄선된 웹사이트 + 학술 자료 + 코드
다국어 데이터 비중전체의 약 8%
학습 기간21일
학습 인프라1920x H100-80G GPU
학습 기간2024년 10월 - 11월
Knowledge Cutoff2024년 6월
출시일2024년 12월 12일
라이선스MIT
지원 언어영어 중심, 한국어 포함 22개 언어 기본 지원
VRAM (FP16)28GB
VRAM (INT4)8-10GB

(출처: Hugging Face microsoft/phi-4 모델 카드, Microsoft Research 공식 기술 보고서)

Phi-4의 아키텍처는 표준 Dense Transformer이다. MoE(Mixture of Experts)나 특수 아키텍처를 사용하지 않았으며, 순수하게 데이터 품질과 학습 방법론으로 성능을 끌어올렸다는 점이 Microsoft Research의 핵심 주장이다. 학습 데이터의 상당 부분이 합성 데이터(synthetic textbook-like data)로 구성되어 있어, 수학, 코딩, 추론 분야에서 높은 성능을 보이지만 사실적 지식 저장 능력(SimpleQA 3.0%)은 크게 부족하다.

Phi-4 기술 사양

참고 자료

Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
TECHCOMMUNITY.MICROSOFT.COM

Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub

Today we are introducing Phi-4, our 14B parameter state-of-the-art small language model (SLM) that excels at complex reasoning in areas such as math, in...

microsoft/phi-4 · Hugging Face
huggingface.co

microsoft/phi-4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

arxiv.org

arxiv.org

Phi-4 - Intelligence, Performance & Price Analysis
artificialanalysis.ai

Phi-4 - Intelligence, Performance & Price Analysis

Analysis of Microsoft Azure&#x27;s Phi-4 and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Phi 4 - API Pricing & Providers
openrouter.ai

Phi 4 - API Pricing & Providers

[Microsoft Research](/microsoft) Phi-4 is designed to perform well in complex reasoning tasks and can operate efficiently in situations with limited memory or where quick responses are needed. $0.065 per million input tokens, $0.14 per million output tokens. 16,384 token context window, maximum output of 16,384 tokens. Higher uptime with 2 providers.

Tried Phi-4, It didn't Impress
DEV Community

Tried Phi-4, It didn't Impress

Phi-4 14B has been recently released. Benchmarks look promising, e.g. it beats GPT-4o in Math: I...

이제서야 집에서 돌릴 만한 인공지능 llm이 나왔네요. : 클리앙
clien.net

이제서야 집에서 돌릴 만한 인공지능 llm이 나왔네요. : 클리앙

이번에 마이크로소프트에서 오픈소스로 개발한 phi-4 를 맛보게 되었네요. 여지껏 로컬로 돌릴 수 있을 만한 한국어 llm이 마땅치 않아서 NC소프트에서 만든 모델 같은거로 테스트를 하거나 하는 수준이었는데, 이번에 진짜 제대로 된 모델이 나왔어요. 능력이 gpt4o 와 비교해도 손색없을 정도 입니다. 일단 팩트에 대한 부분은 뭐... 낮은 점수가 나왔지만 데이터 세트가 그만큼 충분하지 않기 때문에 넘어가기로 하죠. 하지만 다른 영역은 상당히 괜찮습니다. 굳이 온라인을 통하고 가입을 하고 .... 다 필요 없이 집에서 그냥 로컬로 돌려도 충분한 능력을 이끌어내고 있습니다. 일례로, 기존 라마 같은 버전에서는 한글이 거의 불가능 했죠. llama3.2 버전은... 뭐 1기가 수준도 안되는 놈이라... 소개도 제대로 못하는 모델이었습니다. 이번에 제시된 phi4 는 9기가 정도 되는 녀석인데요. 보시다 시피 상당히 한국어를 잘 구사하고 있습니다. 요즘 저는 집에서 로컬로 돌릴 수 있는 비디오 생성형 ai에 관심이 많은데요. 영어로 프롬프트를 부탁한다는 명령을 내렸습니다. 내가 정확히 의도한 바는 아니지만 그래도 꽤나 정확한 이해를 바탕으로 프롬프트를 제시해 주고 있습니다. 그래서 저는 다시 맥락을 이해시키기 위해 다시 한번 요청을 해 봤지요. 이 정도의 출력을 보여주네요. 참고로 이 녀석은 PDF나 텍스트 파일을 업로드 하면 분석 할 수 있는 기능이 탑재되어 있습니다. 따라서 번역 및 기타 자료 정리용으로 꾀나 요긴하게 쓰일 수 있을 것 같고요. 응답속도 또한 상당히 빠릅니다. RTX4080 super 기준 초당 50개의 문자열을 내뱉고 있습니다. 4070도 돌아간다고 합니다. 3060은 잘 모르겠지만, 12기가 메모리 짜리는 돌아갈 수 있을 듯 합니다. =-=-=-=-=-=-=-=-=-=-= 요즘 시국이 어수선하여 모든 관심이 정치쪽으로 집중되어 있지만, 그렇다고 우리의 연구 및 취미 활동까지 마다할 순 없지요! 이번주에 꼭 내란범이 잡히길 바라며 글 올립니다.

Llama vs Mistral vs Phi: Complete Open-Source LLM Comparison for Enterprise (2026)
Prem AI

Llama vs Mistral vs Phi: Complete Open-Source LLM Comparison for Enterprise (2026)

There is no "best" open-source LLM. Only the right LLM for your specific task, hardware, and constraints. That&#x27;s not a cop-out. It&#x27;s the reality every enterprise discovers after deploying their first model. The team that picked Llama 3.3 70B for a classification task is now paying 10x more compute

azure.microsoft.com

Phi Open Models - Small Language Models | Microsoft Azure

Explore Phi models, efficient small language models (SLMs) for generative AI applications. Learn more about Phi in Azure AI Foundry.

스펙

컨텍스트 윈도우

16K 토큰

라이선스

MIT

출시일

2025년 1월 10일

학습 마감일

2024년 6월 30일

가성비 지수

33.8

API 가격 (혼합)

입력 $0.065/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.07 / 1M 토큰

출력 (Completion)

$0.14 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

코딩최강

82.6

코드 생성, 버그 수정, 소프트웨어 엔지니어링

지시따르기

82.6

복잡한 지시사항 이해 및 수행

수학/추론

68.3

수학, 과학, 논리적 추론

Provider

Microsoft

Microsoft의 다른 모델

WizardLM-2 8x22B

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

LLM 종합 69.7

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
BBH0.721.693.1%
GPQALLM56.1

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Phi 4Microsoft69.7-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

이전글

Meta: Llama 4 Scout

다음글

MiniMax: MiniMax M2

댓글

0개

댓글을 작성하려면

로그인

해주세요

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI

일반지식

64.8

다양한 분야 지식 및 이해

64.0
94.3
%
HumanEvalLLM82.686.097.6%
IFEvalLLM82.685.395.9%
MATH Lvl 5LLM80.475.599.2%
MMLU-PROLLM64.873.890.5%
MUSR0.50.40.5%
Mistral Large 3 2512Mistral AI72.8-