Meta가 2024년 9월 Connect 행사에서 공개한 Llama 3.2 3B Instruct는, 스마트폰이나 엣지 디바이스에서 직접 돌릴 수 있도록 설계된 초경량 언어 모델이다. 3B 파라미터라는 크기에서 실용적인 성능을 뽑아내는 것이 핵심 목표이며, Llama 3.1 8B와 70B 모델의 지식을 증류(distillation)해서 만들었다.

주요 특징

Llama 3.2 3B의 가장 눈에 띄는 점은 크기 대비 컨텍스트 윈도우다. 128K 토큰을 지원하는데, 같은 크기대의 소형 모델 대부분이 4K에서 8K 수준에 머무르는 것과 비교하면 압도적이다. 다만 실사용자들 사이에서는 "128K를 지원한다고는 하지만, 3B 크기에서 긴 문서를 넣으면 품질이 눈에 띄게 떨어진다"는 의견이 많다. NIH/Multi-needle 벤치마크에서 84.7점을 기록해 긴 컨텍스트 내 정보 검색 자체는 잘 하지만, 실제 복잡한 장문 요약에서는 기대만큼의 성능을 내지 못한다는 평가다 (출처: 공식 모델 카드).

학습 방식도 독특하다. 단순히 3B 모델을 처음부터 학습한 것이 아니라, 먼저 더 큰 모델에서 pruning(가지치기)으로 구조를 줄인 다음, Llama 3.1 8B와 70B의 출력값(logits)을 활용한 knowledge distillation으로 성능을 복원했다. 9조 토큰의 공개 데이터로 학습되었으며, Grouped Query Attention(GQA)을 사용해 추론 효율을 높였다.

다국어 지원은 영어 포함 8개 언어(독일어, 프랑스어, 이탈리아어, 포르투갈어, 스페인어, 힌디어, 태국어)를 공식 지원한다. 한국어는 공식 지원 언어에 포함되지 않는다.

Llama 3.2 3B 핵심 특징

할 수 있는 것

공식적으로는 요약, 지시 따르기, 텍스트 재작성, 도구 사용(tool use) 등이 주요 용도다. Meta 측에서는 "모바일 AI 어시스턴트, 엣지에서의 텍스트 분류, 대량 전처리 파이프라인"을 주요 유스케이스로 제시한다.

실사용자들의 평가는 좀 더 솔직하다. r/LocalLLaMA 커뮤니티에서는 "기본적인 텍스트 분류나 짧은 요약에는 쓸만하다"는 반응이 주류다. Ollama로 로컬에서 돌려본 사용자들은 "Q4 양자화로 2GB 정도면 돌아가니까, 라즈베리파이나 오래된 노트북에서도 쓸 수 있다"고 평가한다. Qualcomm과 MediaTek 하드웨어에서 직접 실행 가능하도록 최적화되어 있어, 실제 모바일 디바이스 배포 사례도 있다.

반면 "문서 요약이나 챗봇으로 쓰려면 한계가 명확하다"는 목소리도 강하다. Hugging Face 포럼에서는 "ChatGPT와 비교하면 문법 오류가 잦고, 지시를 제대로 따르지 않는 경우가 많다"는 분석이 올라왔다. 특히 "요약해줘"라는 단순한 지시도 가끔 무시한다는 보고가 있다. 3B라는 크기의 한계를 감안해야 하는 부분이다.

한국어 성능은 약하다. 공식 지원 언어에 한국어가 빠져 있고, 실사용에서도 "영문 표현이 섞여 나온다", "한국어 응답이 매끄럽지 않다"는 후기가 대부분이다. 한국어가 필요하면 Bllossom 팀이 150GB의 정제된 한국어 데이터로 추가 학습한 llama-3.2-Korean-Bllossom-3B를 쓰거나, Qwen 2.5 계열을 고려하는 것이 현실적이다.

성능

벤치마크 수치를 보면, 3B 크기대에서는 꽤 견고한 성능을 보여준다.

벤치마크	점수	비고
MMLU	63.4	일반 지식 (출처: 공식 모델 카드)
MMLU-PRO	39.0	전문 지식 (출처: 공식 모델 카드)
GPQA	32.8	대학원 수준 과학 (출처: 공식 모델 카드)
MATH Lvl 5	48.0	수학 추론 (출처: 공식 모델 카드)
IFEval	77.4	지시 따르기 (출처: 공식 모델 카드)
GSM8K	77.7	수학 문제풀이 (출처: 공식 모델 카드)
ARC-C	78.6	과학 추론 (출처: 공식 모델 카드)
BFCL V2	67.0	함수 호출 (출처: 공식 모델 카드)

IFEval 77.4는 경쟁 모델인 Gemma 2 2.6B(61.9)와 Phi-3.5-mini(59.2)를 크게 앞서는 수치다. 지시를 따르는 능력에서는 동급 최강이라 할 수 있다. MMLU 63.4도 Gemma 3 4B(59.6)를 앞서지만, Phi-4-mini(67.3)에는 뒤진다 (출처: localaimaster.com).

다만 벤치마크와 실사용 체감은 꽤 다르다는 목소리가 많다. "벤치마크 수치는 괜찮아 보이지만, 실제로 문서 Q&A나 요약을 시키면 소형 모델의 한계가 바로 드러난다"는 것이 중론이다. GPQA 32.8, MMLU-PRO 39.0이 보여주듯이 전문 지식 영역에서는 확실한 한계가 있다. 코딩 분야에서는 Phi-4-mini의 HumanEval 74.4에 비해 데이터가 공개되지 않아 직접 비교가 어렵다.

Artificial Analysis 기준 추론 속도는 평균 51.7 tokens/sec로, 3B 크기대에서는 준수한 편이다. TTFT(첫 토큰 생성 시간)는 0.83초 수준.

경쟁 모델 벤치마크 비교

사용 방법

일반 사용자: Meta AI(meta.ai)에서 직접 사용하거나, Ollama를 설치해서 로컬에서 실행할 수 있다. Ollama 기준 ollama run llama3.2:3b 한 줄이면 된다. 양자화된 GGUF 포맷으로 약 2GB RAM이면 동작하므로, 4GB RAM 이상의 기기에서 무리 없이 실행 가능하다.

개발자: API로 사용하려면 DeepInfra, Amazon Bedrock, OpenRouter 등 다수 프로바이더를 통해 접근 가능하다. OpenAI 호환 API 형식을 지원하는 프로바이더가 많아서 기존 코드 변경 없이 모델만 교체할 수 있다. 셀프호스팅은 llama.cpp 또는 vLLM으로 가능하며, Hugging Face에서 가중치를 직접 다운로드할 수 있다.

공식 모델 카드: https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md

가격

오픈 웨이트 모델이므로 셀프호스팅 시 API 비용은 0이다. 클라우드 API를 통해 사용할 경우 프로바이더별 가격이 다른데, 가장 저렴한 DeepInfra 기준 입력 $0.01/1M 토큰, 출력$ 0.02/1M 토큰이다. OpenRouter에서는 무료 티어도 제공한다.

경쟁 모델과 비교하면, Llama 3.1 8B(입력 $0.05, 출력$ 0.08)보다 5배 이상 저렴하고, Gemma 3 4B(입력 $0.04, 출력$ 0.07)보다도 절반 이하다 (출처: artificialanalysis.ai). 실사용자들 사이에서는 "이 가격이면 대량 전처리에 부담 없이 쓸 수 있다"는 평가가 지배적이다.

한국어 토큰 효율 데이터는 미공개다. 다만 Llama 3 계열의 토크나이저(tiktoken 기반, 128K 어휘)는 한국어를 바이트 단위로 처리하는 경향이 있어, 같은 텍스트를 입력해도 영어 대비 2배에서 3배 정도 토큰을 더 소비하는 것으로 알려져 있다. 비용에 민감한 한국어 워크로드에서는 이 점을 감안해야 한다.

Llama 3.2 3B API 가격 비교

기술 사양

항목	사양
파라미터 수	3.21B (3,210M)
아키텍처	Transformer (Auto-regressive)
어텐션 메커니즘	Grouped Query Attention (GQA)
컨텍스트 윈도우	128,000 tokens
학습 데이터	9T tokens (공개 데이터)
학습 기법	Pruning + Knowledge Distillation
학습 마감일	2023년 12월
출시일	2024년 9월 25일
라이선스	Llama Community License
지원 언어	영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 스페인어, 힌디어, 태국어
양자화 시 크기	~2GB (Q4_K_M GGUF)
추론 속도	~52 tokens/sec (API 평균)

Llama Community License는 상업적 사용을 허용하지만, 월간 활성 사용자 7억 명 이상의 서비스에서 사용하려면 Meta에 별도 라이선스를 요청해야 한다. 대부분의 기업과 개인 개발자에게는 사실상 제약이 없다.

Llama 3.2 3B 기술 사양

참고 자료

Llama 3.2: Revolutionizing edge AI and vision with open, customizable models

Meta AI

Llama 3.2: Revolutionizing edge AI and vision with open, customizable models

Today, we’re releasing Llama 3.2, which includes small and medium-sized vision LLMs, and lightweight, text-only models that fit onto edge and mobile devices.

meta-llama/Llama-3.2-3B-Instruct · Hugging Face

huggingface.co

meta-llama/Llama-3.2-3B-Instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

llama-models/models/llama3_2/MODEL_CARD.md at main · meta-llama/llama-models

GitHub

llama-models/models/llama3_2/MODEL_CARD.md at main · meta-llama/llama-models

Utilities intended for use with Llama models. Contribute to meta-llama/llama-models development by creating an account on GitHub.

Llama 3.2 3B - Intelligence, Performance & Price Analysis

artificialanalysis.ai

Llama 3.2 3B - Intelligence, Performance & Price Analysis

Analysis of Meta's Llama 3.2 Instruct 3B and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Best Small Language Models 2026: Run AI on 4GB RAM

Local AI Master

Best Small Language Models 2026: Run AI on 4GB RAM

Top 12 SLMs ranked: Phi-4, Gemma 3, Qwen 3, Llama 3.2. Benchmarks, VRAM table, Ollama setup. Run on laptops, phones, edge devices.

AI disappointment: Why Llama 3.2 (3b version) loses out to Chat-GPT - An analysis of the limitations of Llama 3.2 (3b version) compared to Chat-GPT

Hugging Face Forums

AI disappointment: Why Llama 3.2 (3b version) loses out to Chat-GPT - An analysis of the limitations of Llama 3.2 (3b version) compared to Chat-GPT

When using Llama 3.2 (3b version) and comparing it to chat-gpt, it just doesn’t measure up. Not only is it making a lot of grammatical errors, it is also not following instructions as in summarize this. Llama 3.2 (3b version) is in love with self care. So much so that it recommends self-care when asking how to draw a circle. Chat-Gpt does not. Chat-Gpt is hilarious at using sarcasm. I love to use “comment on this news article in the most sarcastic way”. Llama 3.2 (3b version) … well at least ...

관련 블로그 글

튜토리얼2026년 3월 28일

로컬 LLM 완전 가이드: Ollama로 GPT급 AI를 내 PC에서 실행하기 (2025)

## 왜 로컬 LLM인가? 클라우드 API를 쓰면 편하지만 이런 상황에서는 로컬 실행이 훨씬 낫습니다: - **비용**: 월 $20~$100 API 비용 없이 무제한 사용 - **프라이버시**: 코드, 내부 문서, 개인 데이터를 외부 서버에 보내지 않음 - **오프라인**: 인터넷 없이도 동작 - **레이턴시**: 로컬 SSD에서 불러오면 네트워크 왕복 없음 2025년 기준, M2 MacBook Pro나 RTX 3080 이상의 GPU가 있다면 충분히 실용적인 수준의 로컬 LLM을 돌릴 수 있습니다. --- ## Ollama: 로컬 LLM의 사실상 표준 [Ollama](https://ollama.ai)는 복잡한 설정 없이 로컬 LLM을 실행할 수 있는 도구입니다. Docker처럼 모델을 `pull`해서 `run`하는 단순한 인터페이스가 특징입니다. ### 설치 및 첫 실행 ```bash # macOS brew install ollama # Linux curl -fsSL https://ollama.ai/install.sh | sh # 모델 다운로드 및 실행 ollama run llama3.2 # Meta Llama 3.2 (3B, ~2GB) ollama run llama3.1:8b # Llama 3.1 8B (~5GB) ollama run qwen2.5:7b # Alibaba Qwen 2.5 7B (~5GB) ollama run gemma2:9b # Google Gemma 2 9B (~6GB) ollama run mistral # Mistral 7B (~4GB) ``` ### OpenAI 호환 API Ollama는 OpenAI API와 호환되는 로컬 서버를 제공합니다. 기존 코드의 API URL만 바꾸면 됩니다: ```python from openai import OpenAI # 기존: client = OpenAI(api_key="sk-...") client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="llama3.1:8b", messages=[{"role": "user", "content": "안녕하세요!"}] ) print(response.choices[0].message.content) ``` --- ## 모델 선택 가이드 ### RAM/VRAM별 추천 모델 | 메모리 | 추천 모델 | 성능 수준 | |--------|-----------|-----------| | 8GB RAM | Llama 3.2 3B, Gemma 2 2B | GPT-3.5 수준 | | 16GB RAM | Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B | GPT-3.5~4 사이 | | 32GB RAM | Llama 3.1 70B (4-bit), Qwen 2.5 32B | GPT-4 근접 | | 64GB+ RAM | Llama 3.1 70B (8-bit), 405B (4-bit) | GPT-4 수준 | | RTX 3080 (10GB VRAM) | Llama 3.1 8B, Mistral 7B | GPT-3.5~4 사이 | | RTX 4090 (24GB VRAM) | Llama 3.1 70B (4-bit) | GPT-4 근접 | ### 한국어 성능이 좋은 모델 (2025 기준) **1. Qwen 2.5 (Alibaba)** 중국어 훈련 덕분에 동아시아 언어 전반이 뛰어납니다. 7B, 14B, 32B 라인업이 있고 로컬 한국어 작업에서 가장 추천하는 선택입니다. ```bash ollama run qwen2.5:14b # 14B, ~9GB, 한국어 최강 ``` **2. EEVE Korean (야놀자 연구소)** 한국어 특화 파인튜닝 모델. 영어 기반 태스크는 Qwen보다 약하지만 순수 한국어 이해에서 강합니다. **3. Llama 3.1 (Meta)** 영어 기반이지만 다국어 훈련으로 한국어도 준수합니다. 코딩 태스크에서는 Qwen보다 강한 경향. --- ## LM Studio: GUI로 쉽게 코드가 싫다면 **LM Studio**를 사용하세요. ChatGPT 같은 인터페이스로 로컬 LLM을 사용할 수 있습니다. - Hugging Face에서 GGUF 형식 모델 직접 검색/다운로드 - OpenAI 호환 로컬 서버 원클릭 시작 - GPU 가속 자동 설정 - 무료, macOS/Windows/Linux 지원 --- ## llama.cpp: 최고의 성능 가장 빠른 추론 속도가 필요하다면 `llama.cpp`를 직접 사용합니다. Ollama 내부도 llama.cpp를 씁니다. ```bash # 빌드 git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j4 # Apple Silicon Metal 가속 LLAMA_METAL=1 make -j4 # CUDA 가속 (NVIDIA) LLAMA_CUDA=1 make -j4 # 실행 ./main -m ./models/llama-3.1-8b-q4_k_m.gguf -n 512 --temp 0.7 -p "한국의 AI 트렌드를 분석해줘" ``` **양자화(Quantization) 이해:** - `Q4_K_M`: 4-bit 양자화, 메모리 75% 절감, 품질 손실 최소 → **가장 추천** - `Q8_0`: 8-bit, 메모리 50% 절감, 원본에 가장 가까운 품질 - `F16`: 원본 품질, 메모리 절감 없음 --- ## 실용적인 로컬 LLM 활용 사례 ### 1. 코드 리뷰 자동화 (완전 프라이빗) ```python import ollama def review_code(code: str) -> str: response = ollama.chat( model="qwen2.5:14b", messages=[{ "role": "user", "content": f"다음 코드를 리뷰해주세요. 보안 취약점, 성능 이슈, 개선 사항을 지적해주세요: {code}" }] ) return response["message"]["content"] ``` ### 2. 내부 문서 Q&A (RAG + 로컬) ```python # LlamaIndex + Ollama 조합 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader from llama_index.llms.ollama import Ollama from llama_index.embeddings.ollama import OllamaEmbedding llm = Ollama(model="llama3.1:8b", request_timeout=120.0) embed_model = OllamaEmbedding(model_name="nomic-embed-text") documents = SimpleDirectoryReader("./internal_docs").load_data() index = VectorStoreIndex.from_documents(documents, embed_model=embed_model) query_engine = index.as_query_engine(llm=llm) response = query_engine.query("우리 회사 휴가 정책이 어떻게 돼?") ``` --- ## 로컬 LLM의 현실적인 한계 솔직히 말하면 2025년 현재 로컬 LLM은 GPT-4o, Claude Sonnet과 비교하면 여전히 차이가 있습니다. | 태스크 | 로컬 8B | 로컬 70B | GPT-4o | |--------|---------|---------|--------| | 단순 Q&A | 충분 | 좋음 | 최상 | | 코딩 (단순) | 충분 | 좋음 | 최상 | | 코딩 (복잡) | 부족 | 괜찮음 | 최상 | | 한국어 이해 | 보통 | 좋음 | 좋음 | | 긴 문서 분석 | 부족 | 괜찮음 | 최상 | | 추론/수학 | 부족 | 보통 | 좋음 | **추천 전략**: 프라이버시가 중요하거나 반복적인 단순 작업은 로컬로, 복잡한 추론이나 고품질이 필요한 작업은 클라우드 API로 분리하는 **하이브리드 접근**이 현실적입니다. --- ## 결론로컬 LLM을 시작하는 가장 빠른 방법: 1. **Ollama 설치** → `ollama run qwen2.5:7b`로 첫 테스트 2. **LM Studio 설치** → GUI로 모델 탐색 3. RAM 16GB 이상이면 8B 모델로 실용적인 업무 자동화 가능 4. 한국어 작업이 많다면 **Qwen 2.5 14B** 강력 추천 클라우드 API 대비 비용 절감 + 프라이버시 보장이라는 장점은 명확합니다. 완벽하진 않지만 충분히 실용적인 수준에 도달했습니다.

벤치마크	카테고리	이 모델	전체 평균	전체 최고	단위
Arena Elo		1166.0	1369.2	1493.0	elo
BBH		0.5	21.6

Llama 3.2 3B Instruct

주요 특징

할 수 있는 것

성능

사용 방법

가격

기술 사양

참고 자료

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글