AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Meta: Llama 4 Scout

Llama 4 Scout

MetaLLM자연어 처리컴퓨터 비전오디오 처리10.0M 토큰
2025년 4월 6일Llama Community License

Llama 4 Scout는 Meta가 2025년 4월에 출시한 Llama 4 시리즈의 경량 모델이다. 109B 총 파라미터 중 17B만 활성화하는 Mixture of Experts(MoE) 아키텍처를 최초로 도입한 모델로, 오픈 웨이트 멀티모달 AI 분야에서 새로운 접근을 시도했다.

주요 특징

Llama 4 Scout의 가장 큰 변화는 MoE 아키텍처의 도입이다. Llama 시리즈에서 처음으로 Mixture of Experts를 채택해 16개의 전문가 모듈 중 토큰마다 2개만 활성화하는 방식으로, 109B 전체 파라미터에서 17B만 사용한다. 이 덕분에 Int4 양자화 시 단일 H100 GPU에서 구동이 가능하다.

두 번째 특징은 10M 토큰의 컨텍스트 윈도우다. Llama 3의 128K에서 약 78배 늘어난 수치로, 공식적으로는 업계 최장 수준이라고 발표했다. 다만 실제 사용자 테스트에서는 128K 이상에서 성능이 급격히 떨어진다는 보고가 다수 있다. 한 독립 연구자가 128K 토큰 분량의 Reddit 스레드 요약을 시켰더니 "완전한 쓰레기" 수준의 결과물이 나왔고, 128K 토큰 기준 정확도가 15.6%에 불과했다 (출처: promptinjection.net). 같은 테스트에서 Gemini 2.5 Pro는 90.6%를 기록했다.

세 번째는 네이티브 멀티모달이다. Early Fusion 방식으로 학습 시점부터 텍스트와 이미지를 통합 처리한다. 학습 중 최대 48개 이미지를 동시 입력했고, DocVQA 94.4, ChartQA 88.8 등 문서/차트 이해에서 강점을 보인다 (출처: HuggingFace Model Card).

넷째, 한국어 토큰 효율이 크게 개선됐다. Meta가 자체 개발한 새 토크나이저(200K vocab, BBPE)를 사용하며, 동일 한국어 텍스트(171자) 기준 Llama 2에서 246토큰이 필요했던 것이 76토큰으로 69% 감소했다 (출처: DevOcean SK). 다만 한국어는 공식 파인튜닝 12개 언어에 포함되지 않아 비공식 지원 상태다.

커뮤니티에서 체감하는 가장 큰 차이는 "가격 대비 성능"이다. 오픈 웨이트라는 점에서 셀프 호스팅이 가능하고, API 사용 시에도 입력 0.08/1M,출력0.08/1M, 출력 0.08/1M,출력0.30/1M으로 GPT-4o Mini의 절반 수준이다. 반면 "벤치마크 수치와 실제 체감 사이의 괴리가 심하다"는 불만이 출시 직후부터 꾸준히 나왔다.

Llama 4 Scout 핵심 특징

할 수 있는 것

문서 이해와 차트 분석이 Scout의 강점 분야다. DocVQA 94.4, ChartQA 88.8은 동급 모델 대비 최상위 수준이며, 실사용자들도 PDF나 이미지 속 텍스트 추출에서는 "쓸 만하다"는 평가를 내린다.

번역 성능은 의외의 강점이다. 한 리뷰어가 스와힐리어 번역 테스트에서 Scout에 10점 만점에 8점을 줬는데, 같은 테스트에서 Qwen3가 3점을 받았다. 독일어-영어 시적 텍스트 번역에서도 9/10을 기록하며 "일반적인 대안보다 더 날카로운 이미지를 만든다"는 평가를 받았다 (출처: promptinjection.net).

MGSM 90.6은 다국어 수학 추론에서도 준수한 성능을 보여준다 (출처: HuggingFace Model Card).

반면 코딩은 실망스럽다. LiveCodeBench 32.8은 동급 모델 중 낮은 편이고, 커뮤니티에서는 "코드 생성, 글쓰기, 일상 대화 모든 면에서 실망스럽다"는 반응이 많다 (출처: promptinjection.net). 테트리스 게임 코드 생성 테스트에서 중력 메커니즘 누락, 회전 로직 오류, 게임오버 감지 미구현 등 치명적 결함이 발견됐다. 같은 테스트에서 GLM 4.5 Air는 "프로덕션 수준의 구현"을 제공했다.

장문 맥락 처리는 공식 스펙과 현실의 괴리가 가장 큰 영역이다. 10M 토큰 컨텍스트를 지원한다고 하지만, 실제로는 128K 이상에서 "루핑과 환각"이 발생한다. 20,000토큰 분량의 스레드 요약도 제대로 하지 못했다는 보고가 있다.

창작 글쓰기에서는 10점 만점에 4점을 받으며 "철학적 과욕에 구조적 진부함"이라는 혹평을 들었다. Qwen3 Next 80B가 같은 테스트에서 9점을 받은 것과 대비된다 (출처: promptinjection.net).

성능

벤치마크Scout 점수비고
MMLU79.6Pretrained (출처: HuggingFace)
MMLU-PRO74.3Instruct (출처: HuggingFace)
GPQA Diamond57.2Instruct (출처: HuggingFace)
MATH Lvl 550.3Pretrained (출처: HuggingFace)
MMMU73.4Instruct (출처: HuggingFace)
MathVista73.7Instruct (출처: HuggingFace)
DocVQA94.4Instruct (출처: HuggingFace)
ChartQA88.8Instruct (출처: HuggingFace)
LiveCodeBench32.8Instruct (출처: HuggingFace)
MGSM90.6Instruct (출처: HuggingFace)
Multilingual MMLU84.6(출처: llama.com)

Meta는 Scout가 "Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 전반적으로 능가한다"고 발표했다. MMLU-PRO 74.3은 Gemma 3 27B의 67.5를 상회하며, 멀티모달 벤치마크에서도 MMMU 73.4로 견고한 수치를 보인다.

그러나 벤치마크와 실제 사용 사이의 괴리가 Llama 4 Scout의 가장 큰 논란이다. 출시 직후 LM Arena에서 높은 순위를 기록했지만, 이것이 공개된 모델이 아니라 "대화 최적화 실험 버전"에서 측정된 것이라는 사실이 밝혀지면서 "벤치마크 해킹" 논란이 불거졌다 (출처: promptinjection.net, VentureBeat). 영향력 있는 AI 평론가 Zvi Mowshowitz는 "모델 출시에 대한 가장 부정적인 반응"이라고 평가하며 Meta를 "모델 성능 발표를 신뢰할 수 없는 연구소" 범주에 넣었다.

실사용에서 "코드 생성은 GPT-4o보다 깔끔한 코드를 만든다"는 긍정 평가도 있었지만 (출처: secondtalent.com), 전반적으로 "Llama 1 수준의 일반적이고 무미건조한 답변"이라는 혹평이 우세했다.

Artificial Analysis Intelligence Index에서 14점을 받아 동급 오픈 웨이트 비추론 모델 중앙값(13) 대비 소폭 상회하는 수준이다 (출처: artificialanalysis.ai). 출력 속도는 129.7 tokens/sec으로 동급 모델 중앙값(62.4 t/s) 대비 2배 이상 빠르다.

Llama 4 Scout 벤치마크 비교

사용 방법

Llama 4 Scout는 오픈 웨이트 모델로 다양한 경로로 접근할 수 있다.

일반 사용자는 Meta AI(meta.ai)에서 직접 대화형으로 사용할 수 있고, HuggingFace의 모델 페이지에서 Inference API로 테스트할 수 있다.

개발자는 HuggingFace에서 모델 가중치를 직접 다운로드(meta-llama/Llama-4-Scout-17B-16E-Instruct)해서 셀프 호스팅하거나, API 제공업체를 통해 접근할 수 있다. 주요 API 제공업체로는 OpenRouter, AWS Bedrock, Oracle Cloud, IBM watsonx.ai, Groq 등이 있다.

Groq에서는 특히 빠른 추론 속도를 제공하며, OpenRouter를 통해 다양한 제공업체의 가격과 성능을 비교할 수 있다.

셀프 호스팅 시 Int4 양자화를 적용하면 단일 H100 GPU에서 구동 가능하다. vLLM, TGI 등의 추론 프레임워크와 호환되며, NVIDIA의 최적화 가이드도 공개되어 있다.

가격API 기준 가격(제공업체 최저가):

  • 입력: $0.08 / 1M tokens
  • 출력: $0.30 / 1M tokens

Artificial Analysis 집계 평균가:

  • 입력: $0.17 / 1M tokens
  • 출력: $0.66 / 1M tokens

경쟁 모델과 비교하면 GPT-4o Mini(입력 0.15,출력0.15, 출력 0.15,출력0.60)의 약 절반 수준이고, Gemini 2.0 Flash-Lite(입력 0.075,출력0.075, 출력 0.075,출력0.30)와 거의 동등하다. 오픈 웨이트라는 점에서 셀프 호스팅 시 API 비용 없이 GPU 비용만으로 운용 가능하다는 장점이 있다.

한국어 토큰 효율 측면에서, 동일 텍스트 기준 Llama 2 대비 약 69% 적은 토큰을 사용하므로 한국어 API 호출 비용이 이전 세대보다 크게 절감된다. 171자 한국어 텍스트 기준 76토큰으로 처리되며, OpenAI의 o200k_base 토크나이저(88토큰)보다도 효율적이다 (출처: DevOcean SK). 다만 SKT A.X 토크나이저 대비로는 약 30% 더 많은 토큰을 사용한다.

커뮤니티에서의 가성비 평가는 양분된다. "오픈 소스에 이 가격이면 훌륭하다"는 의견과 "가격이 싸도 성능이 기대 이하면 의미 없다"는 의견이 공존한다.

Llama 4 Scout API 가격 비교

기술 사양

항목사양
총 파라미터109B (17B 활성)
아키텍처Mixture of Experts, 16 Experts
컨텍스트 윈도우10M tokens (학습 시 256K)
학습 데이터40T+ tokens
학습 데이터 언어200개 언어 (100개 이상에서 각 1B+ tokens)
파인튜닝 언어12개 (아랍어, 영어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 포르투갈어, 스페인어, 타갈로그어, 태국어, 베트남어)
학습 마감일2024년 8월
출시일2025년 4월 5일
멀티모달텍스트 + 이미지 입력 (Early Fusion)
토크나이저BBPE, 200K vocab (Meta 자체 개발)
라이선스Llama Community License
추론 속도~130 tokens/sec 중앙값 (출처: artificialanalysis.ai)
최소 GPU1x H100 (Int4 양자화 시)

Llama 4 Scout 기술 사양

참고 자료

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
Meta AI

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

We’re introducing Llama 4 Scout and Llama 4 Maverick, the first open-weight natively multimodal models with unprecedented context support and our first built using a mixture-of-experts (MoE) architecture.

meta-llama/Llama-4-Scout-17B-16E-Instruct · Hugging Face
huggingface.co

meta-llama/Llama-4-Scout-17B-16E-Instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Llama 4 Scout - Intelligence, Performance & Price Analysis
artificialanalysis.ai

Llama 4 Scout - Intelligence, Performance & Price Analysis

Analysis of Meta's Llama 4 Scout and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Llama 4 Scout: Total Disaster – or Misunderstood Workhorse?
promptinjection.net

Llama 4 Scout: Total Disaster – or Misunderstood Workhorse?

From benchmark scandal to translation savant: the bizarre performance profile of Meta's most hated model

Meta Llama 4 토크나이저 분석
devocean.sk.com

Meta Llama 4 토크나이저 분석

Llama 4 Scout - API Pricing & Providers
openrouter.ai

Llama 4 Scout - API Pricing & Providers

Llama 4 Scout 17B Instruct (16E) is a mixture-of-experts (MoE) language model developed by Meta, activating 17 billion parameters out of a total of 109B. $0.08 per million input tokens, $0.30 per million output tokens. 327,680 token context window, maximum output of 16,384 tokens. Higher uptime with 4 providers.

venturebeat.com

venturebeat.com

스펙

컨텍스트 윈도우

10.0M 토큰

라이선스

Llama Community License

출시일

2025년 4월 6일

학습 마감일

2024년 8월 31일

가성비 지수

21.3

API 가격 (혼합)

입력 $0.080/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.08 / 1M 토큰

출력 (Completion)

$0.30 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

일반지식최강

74.3

다양한 분야 지식 및 이해

멀티모달

73.4

이미지, 비디오 등 멀티모달 이해

수학/추론

53.8

수학, 과학, 논리적 추론

Provider

Meta

Meta의 다른 모델

Meta: Llama 3 70B InstructMeta: Llama 3.3 70B InstructMeta: Llama 4 MaverickMeta: Llama 3.2 3B InstructMeta: Llama 3.1 405B (base)

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

LLM 종합 60.4

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
GPQALLM57.264.094.3%
MATH Lvl 5LLM50.375.599.2%

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Llama 4 ScoutMeta60.4-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

관련 블로그 글

가이드2026년 3월 28일

온프레미스 AI 구축 가이드: GPU 서버부터 프라이빗 LLM까지

## 온프레미스 AI가 필요한 경우 - **데이터 주권**: 금융, 의료, 법무 — 외부 API에 데이터를 보낼 수 없는 경우 - **비용 절감**: 대용량 트래픽에서 API 비용보다 GPU 운영이 저렴 - **레이턴시**: 내부 네트워크로 100ms 이하 응답 - **커스터마이징**: 파인튜닝, 모델 수정, 특수 설정 --- ## GPU 요구사항 ```mermaid flowchart TD Model[모델 크기] --> Calc{VRAM 계산} Calc --> |7B FP16| G1["14GB VRAM<br/>(RTX 3090/4090)"] Calc --> |13B FP16| G2["26GB VRAM<br/>(A100 40GB)"] Calc --> |70B FP16| G3["140GB VRAM<br/>(4x A100 80GB)"] Calc --> |7B Q4| G4["4-5GB VRAM<br/>(RTX 3060 12GB)"] Calc --> |70B Q4| G5["35-40GB VRAM<br/>(2x RTX 4090)"] ``` **실용 공식:** - FP16: 파라미터 수(B) × 2 = 필요 VRAM(GB) - INT8: 파라미터 수(B) × 1 = 필요 VRAM(GB) - Q4 (4-bit): 파라미터 수(B) × 0.5 = 필요 VRAM(GB) **추천 GPU 구성:** | 용도 | GPU | VRAM | 가격대 | |------|-----|------|--------| | 개발/테스트 | RTX 4090 | 24GB | ₩200만 | | 소규모 프로덕션 | A100 40GB | 40GB | ₩1,500만 | | 대규모 프로덕션 | H100 80GB | 80GB | ₩4,000만 | | 멀티GPU | 4x A100 80GB | 320GB | ₩8,000만 | --- ## Ollama: 가장 쉬운 로컬 LLM ```bash # 설치 curl -fsSL https://ollama.ai/install.sh | sh # 모델 다운로드 및 실행 ollama pull llama3.2:3b ollama pull qwen2.5:7b ollama pull mistral:7b # 대화 시작 ollama run llama3.2:3b # REST API 서버 (기본 포트 11434) ollama serve # Python에서 사용 import ollama response = ollama.chat( model='qwen2.5:7b', messages=[{'role': 'user', 'content': '한국어로 인사해줘'}] ) print(response['message']['content']) ``` --- ## vLLM: 프로덕션 LLM 서빙 Ollama보다 3-5배 높은 처리량: ```bash # vLLM 설치 (CUDA 12.1 필요) pip install vllm # OpenAI 호환 API 서버 실행 python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3.1-8B-Instruct \ --dtype auto \ --api-key your-secret-key \ --port 8000 \ --max-model-len 8192 # GPU 여러 개 사용 (tensor parallelism) python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3.1-70B-Instruct \ --tensor-parallel-size 4 \ --port 8000 ``` **OpenAI SDK로 연결:** ```python from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="your-secret-key" ) response = client.chat.completions.create( model="meta-llama/Llama-3.1-8B-Instruct", messages=[ {"role": "system", "content": "한국어로 답변하는 AI 어시스턴트입니다."}, {"role": "user", "content": "RAG 시스템 구축 방법을 알려줘"} ], temperature=0.7, max_tokens=1000, ) print(response.choices[0].message.content) ``` --- ## Docker로 배포 ```yaml # docker-compose.yml version: '3.8' services: vllm: image: vllm/vllm-openai:latest runtime: nvidia environment: - NVIDIA_VISIBLE_DEVICES=all volumes: - ~/.cache/huggingface:/root/.cache/huggingface ports: - "8000:8000" command: > --model Qwen/Qwen2.5-7B-Instruct --dtype auto --api-key secret-key --max-model-len 4096 deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] ``` ```bash docker compose up -d ``` --- ## 모델 선택 가이드 | 모델 | 크기 | 한국어 | 코딩 | 용도 | |------|------|--------|------|------| | Qwen2.5-7B | 7B | ★★★★☆ | ★★★★☆ | 범용 | | Llama-3.1-8B | 8B | ★★★☆☆ | ★★★★☆ | 영어 중심 | | EXAONE-3.5-7.8B | 7.8B | ★★★★★ | ★★★★☆ | 한국어 특화 | | Mistral-7B | 7B | ★★★☆☆ | ★★★★☆ | 유럽어 | | Gemma-2-9B | 9B | ★★★☆☆ | ★★★★★ | 코드 생성 | | DeepSeek-R1-8B | 8B | ★★★★☆ | ★★★★★ | 추론 | --- ## 비용 비교 (월 100만 토큰 기준) ``` 클라우드 API: - GPT-4o: 입력 $2.50/M + 출력 $10/M = 약 ₩1.8만/100만 토큰 - Claude Sonnet: 입력 $3/M + 출력 $15/M = 약 ₩2.5만/100만 토큰 온프레미스 (RTX 4090, 월 리스 기준): - 서버 월 리스: 약 ₩30만 - 전기 요금 (350W × 720h): 약 ₩3만 - 총 월 고정비: ₩33만 - 100만 토큰/일 = 3,000만 토큰/월에서 손익분기점 ``` 하루 300만 토큰 이상 처리한다면 온프레미스가 경제적입니다. Hugging Face Model Hub에서 모델을 받고 vLLM으로 서빙하는 조합이 현재 가장 실용적인 온프레미스 AI 스택입니다.

이전글

Meta: Llama 4 Maverick

다음글

Microsoft: Phi 4

댓글

0개

댓글을 작성하려면

로그인

해주세요

사용하는 서비스

Meta AI

Text Generation (텍스트 생성)

관련 기사

온프레미스 AI 구축 가이드: GPU 서버부터 프라이빗 LLM까지

GUIDE

로컬 LLM 완전 가이드: Ollama로 GPT급 AI를 내 PC에서 실행하기 (2025)

TUTORIAL

멀티모달 AI 비교: GPT-4V vs Claude 3.5 vs Gemini Pro Vision

COMPARISON

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

MMLU
79.6
84.2
98.0
%
MMLU-PROLLM74.373.890.5%
MMMU73.471.185.0%
Mistral Large 3 2512Mistral AI72.8-
튜토리얼2026년 3월 28일

로컬 LLM 완전 가이드: Ollama로 GPT급 AI를 내 PC에서 실행하기 (2025)

## 왜 로컬 LLM인가? 클라우드 API를 쓰면 편하지만 이런 상황에서는 로컬 실행이 훨씬 낫습니다: - **비용**: 월 $20~$100 API 비용 없이 무제한 사용 - **프라이버시**: 코드, 내부 문서, 개인 데이터를 외부 서버에 보내지 않음 - **오프라인**: 인터넷 없이도 동작 - **레이턴시**: 로컬 SSD에서 불러오면 네트워크 왕복 없음 2025년 기준, M2 MacBook Pro나 RTX 3080 이상의 GPU가 있다면 충분히 실용적인 수준의 로컬 LLM을 돌릴 수 있습니다. --- ## Ollama: 로컬 LLM의 사실상 표준 [Ollama](https://ollama.ai)는 복잡한 설정 없이 로컬 LLM을 실행할 수 있는 도구입니다. Docker처럼 모델을 `pull`해서 `run`하는 단순한 인터페이스가 특징입니다. ### 설치 및 첫 실행 ```bash # macOS brew install ollama # Linux curl -fsSL https://ollama.ai/install.sh | sh # 모델 다운로드 및 실행 ollama run llama3.2 # Meta Llama 3.2 (3B, ~2GB) ollama run llama3.1:8b # Llama 3.1 8B (~5GB) ollama run qwen2.5:7b # Alibaba Qwen 2.5 7B (~5GB) ollama run gemma2:9b # Google Gemma 2 9B (~6GB) ollama run mistral # Mistral 7B (~4GB) ``` ### OpenAI 호환 API Ollama는 OpenAI API와 호환되는 로컬 서버를 제공합니다. 기존 코드의 API URL만 바꾸면 됩니다: ```python from openai import OpenAI # 기존: client = OpenAI(api_key="sk-...") client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="llama3.1:8b", messages=[{"role": "user", "content": "안녕하세요!"}] ) print(response.choices[0].message.content) ``` --- ## 모델 선택 가이드 ### RAM/VRAM별 추천 모델 | 메모리 | 추천 모델 | 성능 수준 | |--------|-----------|-----------| | 8GB RAM | Llama 3.2 3B, Gemma 2 2B | GPT-3.5 수준 | | 16GB RAM | Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B | GPT-3.5~4 사이 | | 32GB RAM | Llama 3.1 70B (4-bit), Qwen 2.5 32B | GPT-4 근접 | | 64GB+ RAM | Llama 3.1 70B (8-bit), 405B (4-bit) | GPT-4 수준 | | RTX 3080 (10GB VRAM) | Llama 3.1 8B, Mistral 7B | GPT-3.5~4 사이 | | RTX 4090 (24GB VRAM) | Llama 3.1 70B (4-bit) | GPT-4 근접 | ### 한국어 성능이 좋은 모델 (2025 기준) **1. Qwen 2.5 (Alibaba)** 중국어 훈련 덕분에 동아시아 언어 전반이 뛰어납니다. 7B, 14B, 32B 라인업이 있고 로컬 한국어 작업에서 가장 추천하는 선택입니다. ```bash ollama run qwen2.5:14b # 14B, ~9GB, 한국어 최강 ``` **2. EEVE Korean (야놀자 연구소)** 한국어 특화 파인튜닝 모델. 영어 기반 태스크는 Qwen보다 약하지만 순수 한국어 이해에서 강합니다. **3. Llama 3.1 (Meta)** 영어 기반이지만 다국어 훈련으로 한국어도 준수합니다. 코딩 태스크에서는 Qwen보다 강한 경향. --- ## LM Studio: GUI로 쉽게 코드가 싫다면 **LM Studio**를 사용하세요. ChatGPT 같은 인터페이스로 로컬 LLM을 사용할 수 있습니다. - Hugging Face에서 GGUF 형식 모델 직접 검색/다운로드 - OpenAI 호환 로컬 서버 원클릭 시작 - GPU 가속 자동 설정 - 무료, macOS/Windows/Linux 지원 --- ## llama.cpp: 최고의 성능 가장 빠른 추론 속도가 필요하다면 `llama.cpp`를 직접 사용합니다. Ollama 내부도 llama.cpp를 씁니다. ```bash # 빌드 git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j4 # Apple Silicon Metal 가속 LLAMA_METAL=1 make -j4 # CUDA 가속 (NVIDIA) LLAMA_CUDA=1 make -j4 # 실행 ./main -m ./models/llama-3.1-8b-q4_k_m.gguf -n 512 --temp 0.7 -p "한국의 AI 트렌드를 분석해줘" ``` **양자화(Quantization) 이해:** - `Q4_K_M`: 4-bit 양자화, 메모리 75% 절감, 품질 손실 최소 → **가장 추천** - `Q8_0`: 8-bit, 메모리 50% 절감, 원본에 가장 가까운 품질 - `F16`: 원본 품질, 메모리 절감 없음 --- ## 실용적인 로컬 LLM 활용 사례 ### 1. 코드 리뷰 자동화 (완전 프라이빗) ```python import ollama def review_code(code: str) -> str: response = ollama.chat( model="qwen2.5:14b", messages=[{ "role": "user", "content": f"다음 코드를 리뷰해주세요. 보안 취약점, 성능 이슈, 개선 사항을 지적해주세요: {code}" }] ) return response["message"]["content"] ``` ### 2. 내부 문서 Q&A (RAG + 로컬) ```python # LlamaIndex + Ollama 조합 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader from llama_index.llms.ollama import Ollama from llama_index.embeddings.ollama import OllamaEmbedding llm = Ollama(model="llama3.1:8b", request_timeout=120.0) embed_model = OllamaEmbedding(model_name="nomic-embed-text") documents = SimpleDirectoryReader("./internal_docs").load_data() index = VectorStoreIndex.from_documents(documents, embed_model=embed_model) query_engine = index.as_query_engine(llm=llm) response = query_engine.query("우리 회사 휴가 정책이 어떻게 돼?") ``` --- ## 로컬 LLM의 현실적인 한계 솔직히 말하면 2025년 현재 로컬 LLM은 GPT-4o, Claude Sonnet과 비교하면 여전히 차이가 있습니다. | 태스크 | 로컬 8B | 로컬 70B | GPT-4o | |--------|---------|---------|--------| | 단순 Q&A | 충분 | 좋음 | 최상 | | 코딩 (단순) | 충분 | 좋음 | 최상 | | 코딩 (복잡) | 부족 | 괜찮음 | 최상 | | 한국어 이해 | 보통 | 좋음 | 좋음 | | 긴 문서 분석 | 부족 | 괜찮음 | 최상 | | 추론/수학 | 부족 | 보통 | 좋음 | **추천 전략**: 프라이버시가 중요하거나 반복적인 단순 작업은 로컬로, 복잡한 추론이나 고품질이 필요한 작업은 클라우드 API로 분리하는 **하이브리드 접근**이 현실적입니다. --- ## 결론로컬 LLM을 시작하는 가장 빠른 방법: 1. **Ollama 설치** → `ollama run qwen2.5:7b`로 첫 테스트 2. **LM Studio 설치** → GUI로 모델 탐색 3. RAM 16GB 이상이면 8B 모델로 실용적인 업무 자동화 가능 4. 한국어 작업이 많다면 **Qwen 2.5 14B** 강력 추천 클라우드 API 대비 비용 절감 + 프라이버시 보장이라는 장점은 명확합니다. 완벽하진 않지만 충분히 실용적인 수준에 도달했습니다.

비교2026년 3월 28일

멀티모달 AI 비교: GPT-4V vs Claude 3.5 vs Gemini Pro Vision

## 멀티모달 AI의 현재 2025년 주요 LLM은 모두 이미지를 이해합니다. 하지만 "이미지를 본다"는 것이 모델마다 의미하는 바가 다릅니다. 사진 설명에 그치는 모델이 있는가 하면, 복잡한 차트를 분석하고, 스크린샷에서 코드를 추출하고, 의학 영상을 해석하는 모델도 있습니다. --- ## 한눈에 보는 비교 | 항목 | GPT-4o | Claude 3.5 Sonnet | Gemini 2.5 Pro | |------|--------|-------------------|----------------| | 이미지 당 입력 비용 | ~$0.002 | ~$0.003 | ~$0.0003 | | 이미지 해상도 | 최대 2048×2048 | 최대 8000×8000 | 최대 3072×3072 | | 동영상 입력 | X | X | **O** | | PDF 직접 입력 | X | **O** | O | | 최대 이미지 수/요청 | 제한적 | 20개 | 16개 | | 실시간 카메라 | GPT-4o Live | X | Gemini Live | --- ## GPT-4o Vision — 균형 잡힌 범용성 **잘하는 것:** - 이미지 속 텍스트 인식 (OCR) — 영어 기준 정확도 높음 - 이미지 설명의 자연스러운 한국어 번역 - 스크린샷 분석 → 버그 찾기, UI 개선 제안 - 음식 사진 → 칼로리 추정 (재미있는 활용) ```python import base64 from openai import OpenAI with open("chart.png", "rb") as f: img_b64 = base64.b64encode(f.read()).decode() response = client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": [ {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}}, {"type": "text", "text": "이 차트의 핵심 인사이트를 한국어로 3가지 추출해줘"} ] }] ) ``` **약점:** - 정밀한 물체 위치 파악(좌표 지정)이 약함 - 수식, 다이어그램 이해에서 Gemini에 밀림 --- ## Claude 3.5 Sonnet Vision — 고해상도와 문서 처리 Claude는 멀티모달에서 고해상도 이미지와 PDF 처리에서 두각을 나타냅니다. **잘하는 것:** - **고해상도 문서 분석**: 의료 문서, 법률 계약서, 기술 도면 - **PDF 직접 입력**: 별도 파싱 없이 PDF 파일을 직접 전달 가능 - 코드가 찍힌 스크린샷 → 코드 추출 + 수정 제안 - 복잡한 표, 차트 → 구조화된 데이터 추출 ```python import anthropic with open("contract.pdf", "rb") as f: pdf_data = base64.b64encode(f.read()).decode() response = client.messages.create( model="claude-sonnet-4-6", messages=[{ "role": "user", "content": [ { "type": "document", "source": {"type": "base64", "media_type": "application/pdf", "data": pdf_data} }, {"type": "text", "text": "계약서의 핵심 조건과 위험 조항을 추출해줘"} ] }] ) ``` **약점:** - 동영상 입력 미지원 - 실시간 이미지 스트리밍 없음 --- ## Gemini 2.5 Pro Vision — 동영상과 대용량 Google의 Gemini는 멀티모달에서 가장 넓은 스펙을 가집니다. **잘하는 것:** - **동영상 직접 분석**: YouTube URL만 붙여넣으면 영상 내용 분석 - **1M 토큰 컨텍스트**: 수백 페이지 PDF + 텍스트 + 이미지를 한 번에 - 수식, 과학 다이어그램 이해 (구글 DeepMind 학습 데이터 효과) - 가장 저렴한 이미지 처리 비용 ```python import google.generativeai as genai model = genai.GenerativeModel("gemini-2.5-pro") response = model.generate_content([ "이 강의 영상의 핵심 내용을 목차 형식으로 정리해줘", genai.upload_file("lecture.mp4") # 동영상 직접 입력 ]) ``` **약점:** - 자연스러운 한국어 설명에서 Claude에 밀림 - 이미지 생성 기능 없음 (Imagen 별도) --- ## 태스크별 추천 | 태스크 | 추천 모델 | |--------|-----------| | PDF 계약서/문서 분석 | **Claude Sonnet** | | 동영상 내용 분석 | **Gemini Pro** | | 코드 스크린샷 → 수정 | **Claude** 또는 **GPT-4o** | | 차트/그래프 데이터 추출 | **Gemini Pro** | | 의료 영상, 기술 도면 | **Claude** (고해상도) | | 비용 절감 이미지 분류 | **Gemini Flash** | | 한국어 이미지 설명 | **Claude** 또는 **GPT-4o** | | 실시간 카메라 연동 | **GPT-4o Live** 또는 **Gemini Live** | --- ## 실전 팁: 이미지 입력 최적화 **1. 해상도 전처리** 필요 이상으로 큰 이미지는 비용만 늘립니다. ```python from PIL import Image img = Image.open("screenshot.png") # 1280×720 이하로 리사이즈 (대부분 태스크에 충분) img.thumbnail((1280, 720)) img.save("screenshot_resized.png") ``` **2. 여러 이미지 배치 처리** 개별 API 호출보다 한 번에 여러 이미지를 전달하면 효율적입니다. **3. 설명적인 프롬프트** "이 이미지를 설명해줘" 보다 "이 차트에서 2024년 Q3 매출 수치와 전년 대비 증감률을 추출해줘"처럼 구체적으로 요청하면 훨씬 좋은 결과가 나옵니다. --- ## 결론멀티모달 AI 선택 기준은 단순합니다: - **문서/PDF** → Claude - **동영상** → Gemini - **범용 + 비용** → GPT-4o 또는 Gemini Flash - **고해상도 기술 문서** → Claude 2025년에는 세 모델 모두 기본적인 이미지 이해는 충분히 잘 합니다. 차이는 특화 영역과 비용에 있습니다.

비교2026년 3월 28일

2025 오픈소스 LLM 완전 지형도: Llama, Mistral, Qwen, Gemma 비교

## 왜 오픈소스 LLM인가? 2023년까지 "오픈소스 LLM = 클로즈드 모델의 열등한 대안"이었습니다. 2025년에는 달라졌습니다. ```mermaid flowchart TD OS[오픈소스 LLM<br/>장점] --> Cost[비용<br/>API 비용 0원] OS --> Privacy[프라이버시<br/>데이터 외부 전송 없음] OS --> Control[제어<br/>파인튜닝, 양자화 자유] OS --> License[라이선스<br/>상업적 사용 가능] Closed[클로즈드 LLM<br/>장점] --> Quality[품질<br/>최상위 성능] Closed --> Ease[편의<br/>API 바로 사용] Closed --> Update[최신성<br/>지속 업데이트] ``` **2025년 격차**: 오픈소스 상위 모델(Llama 3.3 70B, Qwen 2.5 72B)은 GPT-4o의 80~90% 수준에 도달했습니다. --- ## 주요 오픈소스 LLM 지형도 ### Meta: Llama 시리즈 ``` Llama 3.1 (2024.07) ├── 8B — 로컬 실행 최적, 코딩 강점 ├── 70B — 오픈소스 중 가장 검증된 선택 └── 405B — 오픈소스 최강이었으나 이제 경쟁자 많음 Llama 3.2 (2024.09) ├── 1B, 3B — 모바일/엣지 특화 └── 11B, 90B Vision — 멀티모달 Llama 3.3 (2024.12) └── 70B — Llama 3.1 405B 수준 성능, 70B 크기 ``` **특징:** - Meta AI 계열사 지원으로 생태계가 가장 성숙 - HuggingFace, Ollama, vLLM 등 모든 도구에서 1순위 지원 - Llama 라이선스: 월 사용자 7억 명 이상이면 별도 협의 필요 ```python # Ollama로 Llama 3.3 70B 실행 # ollama pull llama3.3 import ollama response = ollama.chat(model="llama3.3", messages=[ {"role": "user", "content": "Python으로 퀵소트 구현해줘"} ]) print(response["message"]["content"]) ``` --- ### Mistral AI: 유럽의 강자 ``` Mistral 7B v0.1 (2023.09) — 오픈소스 LLM 혁신의 시작 Mixtral 8x7B (2023.12) — MoE로 성능 대폭 향상 Mistral Large (2024) — GPT-4 경쟁 모델 Mistral Small 3.2 (2025) — 24B, 로컬 최적화 ``` **특징:** - 유럽 규제(GDPR) 준수에 유리 - 코딩 특화 Codestral, 멀티모달 Pixtral 출시 - Apache 2.0 라이선스 (완전 자유) ```bash # Mistral Small 3.2 로컬 실행 (24GB VRAM 권장) ollama pull mistral-small3.2 ollama run mistral-small3.2 ``` --- ### Alibaba: Qwen 시리즈 한국어 성능이 가장 강한 오픈소스 모델입니다. ``` Qwen 2.5 (2024.09) ├── 0.5B ~ 72B 라인업 ├── Qwen2.5-Coder — 코딩 특화 └── Qwen2.5-Math — 수학 특화 Qwen3 (2025) ├── 0.6B ~ 235B ├── Thinking 버전 — 추론 특화 └── VL 버전 — 비전-언어 ``` **특징:** - 중국어 + 한국어 + 일본어 강세 (아시아 언어 최강) - 다양한 크기 옵션 (0.5B ~ 235B) - Apache 2.0 라이선스 ```python # Qwen2.5 14B 한국어 테스트 from transformers import AutoModelForCausalLM, AutoTokenizer import torch model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-14B-Instruct", torch_dtype=torch.bfloat16, device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-14B-Instruct") messages = [{"role": "user", "content": "한국의 AI 규제 현황을 설명해줘"}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=500) print(tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)) ``` --- ### Google: Gemma 시리즈 ``` Gemma 2 (2024.06) ├── 2B, 9B, 27B └── 27B — 오픈소스 중 영어 최강급 Gemma 3 (2025) ├── 4B, 12B, 27B └── 멀티모달(이미지 이해) 통합 ``` **특징:** - Google의 Gemini 훈련 기술을 오픈소스에 적용 - TPU 최적화 (Google Cloud에서 빠름) - Gemma 라이선스 (상업적 사용 허용) --- ### DeepSeek 계열 중국 스타트업 DeepSeek이 2024~2025년 오픈소스 생태계를 흔들었습니다: ``` DeepSeek V3 (2024.12) — 671B MoE, GPT-4o와 동등 DeepSeek R1 (2025.01) — o1 수준 추론, MIT 라이선스 R1 Distill 시리즈 — 1.5B ~ 70B 경량화 버전 ``` --- ## 크기별 추천 모델 (2025년 기준) | 파라미터 | 추천 모델 | VRAM 필요 | 용도 | |----------|-----------|-----------|------| | ~3B | Qwen3 4B (free) | 4GB | 모바일, 엣지 | | ~7B | Qwen2.5 7B, Mistral 7B | 8GB | 가벼운 태스크 | | ~14B | Qwen2.5 14B | 12GB | 균형잡힌 선택 | | ~30B | Qwen3 32B | 24GB | 고품질 로컬 | | ~70B | Llama 3.3 70B | 48GB | 최고 오픈소스 | | 70B+ | DeepSeek R1 Distill 70B | 48GB | 추론 특화 | --- ## 모델 선택 가이드 ```mermaid flowchart TD Start[오픈소스 모델 선택] --> Lang{주요 언어?} Lang -- 한국어 --> Qwen[Qwen2.5 or Qwen3] Lang -- 영어 --> Task{태스크?} Task -- 코딩 --> Code[Qwen2.5-Coder<br/>or Mistral Codestral] Task -- 추론/수학 --> Reason[DeepSeek R1 Distill<br/>or Qwen3 Thinking] Task -- 범용 --> Size{VRAM?} Size -- 8GB 이하 --> Small[Mistral 7B<br/>or Qwen2.5 7B] Size -- 24GB --> Mid[Qwen2.5 14B<br/>or Mistral Small 3.2] Size -- 48GB 이상 --> Large[Llama 3.3 70B] ``` --- ## 라이선스 비교 | 모델 | 라이선스 | 상업 사용 | 수정/배포 | |------|----------|-----------|-----------| | Llama 3 | Llama 3 Community | ✓ (7억 MAU 이하) | ✓ | | Mistral | Apache 2.0 | ✓ 무제한 | ✓ | | Qwen | Qwen License | ✓ (조건부) | ✓ | | Gemma | Gemma ToU | ✓ | ✓ | | DeepSeek R1 | MIT | ✓ 무제한 | ✓ | **가장 자유로운 라이선스**: Mistral(Apache 2.0), DeepSeek R1(MIT) --- ## 결론 2025년 오픈소스 LLM은 실용적인 선택지가 됐습니다. **추천 시작점:** 1. **한국어 서비스**: `Qwen2.5-14B` (Ollama로 로컬 실행) 2. **코딩 어시스턴트**: `Qwen2.5-Coder-32B` 3. **추론 태스크**: `DeepSeek-R1-Distill-Qwen-32B` 4. **범용 최강**: `Llama-3.3-70B` (48GB VRAM 필요) 클라우드 API 비용이 부담되거나 데이터 프라이버시가 중요한 프로젝트라면 오픈소스 LLM을 진지하게 검토할 시점입니다.

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI