AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Meta: Llama 3.1 405B (base)

Llama 3.1 405B (base)

MetaLLM자연어 처리컴퓨터 비전오디오 처리128K 토큰
2024년 7월 23일Llama 3.1 Community License

한줄 소개

Llama 3.1 405B는 Meta가 2024년 7월에 공개한 4,050억 파라미터 규모의 오픈 웨이트 대형 언어 모델이다. "오픈소스도 GPT-4급이 될 수 있다"는 것을 처음으로 대규모로 증명한 모델로, 오픈 AI 모델의 역사에서 하나의 이정표로 평가받는다.

주요 특징

Llama 3.1 405B의 가장 큰 의미는 오픈 웨이트 모델이 폐쇄형 최상위 모델과 동등한 성능에 도달했다는 사실이다. 16,000개의 H100 GPU를 동원해 15조 개 토큰으로 학습시킨 결과물로, 출시 당시 GPT-4 Turbo, Claude 3 Opus와 직접 비교 가능한 수준의 벤치마크 점수를 기록했다.

128K 토큰 컨텍스트 윈도우를 지원한다. 이전 Llama 3 모델의 32K에서 4배 확장된 것으로, 긴 문서나 코드베이스를 한 번에 넣고 처리할 수 있다. 실사용자들 사이에서는 "이 정도 컨텍스트면 논문 전체를 넣고 요약시킬 수 있다"는 평가가 나왔다.

라이선스 측면에서도 의미 있는 변화가 있었다. Llama 3.1 Community License는 모델 출력물을 사용해 다른 모델을 학습시키는 것을 명시적으로 허용한다. 이는 모델 증류(distillation)와 합성 데이터 생성의 공식적인 문을 연 것이며, r/LocalLLaMA 커뮤니티에서는 이 라이선스 변경이 모델 성능만큼이나 중요한 발표라는 반응이 나왔다.

도구 사용(tool use) 기능을 공식 지원한다. 함수 호출을 통한 외부 API 연동이 가능하며, 에이전트 워크플로우 구축의 기반이 된다. 다만 실사용자들은 "도구 호출 정확도는 GPT-4o 대비 약간 떨어진다"는 피드백을 남기기도 했다.

Llama 3.1 405B 핵심 특징

할 수 있는 것

코드 생성에서 강점을 보인다. HumanEval 89.0%로 출시 당시 최상위권이었으며, 실사용자들은 복잡한 알고리즘 문제에서도 꽤 정확한 코드를 생성한다고 평가했다. 다만 Claude 3.5 Sonnet(92.0%)이나 GPT-4o(90.2%)에 비해 약간 뒤처진다는 의견이 많았고, 특히 프로덕션급 코드 리팩토링에서는 체감 차이가 있다는 평가도 있었다.

합성 데이터 생성과 모델 증류 용도로 많이 활용된다. 405B 모델의 출력으로 더 작은 모델을 파인튜닝하는 것이 라이선스상 허용되면서, 연구 커뮤니티에서 적극적으로 활용하고 있다. r/LocalLLaMA에서는 "405B로 생성한 데이터로 70B를 튜닝하면 원래 70B보다 확실히 성능이 올라간다"는 사례가 공유됐다.

다국어 번역에서도 활용된다. 공식적으로 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 8개 언어를 지원한다. 그러나 한국어는 공식 지원 언어에 포함되지 않는다는 점이 한국 사용자들에게는 분명한 한계다.

긴 문서 요약과 분석이 가능하다. 128K 컨텍스트 덕분에 논문, 법률 문서, 대규모 코드베이스를 통째로 입력해서 분석할 수 있다. 다만 실사용자들은 "컨텍스트 끝부분의 정보를 놓치는 경향이 있다"고 보고하기도 했다.

수학 문제 풀이에서는 MATH Lvl 5 73.8%로 준수한 성능을 보이지만, GPT-4o(76.6%)에 비해 살짝 낮다. 실사용에서는 "9.9 vs 9.11 비교 같은 단순한 수 비교에서도 틀리는 경우가 있다"는 보고가 있어, 수치 추론에서의 안정성은 아직 개선 여지가 있다.

성능

벤치마크 수치만 보면 출시 당시 최상위 모델들과 대등한 수준이었다.

벤치마크Llama 3.1 405BGPT-4oClaude 3.5 Sonnet
MMLU87.388.788.7
GPQA50.753.659.4
MMLU-PRO73.374.573.0
MATH Lvl 573.876.671.1
HumanEval89.090.292.0
IFEval88.684.386.5
GSM8K96.8--
BBH85.9--

(출처: Meta 공식 블로그, artificialanalysis.ai)

IFEval 88.6%에서는 GPT-4o(84.3%)와 Claude 3.5 Sonnet(86.5%)을 모두 앞선다. 지시 사항을 정확히 따르는 능력에서는 오히려 폐쇄형 모델보다 나은 셈이다.

그러나 실사용 체감은 벤치마크만큼 좋지 않다는 평가가 많다. Arena Elo 1286으로 GPT-4 Turbo에 근접하지만, GPT-4o 대비 직접 비교에서는 19.1%만 승리했다는 평가 결과가 있다 (출처: Vellum AI). 특히 복잡한 추론과 GPQA(50.7%)에서 Claude 3.5 Sonnet(59.4%)과 거의 9점 차이가 나는 것이 체감된다는 의견이 있었다.

속도 면에서도 약점이 있다. 중앙값 기준 30.9 tokens/s로, 비슷한 크기의 오픈 웨이트 모델 중앙값(59.2 t/s)에도 못 미친다 (출처: artificialanalysis.ai). GPT-4o나 Claude 3.5 Sonnet보다 느리며, 이는 405B라는 거대한 모델 크기에서 오는 근본적인 한계다.

현재 시점(2026년 4월)에서 보면, 후속 모델인 Llama 3.3 70B가 405B에 근접하는 성능을 훨씬 적은 비용과 빠른 속도로 제공하고, Llama 4 시리즈가 이미 출시된 상태다. 405B는 역사적 의의가 크지만, 실용적 선택지로서의 매력은 줄어들었다.

Llama 3.1 405B 벤치마크 비교

사용 방법

웹/앱 (일반 사용자)

Meta AI(meta.ai)에서 직접 사용할 수 있다. 별도 가입 없이 웹 브라우저에서 바로 대화가 가능하며, 405B 모델이 기본으로 사용된다. WhatsApp, Instagram, Facebook Messenger에서도 Meta AI를 통해 접근할 수 있다.

API (개발자)

여러 API 제공업체를 통해 접근할 수 있다. Amazon Bedrock, Azure AI, Together AI, Fireworks AI, NVIDIA NIM 등에서 호스팅하고 있으며, 각 제공업체의 SDK를 통해 통합이 가능하다. Hugging Face에서 모델 가중치를 직접 다운로드해서 자체 서버에 배포할 수도 있지만, 8개 이상의 고성능 GPU(A100 80GB 또는 H100)가 필요하다.

공식 문서: https://ai.meta.com/blog/meta-llama-3-1/ Hugging Face 모델 카드: https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct

가격

오픈 웨이트 모델이므로 모델 자체는 무료로 다운로드할 수 있다. 다만 자체 호스팅에는 상당한 하드웨어 비용이 든다.

API를 통한 사용 시 제공업체별 가격이 다르다. 대표적인 가격(1M 토큰 기준):

  • 입력: 2.75/출력:2.75 / 출력: 2.75/출력:6.50 (중앙값)
  • Amazon Standard: blended $2.40/1M
  • Amazon Latency Optimized: blended $3.00/1M
  • Azure: blended $8.00/1M

GPT-4o(입력 2.50,출력2.50, 출력 2.50,출력10.00)와 비교하면 출력 토큰 단가에서 유리하다. Claude 3.5 Sonnet(입력 3.00,출력3.00, 출력 3.00,출력15.00) 대비로는 상당히 저렴한 편이다.

실사용자들은 "API 제공업체를 잘 고르면 GPT-4o보다 저렴하면서 비슷한 성능을 낼 수 있다"고 평가한다. 그러나 "속도가 느려서 체감 비용 대비 효율은 기대보다 낮다"는 의견도 있다. 후속 모델인 Llama 3.3 70B가 405B에 근접하는 성능을 훨씬 낮은 가격에 제공하면서, 가성비 측면에서 405B의 매력은 감소했다.

한국어 토큰 효율 데이터는 미공개다. Llama 3.1의 토크나이저는 Llama 2 대비 효율이 개선되었으나, 한국어에 대한 별도 최적화는 이루어지지 않았다. 한국어는 공식 지원 언어에 포함되지 않으므로, 한국어 처리 시 영어 대비 더 많은 토큰이 소모될 가능성이 높다.

Llama 3.1 405B 가격 비교

기술 사양

항목사양
파라미터 수405B (4,050억)
아키텍처Transformer (Grouped-Query Attention)
컨텍스트 윈도우128,000 tokens
최대 출력 길이2,048 tokens
학습 데이터15T tokens
학습 GPU16,000x NVIDIA H100
학습 데이터 기준일2023년 12월
출시일2024년 7월 23일
라이선스Llama 3.1 Community License
지원 언어영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
도구 사용지원 (Function Calling)
파인튜닝지원
한국어 공식 지원미지원 (커뮤니티 한국어 모델 Bllossom 존재)

Grouped-Query Attention(GQA)을 사용해 추론 시 메모리 효율을 개선했다. 이전 Llama 2의 Multi-Head Attention 대비 추론 속도에서 이점이 있다.

한국어의 경우, Bllossom 팀이 Llama 3.1 405B 기반으로 한국어-영어 이중 언어 모델을 개발해 공개했다. 원본 대비 한국어 성능이 5-10% 향상되었으며, GPT-4와 유사하거나 약간 낮은 수준의 한국어 성능을 보인다 (출처: Hugging Face Bllossom/llama-3.1-Korean-Bllossom-405B).

Llama 3.1 405B 기술 사양

참고 자료

Introducing Llama 3.1: Our most capable models to date
Meta AI

Introducing Llama 3.1: Our most capable models to date

Bringing open intelligence to all, our latest models expand context length, add support across eight languages, and include Meta Llama 3.1 405B— the first frontier-level open source AI model.

meta-llama/Llama-3.1-405B-Instruct · Hugging Face
huggingface.co

meta-llama/Llama-3.1-405B-Instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Llama 3.1 405B - Intelligence, Performance & Price Analysis
artificialanalysis.ai

Llama 3.1 405B - Intelligence, Performance & Price Analysis

Analysis of Meta's Llama 3.1 Instruct 405B and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Bllossom/llama-3.1-Korean-Bllossom-405B · Hugging Face
huggingface.co

Bllossom/llama-3.1-Korean-Bllossom-405B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Evaluation: Llama 3.1 405b vs Leading Closed-Source Modelst
Vellum

Evaluation: Llama 3.1 405b vs Leading Closed-Source Modelst

Discover How Llama 3.1 405b Stacks Up Against GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet on Three Tasks

Llama 3.1 405B vs GPT 4o vs Claude 3.5 Sonnet: Which model is best for coding? - Bind AI
Bind AI

Llama 3.1 405B vs GPT 4o vs Claude 3.5 Sonnet: Which model is best for coding? - Bind AI

Meta has recently introduced the Llama 3.1 405B, which they believe is the world’s most capable open-source foundation model, trained […]

스펙

컨텍스트 윈도우

128K 토큰

라이선스

Llama 3.1 Community License

출시일

2024년 7월 23일

학습 마감일

2023년 12월 1일

가성비 지수

1.1

API 가격 (혼합)

입력 $2.75/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$2.75 / 1M 토큰

출력 (Completion)

$6.50 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

코딩최강

89.0

코드 생성, 버그 수정, 소프트웨어 엔지니어링

지시따르기

88.6

복잡한 지시사항 이해 및 수행

멀티모달

73.4

이미지, 비디오 등 멀티모달 이해

일반지식

73.3

다양한 분야 지식 및 이해

Provider

Meta

Meta의 다른 모델

Meta: Llama 4 ScoutMeta: Llama 3 70B InstructMeta: Llama 3.3 70B InstructMeta: Llama 4 MaverickMeta: Llama 3.2 3B Instruct

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

LLM 종합 69.7

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
Arena Elo1286.01369.21493.0elo

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Llama 3.1 405B (base)Meta69.7-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

이전글

Google: Gemma 4

다음글

Meta: Llama 3.1 8B Instruct

댓글

0개

댓글을 작성하려면

로그인

해주세요

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI

수학/추론

62.3

수학, 과학, 논리적 추론

BBH
85.9
21.6
93.1
%
GPQALLM50.764.094.3%
GSM8K96.889.799.0%
HumanEvalLLM89.086.097.6%
IFEvalLLM88.685.395.9%
MATH Lvl 5LLM73.875.599.2%
MMLU87.384.298.0%
MMLU-PROLLM73.373.890.5%
MMMU73.471.185.0%
Mistral Large 3 2512Mistral AI72.8-