한줄 소개

Llama 3.1 405B는 Meta가 2024년 7월에 공개한 4,050억 파라미터 규모의 오픈 웨이트 대형 언어 모델이다. "오픈소스도 GPT-4급이 될 수 있다"는 것을 처음으로 대규모로 증명한 모델로, 오픈 AI 모델의 역사에서 하나의 이정표로 평가받는다.

주요 특징

Llama 3.1 405B의 가장 큰 의미는 오픈 웨이트 모델이 폐쇄형 최상위 모델과 동등한 성능에 도달했다는 사실이다. 16,000개의 H100 GPU를 동원해 15조 개 토큰으로 학습시킨 결과물로, 출시 당시 GPT-4 Turbo, Claude 3 Opus와 직접 비교 가능한 수준의 벤치마크 점수를 기록했다.

128K 토큰 컨텍스트 윈도우를 지원한다. 이전 Llama 3 모델의 32K에서 4배 확장된 것으로, 긴 문서나 코드베이스를 한 번에 넣고 처리할 수 있다. 실사용자들 사이에서는 "이 정도 컨텍스트면 논문 전체를 넣고 요약시킬 수 있다"는 평가가 나왔다.

라이선스 측면에서도 의미 있는 변화가 있었다. Llama 3.1 Community License는 모델 출력물을 사용해 다른 모델을 학습시키는 것을 명시적으로 허용한다. 이는 모델 증류(distillation)와 합성 데이터 생성의 공식적인 문을 연 것이며, r/LocalLLaMA 커뮤니티에서는 이 라이선스 변경이 모델 성능만큼이나 중요한 발표라는 반응이 나왔다.

도구 사용(tool use) 기능을 공식 지원한다. 함수 호출을 통한 외부 API 연동이 가능하며, 에이전트 워크플로우 구축의 기반이 된다. 다만 실사용자들은 "도구 호출 정확도는 GPT-4o 대비 약간 떨어진다"는 피드백을 남기기도 했다.

Llama 3.1 405B 핵심 특징

할 수 있는 것

코드 생성에서 강점을 보인다. HumanEval 89.0%로 출시 당시 최상위권이었으며, 실사용자들은 복잡한 알고리즘 문제에서도 꽤 정확한 코드를 생성한다고 평가했다. 다만 Claude 3.5 Sonnet(92.0%)이나 GPT-4o(90.2%)에 비해 약간 뒤처진다는 의견이 많았고, 특히 프로덕션급 코드 리팩토링에서는 체감 차이가 있다는 평가도 있었다.

합성 데이터 생성과 모델 증류 용도로 많이 활용된다. 405B 모델의 출력으로 더 작은 모델을 파인튜닝하는 것이 라이선스상 허용되면서, 연구 커뮤니티에서 적극적으로 활용하고 있다. r/LocalLLaMA에서는 "405B로 생성한 데이터로 70B를 튜닝하면 원래 70B보다 확실히 성능이 올라간다"는 사례가 공유됐다.

다국어 번역에서도 활용된다. 공식적으로 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 8개 언어를 지원한다. 그러나 한국어는 공식 지원 언어에 포함되지 않는다는 점이 한국 사용자들에게는 분명한 한계다.

긴 문서 요약과 분석이 가능하다. 128K 컨텍스트 덕분에 논문, 법률 문서, 대규모 코드베이스를 통째로 입력해서 분석할 수 있다. 다만 실사용자들은 "컨텍스트 끝부분의 정보를 놓치는 경향이 있다"고 보고하기도 했다.

수학 문제 풀이에서는 MATH Lvl 5 73.8%로 준수한 성능을 보이지만, GPT-4o(76.6%)에 비해 살짝 낮다. 실사용에서는 "9.9 vs 9.11 비교 같은 단순한 수 비교에서도 틀리는 경우가 있다"는 보고가 있어, 수치 추론에서의 안정성은 아직 개선 여지가 있다.

성능

벤치마크 수치만 보면 출시 당시 최상위 모델들과 대등한 수준이었다.

벤치마크	Llama 3.1 405B	GPT-4o	Claude 3.5 Sonnet
MMLU	87.3	88.7	88.7
GPQA	50.7	53.6	59.4
MMLU-PRO	73.3	74.5	73.0
MATH Lvl 5	73.8	76.6	71.1
HumanEval	89.0	90.2	92.0
IFEval	88.6	84.3	86.5
GSM8K	96.8	-	-
BBH	85.9	-	-

(출처: Meta 공식 블로그, artificialanalysis.ai)

IFEval 88.6%에서는 GPT-4o(84.3%)와 Claude 3.5 Sonnet(86.5%)을 모두 앞선다. 지시 사항을 정확히 따르는 능력에서는 오히려 폐쇄형 모델보다 나은 셈이다.

그러나 실사용 체감은 벤치마크만큼 좋지 않다는 평가가 많다. Arena Elo 1286으로 GPT-4 Turbo에 근접하지만, GPT-4o 대비 직접 비교에서는 19.1%만 승리했다는 평가 결과가 있다 (출처: Vellum AI). 특히 복잡한 추론과 GPQA(50.7%)에서 Claude 3.5 Sonnet(59.4%)과 거의 9점 차이가 나는 것이 체감된다는 의견이 있었다.

속도 면에서도 약점이 있다. 중앙값 기준 30.9 tokens/s로, 비슷한 크기의 오픈 웨이트 모델 중앙값(59.2 t/s)에도 못 미친다 (출처: artificialanalysis.ai). GPT-4o나 Claude 3.5 Sonnet보다 느리며, 이는 405B라는 거대한 모델 크기에서 오는 근본적인 한계다.

현재 시점(2026년 4월)에서 보면, 후속 모델인 Llama 3.3 70B가 405B에 근접하는 성능을 훨씬 적은 비용과 빠른 속도로 제공하고, Llama 4 시리즈가 이미 출시된 상태다. 405B는 역사적 의의가 크지만, 실용적 선택지로서의 매력은 줄어들었다.

Llama 3.1 405B 벤치마크 비교

사용 방법

웹/앱 (일반 사용자)

Meta AI(meta.ai)에서 직접 사용할 수 있다. 별도 가입 없이 웹 브라우저에서 바로 대화가 가능하며, 405B 모델이 기본으로 사용된다. WhatsApp, Instagram, Facebook Messenger에서도 Meta AI를 통해 접근할 수 있다.

API (개발자)

여러 API 제공업체를 통해 접근할 수 있다. Amazon Bedrock, Azure AI, Together AI, Fireworks AI, NVIDIA NIM 등에서 호스팅하고 있으며, 각 제공업체의 SDK를 통해 통합이 가능하다. Hugging Face에서 모델 가중치를 직접 다운로드해서 자체 서버에 배포할 수도 있지만, 8개 이상의 고성능 GPU(A100 80GB 또는 H100)가 필요하다.

공식 문서: https://ai.meta.com/blog/meta-llama-3-1/ Hugging Face 모델 카드: https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct

가격

오픈 웨이트 모델이므로 모델 자체는 무료로 다운로드할 수 있다. 다만 자체 호스팅에는 상당한 하드웨어 비용이 든다.

API를 통한 사용 시 제공업체별 가격이 다르다. 대표적인 가격(1M 토큰 기준):

입력: $2.75 / 출력:$ 6.50 (중앙값)
Amazon Standard: blended $2.40/1M
Amazon Latency Optimized: blended $3.00/1M
Azure: blended $8.00/1M

GPT-4o(입력 $2.50, 출력$ 10.00)와 비교하면 출력 토큰 단가에서 유리하다. Claude 3.5 Sonnet(입력 $3.00, 출력$ 15.00) 대비로는 상당히 저렴한 편이다.

실사용자들은 "API 제공업체를 잘 고르면 GPT-4o보다 저렴하면서 비슷한 성능을 낼 수 있다"고 평가한다. 그러나 "속도가 느려서 체감 비용 대비 효율은 기대보다 낮다"는 의견도 있다. 후속 모델인 Llama 3.3 70B가 405B에 근접하는 성능을 훨씬 낮은 가격에 제공하면서, 가성비 측면에서 405B의 매력은 감소했다.

한국어 토큰 효율 데이터는 미공개다. Llama 3.1의 토크나이저는 Llama 2 대비 효율이 개선되었으나, 한국어에 대한 별도 최적화는 이루어지지 않았다. 한국어는 공식 지원 언어에 포함되지 않으므로, 한국어 처리 시 영어 대비 더 많은 토큰이 소모될 가능성이 높다.

Llama 3.1 405B 가격 비교

기술 사양

항목	사양
파라미터 수	405B (4,050억)
아키텍처	Transformer (Grouped-Query Attention)
컨텍스트 윈도우	128,000 tokens
최대 출력 길이	2,048 tokens
학습 데이터	15T tokens
학습 GPU	16,000x NVIDIA H100
학습 데이터 기준일	2023년 12월
출시일	2024년 7월 23일
라이선스	Llama 3.1 Community License
지원 언어	영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
도구 사용	지원 (Function Calling)
파인튜닝	지원
한국어 공식 지원	미지원 (커뮤니티 한국어 모델 Bllossom 존재)

Grouped-Query Attention(GQA)을 사용해 추론 시 메모리 효율을 개선했다. 이전 Llama 2의 Multi-Head Attention 대비 추론 속도에서 이점이 있다.

한국어의 경우, Bllossom 팀이 Llama 3.1 405B 기반으로 한국어-영어 이중 언어 모델을 개발해 공개했다. 원본 대비 한국어 성능이 5-10% 향상되었으며, GPT-4와 유사하거나 약간 낮은 수준의 한국어 성능을 보인다 (출처: Hugging Face Bllossom/llama-3.1-Korean-Bllossom-405B).

Llama 3.1 405B 기술 사양