AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Mistral: Mistral Nemo

Mistral Nemo

Mistral AILLM자연어 처리컴퓨터 비전오디오 처리131K 토큰
2024년 7월 19일Apache 2.0

Mistral Nemo는 Mistral AI와 NVIDIA가 공동 개발한 12B 파라미터 경량 모델입니다. Apache 2.0 라이선스의 완전한 오픈소스 모델로, 128K 토큰이라는 소형 모델 치고는 파격적으로 큰 컨텍스트를 지원합니다. MMLU 68점으로 12B 크기에서 실용적인 기본 성능을 제공합니다.

Mistral Nemo의 독특한 포지션은 '12B 크기에 128K 컨텍스트'라는 조합입니다. 대부분의 12B 모델이 4K-16K 컨텍스트를 지원하는 데 반해, 128K는 장문 문서 처리에서 소형 모델의 한계를 크게 넓혀줍니다. NVIDIA와의 공동 개발로 NVIDIA GPU에서의 추론 최적화가 잘 되어 있으며, TensorRT-LLM 등 NVIDIA 추론 프레임워크와의 호환성이 뛰어납니다.

입력 0.02/1M토큰,출력0.02/1M 토큰, 출력 0.02/1M토큰,출력0.04/1M 토큰으로 거의 무료에 가까운 가격입니다. 12B 크기는 단일 소비자 GPU(12GB VRAM)에서 양자화 없이도 실행 가능하며, 양자화 시 8GB VRAM에서도 구동됩니다. Apache 2.0 라이선스로 어떤 상업적 용도로도 자유롭게 사용 가능합니다.

긴 문서를 처리해야 하지만 대형 모델을 실행할 인프라가 없는 환경, 비용에 극도로 민감한 대량 텍스트 처리, NVIDIA GPU 최적화가 필요한 프로덕션 배포, 또는 경량 오픈소스 모델 기반의 파인튜닝에 적합합니다.

스펙

컨텍스트 윈도우

131K 토큰

라이선스

Apache 2.0

출시일

2024년 7월 19일

학습 마감일

2024년 4월 30일

가성비 지수

66.8

API 가격 (혼합)

입력 $0.020/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.02 / 1M 토큰

출력 (Completion)

$0.04 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

지시따르기최강

63.8

복잡한 지시사항 이해 및 수행

일반지식

35.2

다양한 분야 지식 및 이해

수학/추론

20.9

수학, 과학, 논리적 추론

Provider

Mistral AI

Mistral AI의 다른 모델

Mistral: Mixtral 8x7B InstructMistral: Mistral Small 3.1 24BMistral: Mixtral 8x22B InstructMistral: Mistral Medium 3.1Mistral: Mistral 7B Instruct v0.1

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

LLM 종합 30.1

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
BBH0.521.693.1%
GPQALLM29.064.094.3

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Mistral NemoMistral AI30.1-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

관련 블로그 글

심층 분석2026년 3월 31일

TurboQuant 완전 해부 — Google의 3비트 KV 캐시 양자화가 LLM 효율성을 재정의하다

2026년 3월, Google Research가 발표한 TurboQuant가 LLM 효율성 논의의 중심에 섰다. ICLR 2026에서 공식 발표 예정인 이 알고리즘은 LLM의 키-값(KV) 캐시를 3비트로 양자화하면서도 정확도 손실이 없다는 놀라운 결과를 보여주고 있다. Hacker News, Reddit r/LocalLLaMA, llama.cpp 커뮤니티에서 활발한 논의가 이어지고 있다. ## KV 캐시가 왜 문제인가 LLM이 긴 텍스트를 처리할 때, 이전에 계산한 키(Key)와 값(Value) 벡터를 캐시에 저장해야 한다. 이 KV 캐시는 모델의 메모리 사용량에서 가장 큰 비중을 차지하며, 컨텍스트 길이에 비례해 선형적으로 증가한다. 32비트 부동소수점으로 저장되는 KV 캐시는 100만 토큰 컨텍스트에서 수십 GB의 메모리를 소비할 수 있다. 이는 H100 같은 고성능 GPU에서도 병목이 되며, 로컬 환경에서 큰 모델을 실행하는 것을 사실상 불가능하게 만드는 주요 원인이다. ## TurboQuant의 2단계 압축 TurboQuant는 두 가지 보완적 기법을 결합한 2단계 압축 구조를 사용한다. ### 1단계: PolarQuant — 좌표계의 전환 기존 양자화 방법은 직교좌표계(Cartesian)에서 작동한다. 각 차원의 값을 독립적으로 양자화하는데, 이 과정에서 정규화(normalization) 단계가 필수적이며 메모리 오버헤드가 발생한다. PolarQuant는 발상을 전환한다. 벡터를 극좌표계(polar coordinates)로 변환하여 반지름(radius)과 각도(angle)로 표현한다. 이렇게 하면 정규화가 자연스럽게 해결되고, 데이터를 '원형 격자'에 매핑하여 효율적으로 압축할 수 있다. Lloyd-Max 알고리즘으로 최적의 양자화 격자를 계산하며, 이 과정에서 데이터 분포에 맞는 비균등(non-uniform) 양자화를 달성한다. ### 2단계: QJL — 1비트로 잔여 오차 제거 Quantized Johnson-Lindenstrauss(QJL) 알고리즘은 1단계에서 남은 잔여 오차를 단 1비트의 추가 압축으로 제거한다. Johnson-Lindenstrauss 변환의 핵심 원리는, 고차원 벡터를 저차원으로 투영할 때 벡터 간 거리가 보존된다는 것이다. QJL은 이 투영 결과를 부호 비트(+1 또는 -1)만으로 표현하면서도, 어텐션 점수 계산 시 편향 없는(unbiased) 추정을 보장한다. 쉽게 비유하면, 1단계가 '사진의 해상도를 줄이는 것'이라면, 2단계는 '줄인 후 생긴 미세한 노이즈를 수학적으로 보정하는 것'이다. ## 벤치마크 성과 TurboQuant는 Gemma, Mistral, Llama-3.1-8B-Instruct 모델에서 테스트되었으며, 다양한 장문 컨텍스트 벤치마크에서 정확도 손실 없이 동작함을 입증했다. | 벤치마크 | 용도 | 결과 | |----------|------|------| | LongBench | 장문 이해 | 정확도 유지 | | Needle In A Haystack | 정보 검색 | 정확도 유지 | | ZeroSCROLLS | 장문 요약 | 정확도 유지 | | RULER | 규칙 따르기 | 정확도 유지 | | L-Eval | 장문 평가 | 정확도 유지 | **핵심 수치**: - H100 GPU에서 32비트 대비 최대 **8배 성능 향상** - KV 메모리 풋프린트 **6배 감소** - **3비트 양자화**로 정확도 손실 제로 - 학습이나 캘리브레이션 **불필요** — 어떤 모델에든 즉시 적용 ## 기존 양자화 기법과의 비교 벡터 검색(vector search) 분야에서 TurboQuant는 기존 기법들을 앞섰다. | 기법 | 특징 | 1@k Recall | |------|------|-----------| | Product Quantization | 벡터를 서브벡터로 분할 | 낮음 | | RaBbiTQ | 이진 양자화 기반 | 중간 | | TurboQuant | 극좌표 + JL 변환 | **최고** | ## 커뮤니티 반응과 구현 현황 Reddit r/LocalLLaMA에서는 TurboQuant의 핵심 아이디어를 쉽게 설명하는 게시물이 화제가 되었다. 로컬 LLM 사용자들에게 메모리 제약 완화는 직접적인 실익이 있기 때문이다. llama.cpp 커뮤니티에서는 이미 TurboQuant 지원 요청(Issue #20977)과 기술 논의(Discussion #20969)가 활발히 진행 중이며, GitHub에 turboquant_plus와 llama-cpp-turboquant 같은 초기 구현체가 등장했다. XDA-Developers는 "TurboQuant가 로컬 LLM을 제한해온 숨겨진 메모리 문제를 해결한다"고 평가했고, VentureBeat는 "메모리 속도 8배, 비용 50% 이상 절감"이라고 보도했다. ## 한계와 전망 - 현재 KV 캐시와 벡터 검색에 특화되어 있으며, 모델 가중치 양자화에는 직접 적용되지 않는다 - 극단적 저비트(1-2비트) 환경에서의 성능은 추가 연구가 필요하다 - Hacker News에서는 선행 연구 인용 누락과 블로그 설명의 기하학적 개념 혼란을 지적하는 의견도 있었다 하지만 TurboQuant의 가장 큰 장점은 zero-calibration, 즉 사전 학습이나 파인튜닝 없이 어떤 모델에든 즉시 적용할 수 있다는 점이다. llama.cpp에 통합되면 로컬 LLM 생태계 전체에 즉각적인 영향을 미칠 것으로 예상된다. ```references https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ https://news.hada.io/topic?id=27867 https://github.com/ggml-org/llama.cpp/issues/20977 https://venturebeat.com/infrastructure/googles-new-turboquant-algorithm-speeds-up-ai-memory-8x-cutting-costs-by-50 https://www.xda-developers.com/turboquant-tackles-hidden-memory-problem-local-llms/ ```

이전글

Mistral: Mistral Medium 3.1

다음글

Mistral: Mistral Small 3.1 24B

댓글

0개

댓글을 작성하려면

로그인

해주세요

관련 기사

TurboQuant 완전 해부 — Google의 3비트 KV 캐시 양자화가 LLM 효율성을 재정의하다

DEEP_DIVE

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI

%
IFEvalLLM63.885.395.9%
MATH Lvl 5LLM12.775.599.2%
MMLU68.084.298.0%
MMLU-PROLLM35.273.890.5%
MUSR0.40.40.5%
Mistral Large 3 2512Mistral AI72.8-