Command A는 캐나다 AI 기업 Cohere가 2025년 3월에 출시한 111B 파라미터 규모의 엔터프라이즈 특화 대규모 언어 모델이다. 기업용 RAG, 에이전트, 도구 사용, 다국어 처리에 초점을 맞추고 있으며, GPU 2장(A100 또는 H100)만으로 구동할 수 있는 효율적인 아키텍처가 특징이다.
Command A의 가장 두드러진 차별점은 효율성이다. 111B 파라미터를 GPU 2장으로 돌릴 수 있다는 건 같은 규모의 다른 모델 대비 인프라 비용이 크게 낮다는 의미다. 전작 Command R+ 대비 추론 처리량이 150% 향상됐고, 최대 156 tokens/sec의 생성 속도를 보인다(출처: Cohere 공식 블로그). GPT-4o 대비 1.75배 빠른 토큰 생성 속도라는 게 Cohere 측 주장이다.
256K 토큰 컨텍스트 윈도우는 A4 기준 약 384페이지 분량을 한 번에 처리할 수 있는 수준이다. 법률 계약서, 기술 문서, 재무 보고서 같은 대량 문서 분석에서 분할 처리 없이 전체를 입력할 수 있다. 23개 언어를 네이티브로 지원하며, 한국어, 일본어, 아랍어 등 주요 비즈니스 언어가 포함된다. 특히 아랍어 방언 처리에서 GPT-4o(92.2%)와 DeepSeek-V3(94.9%)를 넘어서는 98.2% 정확도를 기록했다(출처: Cohere 공식 블로그).
Cohere의 Embed v3 임베딩 모델, Rerank 모델과의 조합은 RAG 파이프라인 구축에서 독보적인 시너지를 만든다. Tool Use API를 통한 함수 호출을 네이티브로 지원하므로 CRM, ERP 등 기업 시스템과의 통합이 용이하다.

Command A가 가장 강점을 보이는 영역은 엔터프라이즈 RAG다. 긴 문서를 입력하고 특정 정보를 정확히 추출하거나 요약하는 작업에서 탁월한 성능을 보인다. Cohere의 RAG 시스템은 답변에 인용(citation)을 자동으로 달아주는 기능이 내장되어 있어, 출처 투명성이 중요한 법률이나 금융 분야에서 특히 유용하다.
에이전트 워크플로우에서도 강점이 있다. Tool Use 벤치마크인 BFCL에서 63.8%, tau-bench에서 51.7%를 기록했다(출처: Cohere Technical Report). 불필요한 도구 호출을 잘 회피하는 것이 실무에서 중요한 장점으로 꼽힌다. 실제 사용자들은 복잡한 멀티스텝 비즈니스 프로세스 자동화에서 안정적이라고 평가한다.
다국어 번역과 크로스링구얼 질의응답도 강점이다. 영어로 된 문서에 한국어로 질문해도 정확한 답변을 생성할 수 있으며, Command A Translate 모델과 결합하면 23개 언어 간 번역도 가능하다.
다만 한계도 분명하다. 코드 생성 능력은 전문 코딩 모델에 비해 떨어진다는 평가가 많다. 개방형 창작 글쓰기에서도 GPT-4o나 Claude 같은 모델 대비 창의성이 부족하다는 의견이 있다. 텍스트 전용 모델이라 이미지나 비디오 입력은 별도의 Command A Vision 모델을 사용해야 한다.
벤치마크 수치를 보면, Command A는 GPT-4o와 대부분의 항목에서 경쟁할 수 있는 수준이다. IFEval(지시 따르기)에서 90.9%로 GPT-4o(81%)를 크게 앞서고, MATH Lvl 5에서 80%로 GPT-4o(75.9%)를 상회한다. GPQA(대학원 수준 과학)에서 52.7%로 GPT-4o(46%)보다 높다(출처: Cohere Technical Report, docsbot.ai). MMLU에서는 85.5%로 GPT-4o(85.7%)와 거의 동률이다.
| 벤치마크 | Command A | GPT-4o | 비고 |
|---|---|---|---|
| MMLU | 85.5% | 85.7% | 거의 동률 |
| GPQA | 52.7% | 46.0% | Command A 우세 |
| MATH Lvl 5 | 80.0% | 75.9% | Command A 우세 |
| IFEval | 90.9% | 81.0% | Command A 크게 우세 |
| tau-bench | 51.7% | - | 에이전틱 태스크 |
| BFCL | 63.8% | - | 도구 사용 |
| MBPP+ | 86.2% | - | Python 코딩 |
다만 실제 사용 체감은 벤치마크와 다소 괴리가 있다. Artificial Analysis 기준 Intelligence Index 13점으로 오픈 웨이트 모델 중 평균 수준이며, 출력 속도는 Cohere API 기준 37.3 tokens/sec로 중간값(64.0 tok/s) 대비 느린 편이다(출처: artificialanalysis.ai). 첫 토큰 생성 시간(TTFT)도 1.89초로 다소 느리다. 공식 발표의 156 tok/s는 자체 인프라 최적 조건에서의 수치이고, 실제 API 사용 시에는 이보다 상당히 낮다는 점을 감안해야 한다.
Arena 리더보드에서는 13위를 기록하며 오픈 웨이트 111B 모델로서는 선전하고 있다. 하지만 DeepSeek-V3와 비교하면 가격 대비 성능에서 밀리는 면이 있고, 최신 추론(reasoning) 모델들과 비교하면 복잡한 추론 작업에서 격차가 있다. Command A는 추론 모델이 아니라 직접 응답 방식이므로, 장시간 추론이 필요한 작업보다는 빠른 응답이 필요한 엔터프라이즈 업무에 더 적합하다.

Command A는 Cohere Platform API를 통해 사용할 수 있다. 공식 SDK(Python, TypeScript)가 제공되며, 모델 식별자는 command-a-03-2025다.
개발자는 Cohere Dashboard(dashboard.cohere.com)에서 API 키를 발급받아 바로 사용할 수 있다. Trial 키는 무료로 발급되며 월 1,000회 호출 제한이 있다. Production 키로 전환하면 제한이 크게 완화된다.
import cohere
co = cohere.ClientV2("YOUR_API_KEY")
response = co.chat(
model="command-a-03-2025",
messages=[{"role": "user", "content": "Hello"}]
)
HuggingFace에서 오픈 웨이트 모델(CohereLabs/c4ai-command-a-03-2025)을 다운로드해 자체 인프라에서 구동할 수도 있다. CC-BY-NC 4.0 라이선스이므로 비상업적 용도는 무료이고, 상업적 사용은 Cohere와 별도 라이선스 협의가 필요하다.
Oracle Cloud Infrastructure(OCI), AWS Bedrock 등 주요 클라우드 서비스에서도 제공되므로, 기존 클라우드 인프라에 통합하기도 수월하다.
API 기준으로 입력 10.00 per 1M 토큰이다. 3:1 비율 블렌딩 기준 $4.38/1M 토큰으로, GPT-4o와 정확히 동일한 가격대다(출처: artificialanalysis.ai).
DeepSeek-V3의 블렌딩 가격 6.00/1M)보다는 저렴하다.
Trial 키를 통한 무료 평가가 가능하지만, 월 1,000회 호출 제한이 있어 본격적인 프로덕션 테스트에는 부족하다. 엔터프라이즈 고객은 Cohere와 직접 계약하여 볼륨 디스카운트를 받을 수 있다.
한국어 토큰 효율 데이터는 공식적으로 미공개 상태다. 다만 Command A는 한국어를 23개 네이티브 지원 언어 중 하나로 포함하고 있어, 별도의 다국어 토크나이저 최적화가 되어 있을 가능성이 높다. 참고로 Cohere는 BPE 기반 토크나이저를 사용하며, 한국어 텍스트의 토큰 효율은 영어 대비 약 1.5-2배 더 많은 토큰을 소비하는 것이 일반적인 패턴이다.

| 항목 | 상세 |
|---|---|
| 파라미터 | 111B (Dense 모델, MoE 아님) |
| 컨텍스트 윈도우 | 256,000 토큰 |
| 최대 출력 토큰 | 8,000 토큰 |
| 아키텍처 | Transformer (Decoder-only) |
| 학습 데이터 기준일 | 2024-06-01 |
| 출시일 | 2025-03-13 |
| 라이선스 | CC-BY-NC 4.0 (상업용 별도) |
| 필요 GPU | 2x A100 또는 H100 |
| 추론 속도 | 최대 156 tok/s (자체 인프라) |
| API 속도 | 37.3 tok/s (Cohere API 기준, artificialanalysis.ai 측정) |
| 지원 언어 | 23개 (한국어, 영어, 일본어, 중국어, 아랍어 등) |
| 모달리티 | 텍스트 입출력 전용 |
| API 식별자 | command-a-03-2025 |
| 관련 모델 | Command A Vision (비전), Command A Reasoning (추론), Command A Translate (번역) |
Command A 패밀리는 텍스트 전용인 기본 Command A 외에 Vision(이미지 이해), Reasoning(추론 강화), Translate(23개 언어 번역) 변형이 별도로 제공된다. 각 변형은 같은 111B 아키텍처를 기반으로 특화 학습을 거친 모델이다.

컨텍스트 윈도우
256K 토큰
라이선스
CC-BY-NC 4.0
출시일
2025년 3월 14일
학습 마감일
2024년 6월 1일
가성비 지수
0.7
API 가격 (혼합)
입력 $2.50/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$2.50 / 1M 토큰
출력 (Completion)
$10.00 / 1M 토큰
태스크 관련 벤치마크 평균 점수
90.9
복잡한 지시사항 이해 및 수행
66.3
수학, 과학, 논리적 추론
Cohere
https://cohere.comCohere의 다른 모델
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| GPQA | 52.7 | % |
| IFEval | 90.9 | % |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Command A | 69.1 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Mistral Large 3 2512 | 72.8 |
| MATH Lvl 5 |
| 80.0 |
| % |
| MMLU | 85.5 | % |
| τ-bench | 51.7 | % |
| MiniMax M2.1 | - |