탐정이 사건을 해결하는 과정을 떠올려 보자. 숙련된 탐정은 증거를 보자마자 범인을 지목하지 않는다. 먼저 현장의 단서를 하나씩 살펴보고, 각 단서가 의미하는 바를 추론하며, 논리적으로 연결해서 결론에 도달한다. Chain-of-Thought(CoT) 프롬프팅은 대규모 언어 모델(LLM)에게 이 탐정의 사고 과정을 요구하는 기법이다. "답만 말해"가 아니라 "풀이 과정을 보여줘"라고 요청하는 것이다.
기존 프롬프팅 방식은 질문을 던지면 모델이 곧바로 최종 답을 출력한다. 예를 들어 "사과 8개에서 3개를 먹고 2개를 샀다면 몇 개인가?"라는 질문에 일반 프롬프팅은 "11개"라고 틀린 답을 내놓기 쉽다. 반면 CoT 프롬프팅은 모델이 "8 - 3 = 5, 5 + 2 = 7"이라는 중간 추론 단계를 거치게 해서 정답 "7개"에 도달하도록 유도한다. 핵심은 모델의 가중치나 아키텍처를 건드리지 않고, 프롬프트만 바꿔서 추론 능력을 끌어낸다는 점이다.
2022년 Google Brain의 Jason Wei 등이 발표한 원 논문1에서 CoT 프롬프팅은 PaLM 540B 모델의 GSM8K(초등 수학) 정확도를 17.9%에서 58.1%로 끌어올렸다. 이후 @ChatGPT, @Claude, @Gemini 등 주요 LLM 서비스들은 내부적으로 CoT를 활용하거나, 아예 학습 단계에서 추론 체인을 내재화하는 방향으로 발전했다. 2025-2026년에는 OpenAI o1, GPT-5의 "thinking mode", Claude의 Extended Thinking 등 CoT가 프롬프트 기법을 넘어 모델 아키텍처의 핵심 구성 요소로 자리잡았다.
이 비유의 한계: 탐정은 새로운 증거가 나타나면 기존 추론을 수정할 수 있지만, 기본 CoT는 한 번 생성한 추론 체인을 역추적하지 못한다. 이 문제를 해결하기 위해 Tree of Thoughts(ToT) 같은 변형이 등장했다.

선수학습: 이 내용을 이해하려면 Foundation Model API Strategy와 Few-shot Prompting을 먼저 읽으면 좋습니다.
CoT 프롬프팅의 구조는 단순하다. 기존 Few-shot 프롬프팅에서 예시의 답변 부분에 중간 추론 단계(rationale)를 추가하는 것이 전부다.
[Standard Few-shot]
Q: Roger has 5 tennis balls...
A: The answer is 11.
[Few-shot CoT]
Q: Roger has 5 tennis balls...
A: Roger started with 5 balls. 2 cans of 3 = 6. 5 + 6 = 11. The answer is 11.
CoT의 핵심 변형은 세 가지다:
1) Few-shot CoT (Wei et al., 2022)1: 풀이 과정이 포함된 예시 3-8개를 프롬프트에 포함시킨다. 모델은 예시의 추론 패턴을 따라 새로운 문제에도 단계적으로 답변한다. 예시의 품질이 성능을 좌우하며, 도메인별로 신중한 설계가 필요하다.
2) Zero-shot CoT (Kojima et al., 2022)2: 예시 없이 프롬프트 끝에 "Let's think step by step"이라는 한 문장만 추가한다. 2단계 프로세스로 작동한다: (1) 첫 번째 프롬프트로 추론 체인을 생성하고, (2) 두 번째 프롬프트로 체인에서 최종 답을 추출한다. GPT-3(175B)에서 MultiArith 정확도를 17.7%에서 78.7%로, GSM8K를 10.4%에서 40.7%로 향상시켰다 (논문 Table 1)2.
3) Auto-CoT (Zhang et al., 2022)3: 수동 예시 설계를 자동화한다. (1) 데이터셋의 질문들을 클러스터링하고, (2) 각 클러스터에서 대표 질문을 선정한 뒤, (3) Zero-shot CoT로 추론 체인을 자동 생성한다. 다양한 질문 유형을 커버함으로써 단일 유형 편향을 줄인다.
Self-Consistency (Wang et al., 2022)4: CoT의 확장으로, greedy decoding 대신 여러 추론 경로를 샘플링한 뒤 다수결(marginalization)로 최종 답을 선택한다. "복잡한 문제에는 정답에 도달하는 여러 가지 올바른 추론 경로가 존재한다"는 직관에 기반한다.
Tree of Thoughts (Yao et al., 2023)5: CoT의 선형 추론을 트리 구조로 확장한다. 각 추론 단계에서 여러 후보를 생성(branch)하고, 각 후보를 평가(evaluate)하며, 유망하지 않은 경로는 역추적(backtrack)한다. 게임 오브 24 과제에서 기존 CoT가 10% 미만인 반면 ToT는 74% 성공률을 달성했다 (논문 Table 1)5.

CoT 프롬프팅의 효과는 모델 크기에 강하게 의존한다. Wei et al.(2022)은 이를 "emergent ability"라 명명했다: 약 100B 파라미터 이상에서만 유의미한 성능 향상이 나타나며, 소형 모델에서는 오히려 비논리적 추론 체인이 생성되어 정확도가 하락한다1.
| 기법 | GSM8K (출처) | SVAMP (출처) | AQuA (출처) |
|---|---|---|---|
| Standard Prompting | 17.9% (Wei 2022 Table 2) | - | - |
| Few-shot CoT | 58.1% (Wei 2022 Table 2) | - | - |
| Zero-shot CoT | 40.7% (Kojima 2022 Table 1) | - | - |
| CoT + Self-Consistency | 76.0% (Wang 2022 Table 1) | +11.0%p (Wang 2022 Table 1) | +12.2%p (Wang 2022 Table 1) |
실무적 의미: GSM8K에서 Standard 17.9% -> CoT 58.1% -> Self-Consistency 76.0%의 향상은, 추론 기법만으로 fine-tuning 없이도 모델의 수학적 추론 능력을 4배 이상 끌어올릴 수 있음을 보여준다.
2026년 최신 연구에 따르면6, 14B 이상의 최신 모델(Qwen2.5, LLaMA3 등)에서는 Zero-shot CoT만으로도 Few-shot CoT에 필적하거나 오히려 이를 능가하는 성능을 보인다. Few-shot 예시의 역할이 "추론 능력 향상"에서 "출력 형식 정렬"로 변화한 것이다.

장점:
한계:
적합한 시나리오:
부적합한 시나리오:
도입 판단 기준:
추천 설정:
형제 방법론: Few-shot Prompting, Prompt Engineering


Wei, J. et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903 ↩ ↩2 ↩3 ↩4 ↩5
Kojima, T. et al. (2022). "Large Language Models are Zero-Shot Reasoners." NeurIPS 2022. arXiv:2205.11916 ↩ ↩2
Zhang, Z. et al. (2022). "Automatic Chain of Thought Prompting in Large Language Models." arXiv:2210.03493 ↩
Wang, X. et al. (2022). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171 ↩ ↩2
Yao, S. et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. ↩ ↩2
Chen et al. (2026). "Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot." arXiv:2506.14641 ↩
Sprague, Z. et al. (2024). "Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse." arXiv:2410.21333 ↩
Meincke, L. et al. (2025). "The Decreasing Value of Chain of Thought in Prompting." Wharton Generative AI Labs. ↩