일반적인 AI 채팅은 '질문 하나, 답변 하나'로 끝납니다. 마치 식당에서 "오늘 뭐 먹을까?"라고 물었을 때 "파스타요"라고 한마디만 하는 것과 같습니다. 반면 Agentic Workflow는 AI가 직접 냉장고를 열어보고, 재료를 확인하고, 레시피를 검색하고, 부족한 재료는 장보기 목록에 추가하고, 조리 순서를 정해서 실제로 요리를 완성하는 것까지 해내는 방식입니다. 핵심은 AI가 단순한 답변 생성기가 아니라, 목표를 향해 스스로 계획하고, 도구를 사용하고, 결과를 검증하며 반복적으로 작업하는 자율적 실행자가 된다는 점입니다.
기존의 LLM 활용 방식(Single-shot Prompting)에서는 사용자가 프롬프트를 입력하면 모델이 한 번에 최종 결과를 생성합니다. 중간에 외부 정보를 확인하거나, 자신의 출력을 검토하거나, 실패 시 다른 방법을 시도하는 것이 불가능합니다. Agentic Workflow는 이 한계를 근본적으로 극복합니다. AI가 "생각(Think) - 행동(Act) - 관찰(Observe)"의 루프를 반복하면서, 각 단계의 결과를 바탕으로 다음 행동을 결정합니다. 이 과정에서 웹 검색, 코드 실행, API 호출, 파일 조작 등 다양한 도구를 자율적으로 사용합니다.
대표적인 실제 서비스로는 @Claude Code가 있습니다. 사용자가 "이 버그를 고쳐줘"라고 요청하면, Claude Code는 관련 파일을 읽고, 코드를 분석하고, 수정 사항을 작성하고, 테스트를 실행하고, 결과를 보고하는 전체 과정을 자율적으로 수행합니다. @Cursor 역시 코드 편집 과정에서 에이전틱 워크플로우를 활용하며, @GitHub Copilot도 에이전트 모드를 통해 멀티스텝 코딩 작업을 지원합니다.
Andrew Ng의 발표에 따르면, GPT-3.5에 Agentic Workflow를 적용했을 때 HumanEval 코딩 벤치마크에서 GPT-4의 Zero-shot 성능(67%)을 초과하는 결과를 보였습니다1. 더 약한 모델이라도 반복적으로 사고하고, 검증하고, 수정하는 워크플로우를 적용하면 더 강한 모델의 1회성 출력보다 나은 결과를 만들 수 있다는 것입니다. 2026년 현재 42%의 기업이 에이전틱 AI를 프로덕션에 배포했으며, 171% 이상의 ROI를 보고한 조직들의 공통점은 잘 정의된 유스케이스에서 시작했다는 것입니다2.

선수학습: 이 내용을 이해하려면 ReAct (Reasoning + Acting)을 먼저 읽으면 좋습니다.
Agentic Workflow의 이론적 토대는 2022년 Yao et al.이 제안한 ReAct 패턴입니다. LLM이 추론(Reasoning)과 행동(Acting)을 교차 수행하며, 외부 환경과 상호작용하는 루프를 형성합니다.
Andrew Ng는 2024년 Sequoia AI Ascent에서 이 아키텍처를 4가지 디자인 패턴으로 체계화했습니다3:
1. Reflection (자기 성찰): LLM이 자신의 출력을 비평하고 개선하는 반복 과정입니다. 코드를 작성한 후 스스로 리뷰하고, 버그를 찾아 수정하는 식입니다. 가장 구현이 단순하면서도 효과가 큰 패턴입니다.
2. Tool Use (도구 사용): 웹 검색, 코드 실행, 데이터베이스 조회, API 호출 등 외부 도구를 LLM이 자율적으로 선택하고 실행합니다. Model Context Protocol(MCP)과 같은 표준이 등장하면서 도구 연동이 크게 간소화되고 있습니다.
3. Planning (계획 수립): 복잡한 작업을 실행 가능한 하위 단계로 분해합니다. 각 단계의 성공/실패에 따라 계획을 동적으로 수정할 수 있으며, 이 패턴의 하위 방법론으로 Plan Mode Workflow가 있습니다.
4. Multi-Agent Collaboration (멀티 에이전트 협업): 전문화된 여러 에이전트가 각자의 역할을 수행하며 협업합니다. ChatDev에서는 CEO, 디자이너, 프로그래머, 테스터 역할의 에이전트가 소프트웨어를 공동 개발합니다.
# 에이전트 루프 핵심 의사코드
async def agent_loop(task, tools, max_steps=20):
messages = [{"role": "user", "content": task}]
for step in range(max_steps):
response = await llm.complete(messages, tools=tools)
if response.stop_reason == "end_turn":
return response.content
if response.stop_reason == "tool_use":
results = [await execute(tc) for tc in response.tool_calls]
messages.append({"role": "assistant", "content": response.content})
messages.append({"role": "tool", "content": results})
return "max steps reached"
멀티 에이전트 아키텍처 구조:
[오케스트레이터] 강력한 모델 (리더)
|
+-- [서브에이전트 1] 효율적 모델 -> 백엔드 구현
+-- [서브에이전트 2] 효율적 모델 -> 프론트엔드 구현
+-- [서브에이전트 3] 효율적 모델 -> 테스트 작성
하위 방법론인 Agentic Research Loop은 연구/조사 작업에 특화된 에이전틱 패턴이며, Auto Research는 자동화된 연구 수행을 위한 변형입니다.

| 방식 | HumanEval 정확도 | 특징 | 출처 |
|---|---|---|---|
| GPT-3.5 Zero-shot | 48% | 1회 생성 | Andrew Ng, Sequoia AI Ascent 2024 |
| GPT-4 Zero-shot | 67% | 1회 생성 | Andrew Ng, Sequoia AI Ascent 2024 |
| GPT-3.5 + Agentic | >67% | 반복 사고/실행/검증 | Andrew Ng, Sequoia AI Ascent 2024 |
| Agentic 방식 전반 | +41% 향상 | 기존 대비 | Synergy Technical, 2025 |
| 에이전트 유형 | 자율성 | 신뢰성 | 적합한 작업 |
|---|---|---|---|
| Single-turn | 없음 | 매우 높음 | Q&A, 번역 |
| Multi-turn | 낮음 | 높음 | 코드 생성, 문서 작성 |
| Single-agent loop | 중간 | 중간 | 파일 조작, API 호출 |
| Multi-agent | 높음 | 낮음-중간 | 복잡한 소프트웨어 개발 |
핵심 인사이트: Agentic Workflow를 적용하면 약한 모델(GPT-3.5)이 강한 모델(GPT-4)의 1회성 출력을 초과할 수 있습니다. 다만 이는 추가적인 토큰 소비와 지연 시간을 수반합니다.
프레임워크 비교 (2026년 기준):
| 프레임워크 | 설계 철학 | 강점 | Time-to-Production |
|---|---|---|---|
| LangGraph | 그래프 기반 상태 머신 | 토큰 효율성, 세밀한 제어, Human-in-the-loop | 중간 (DataCamp, 2026) |
| CrewAI | 역할 기반 팀 구조 | 직관적 설정, 빠른 배포 | 40% 더 빠름 (DataCamp, 2026) |
| AutoGen | 대화 기반 협업 | 유연한 역할 전환, No-code Studio | 중간 (DataCamp, 2026) |

장점:
한계:
치명적 시나리오: 실시간 트레이딩, 의료 진단 등 즉각적 응답이 필요하고 오류 비용이 극히 높은 영역에서는 Full Agentic 방식이 부적합합니다.
적합한 시나리오:
부적합한 시나리오:
도입 판단 기준:
프레임워크 선택 기준:
이 방법론을 활용하는 서비스: @Claude Code, @Cursor, @GitHub Copilot

