숙련된 탐정이 사건을 수사하는 과정을 떠올려 보자. 탐정은 첫 단서를 발견하면 거기서 새로운 질문을 만들고, 다른 장소를 수색하고, 필요하면 감식 전문가에게 의뢰하기도 한다. 한 번의 수색으로 끝내지 않고, "이 증거가 충분한가?" 스스로 판단하면서 수사를 반복한다. Agentic RAG는 AI가 바로 이 탐정처럼 행동하는 검색-생성 방법론이다. 질문 하나에 검색 한 번으로 끝내는 것이 아니라, 여러 도구를 오가며 자율적으로 정보를 모으고 검증한다.
기존 Naive RAG는 "질문 -> 검색 -> 답변"이라는 단일 패스 파이프라인을 따른다. 검색 결과가 부족하든, 질문이 여러 단계를 요구하든 관계없이 한 번 검색한 결과로 답변을 생성한다. Advanced RAG는 쿼리 재작성이나 재순위화 같은 최적화 모듈을 추가했지만, 여전히 미리 정해진 순서대로 실행되는 고정 파이프라인이다. Agentic RAG는 이 한계를 근본적으로 바꾼다. LLM 에이전트가 "어떤 도구를 쓸지", "검색을 더 할지", "결과가 충분한지"를 매 단계마다 스스로 결정한다.
@Perplexity가 대표적인 사례다. 복잡한 질문을 입력하면 여러 웹사이트를 순차적으로 검색하고, 정보를 교차 검증한 뒤 출처까지 정리해서 답변한다. 투자 리서치에서 "삼성전자 투자 전망"을 물으면 재무제표, 뉴스, 경쟁사 현황을 각각 별도 검색으로 수집한 뒤 종합 분석을 내놓는다. Morgan Stanley, PwC, ServiceNow 같은 기업들도 내부 문서 검색에 에이전트 기반 RAG 아키텍처를 도입해 운영 중이다1.
정량적으로 보면, Agentic RAG는 복합 추론(multi-hop) 질의에서 Naive RAG 대비 F1 점수 +18.5 포인트 향상을 보인다(HotpotQA 기준). 다만 토큰 사용량이 2.7-3.9배 증가하고 응답 시간이 1.5배 길어지는 트레이드오프가 있어, 단순 질의에는 오히려 비효율적이다(arXiv:2601.07711).

선수학습: 이 내용을 이해하려면 RAG (Retrieval-Augmented Generation)와 Modular RAG를 먼저 읽으면 좋습니다.
Agentic RAG는 LLM 에이전트가 자율적으로 검색 전략을 계획하고 실행하는 RAG 패러다임이다. Singh et al.(2025)의 서베이 논문2에 따르면, Agentic RAG는 네 가지 에이전트 설계 패턴을 활용한다: 반성(Reflection), 계획(Planning), 도구 사용(Tool Use), 멀티 에이전트 협업(Multi-Agent Collaboration).
핵심 실행 구조는 ReAct(Reasoning + Acting) 프레임워크3를 따른다:
각 단계에서 에이전트는 (1) 현재 상태 에서 다음 행동을 추론하고, (2) 도구를 호출하며, (3) 결과를 관찰한 뒤, (4) 추가 행동이 필요한지 판단한다. 충분한 정보가 모이면 최종 답변을 생성한다.
User Query: "2024년 노벨 물리학상 수상자의 소속 대학 설립 연도는?"
Step 1: [Think] 먼저 수상자를 검색해야 한다
[Act] search("2024 노벨 물리학상 수상자")
[Obs] "Geoffrey Hinton, University of Toronto"
Step 2: [Think] University of Toronto 설립 연도를 찾아야 한다
[Act] search("University of Toronto founded")
[Obs] "1827년 설립"
Step 3: [Think] 충분한 정보를 얻었다
[Answer] "1827년입니다."
아키텍처 유형은 세 가지로 분류된다(Singh et al., 2025):

Fournier et al.(2025)의 실험 연구 "Is Agentic RAG worth it?"5는 Naive RAG, Enhanced RAG, Agentic RAG를 4개 데이터셋에서 체계적으로 비교했다.
| 방법론 | FIQA F1 (arXiv:2601.07711) | CQADupStack F1 (arXiv:2601.07711) | NDCG@10 평균 (arXiv:2601.07711) |
|---|---|---|---|
| Naive RAG | 66.7 | 66.7 | 50.3 |
| Enhanced RAG | 95.7 | 96.6 | 52.8 |
| Agentic RAG | 98.8 | 99.8 | 55.6 |
단, FEVER(사실 검증) 데이터셋에서는 Enhanced RAG가 F1 87.9로 Agentic RAG(64.6)를 크게 앞섰다. 넓고 노이즈가 많은 도메인에서는 Enhanced RAG의 체계적 모듈이 더 효과적이다(arXiv:2601.07711).
비용 측면: Agentic RAG는 Enhanced RAG 대비 입력 토큰 2.7-3.9배, 출력 토큰 1.7-2.0배, 응답 시간 1.5배가 소요된다(arXiv:2601.07711). 이 비용 증가가 정당화되려면 복합 추론이 필요한 태스크여야 한다.
실무적 의미: 잘 최적화된 Enhanced RAG가 대부분의 단일 질의 시나리오에서 Agentic RAG와 비슷하거나 더 나은 성능을 보이면서 비용은 훨씬 낮다. Agentic RAG는 multi-hop 추론, 다중 소스 통합, 도구 활용이 필수인 시나리오에서만 우위를 점한다.

장점:
한계:
적합한 시나리오:
부적합한 시나리오:
도입 판단 기준:
추천 프레임워크:
추천 설정:
max_iterations: 5-7 (무한 루프 방지)@Perplexity가 Agentic RAG를 프로덕션에서 가장 성공적으로 구현한 서비스 중 하나이며, 200억+ URL 인덱스 기반의 멀티 소스 에이전트 검색을 운영 중이다.


Toloka AI, "Agentic RAG Systems for Enterprise-Scale Information Retrieval" (2025); DXC Technology, "RAG joins the agentic stack" (2025) ↩
Singh, A., Ehtesham, A., Kumar, S., Khoei, T.T., Vasilakos, A.V. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG" (2025) arXiv:2501.09136 ↩
Yao, S. et al. "ReAct: Synergizing Reasoning and Acting in Language Models" (2023) ICLR 2023 ↩
LlamaIndex, "Agentic RAG with LlamaIndex" Architecture Guide (2024) ↩
Fournier, C. et al. "Is Agentic RAG worth it? An experimental comparison of RAG approaches" (2025) arXiv:2601.07711 ↩
CSO Online, "Why 2025's agentic AI boom is a CISO's worst nightmare" (2025) ↩
Meilisearch, "What is agentic RAG? How it works, benefits, challenges & more" (2025) ↩