AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론RAG (Retrieval-Augmented Generation)Advanced RAG

Advanced RAG

RAG (Retrieval-Augmented Generation)

쉽게 이해하기

도서관에서 리포트를 쓴다고 생각해 보자. 가장 단순한 방법은 사서에게 "경제 관련 책 주세요"라고 말하고, 건네받은 책 몇 권을 펼쳐서 답을 쓰는 것이다. 이것이 Naive RAG다. 하지만 사서가 경제학 교과서, 경제 소설, 경제 잡지를 섞어서 줄 수도 있고, 정작 필요한 최신 통계 보고서는 빠져 있을 수 있다. Advanced RAG는 이 과정에 세 가지 개선을 더한다. 첫째, 질문을 더 구체적으로 다듬는다("2024년 한국 GDP 성장률 관련 통계 보고서"). 둘째, 키워드 검색과 의미 검색을 동시에 사용한다. 셋째, 가져온 자료 중에서 진짜 관련 있는 것만 골라내고 순서를 재배치한다.

기존의 Naive RAG는 "질의 - 검색 - 생성"이라는 고정된 3단계를 그대로 따른다. 사용자가 "작년 매출"이라고 물으면 "매출"이 들어간 문서를 벡터 유사도로 가져올 뿐, 질의의 모호함을 해소하거나 검색 결과의 품질을 평가하지 않는다. Advanced RAG는 이 파이프라인 앞뒤에 최적화 계층을 추가한다. 검색 전(Pre-Retrieval)에는 질의를 재작성하고 확장하며, 검색 후(Post-Retrieval)에는 Cross-encoder로 문서를 재순위화하고 불필요한 컨텍스트를 압축한다. 파이프라인의 순차적 구조는 유지하되, 각 단계에 정교한 처리 로직이 들어가는 것이 핵심 차이다.

2026년 현재 프로덕션 LLM 애플리케이션의 85%가 RAG를 통합하고 있으며(Apex Logic, 2026), 이 중 상당수가 Advanced RAG 기법을 채택하고 있다. 특히 재순위화(Reranking)는 더 이상 선택이 아닌 필수 컴포넌트로 자리 잡았다. LangChain, LlamaIndex 같은 프레임워크도 하이브리드 검색과 재순위화를 기본 모듈로 제공한다.

Advanced RAG 기법을 통합 적용하면 Naive RAG 대비 NQ(Natural Questions) Exact Match 기준으로 1018%p의 정확도 향상을 달성할 수 있다(Gao et al., arXiv:2312.10997 기반 재현 실험 종합). 대신 파이프라인 전체에 약 500700ms의 추가 레이턴시가 발생하므로, 정확도와 응답 속도 사이의 트레이드오프를 고려해야 한다.

Advanced RAG 개념 다이어그램


기술 심층 분석

선수학습: 이 내용을 이해하려면 RAG (Retrieval-Augmented Generation)과 Naive RAG를 먼저 읽으면 좋습니다.

핵심 아키텍처

Advanced RAG는 Naive RAG의 "Retrieve-Read" 파이프라인에 검색 전(Pre-Retrieval), 검색(Retrieval), 검색 후(Post-Retrieval) 3개 단계의 최적화를 추가한 프레임워크다. Gao et al.(2024)의 서베이 논문에서 체계화된 이 분류는 RAG 연구의 표준 택소노미로 자리 잡았다1.

           +-- Query Rewriting (질의 재작성)
           |   Query Expansion (동의어/관련어 확장)
Pre -------+   HyDE (가설 문서 생성)
           +-- Step-back Prompting (추상 질의)
                    |
           +-- Dense Retrieval (벡터 유사도)
Retrieval -+   Sparse Retrieval (BM25)
           +-- Hybrid Search (가중 합산)
                    |
           +-- Reranking (Cross-encoder 재순위화)
Post ------+   Context Compression (LLMLingua)
           +-- Relevance Filtering (관련성 필터)
                    |
               LLM Generation --> 답변

Advanced RAG 아키텍처 파이프라인

Pre

-Retrieval 최적화

Query Rewriting: 사용자의 원본 질의를 LLM을 활용해 검색에 더 적합한 형태로 재작성한다. RRR(Rewrite-Retrieve-Read) 방식은 소형 모델로 질의를 재작성한 뒤 검색하고, BEQUE는 파인튜닝된 모델로 long-tail 쿼리의 recall을 향상시킨다(Gao et al., 2024).

Query Expansion: 단일 질의를 여러 변형으로 확장한다. Multi-Query 방식은 프롬프트 엔지니어링으로 병렬 쿼리를 생성하고, Sub-Query는 복잡한 질문을 하위 질문으로 분해한다. Chain-of-Verification(CoVe)은 확장된 쿼리를 검증하여 환각을 줄인다.

HyDE (Hypothetical Document Embeddings): Gao et al.(2022)이 제안한 기법으로, LLM에게 질의에 대한 가설적 답변 문서를 생성하게 한 뒤, 이 가설 문서의 임베딩으로 검색한다. 질의-문서 유사도 대신 문서-문서 유사도를 활용하여 의미적 갭을 줄인다.

Query Routing: 질의의 특성에 따라 최적의 검색 경로를 결정한다. Metadata Router는 키워드/엔티티를 추출하여 메타데이터 기반으로 검색 범위를 좁히고, Semantic Router는 질의의 의미 정보를 활용한다.

Retrieval 최적화: 하이브리드 검색

Dense Retrieval(벡터 유사도)과 Sparse Retrieval(BM25)을 결합하는 하이브리드 검색이 Advanced RAG의 핵심이다. 결합 점수는 가중 합산으로 계산한다:

score(d)=α⋅dense(q,d)+(1−α)⋅sparse(q,d)\text{score}(d) = \alpha \cdot \text{dense}(q, d) + (1 - \alpha) \cdot \text{sparse}(q, d)score(d)=α⋅dense(q,d)+(1−α)⋅sparse(q,d)

α\alphaα는 일반적으로 0.5∼0.70.5 \sim 0.70.5∼0.7 범위에서 설정하며, 도메인에 따라 튜닝한다. Dense는 의미적 유사도에, Sparse는 키워드 매칭에 강점이 있어 상호 보완적이다. Weaviate의 hybrid 모드나 Elasticsearch + 벡터 플러그인으로 구현할 수 있다.

Post

-Retrieval 최적화

Reranking: 초기 검색 결과를 Cross-encoder 모델로 재평가하여 순위를 조정한다. Bi-encoder가 질의와 문서를 독립적으로 인코딩하는 것과 달리, Cross-encoder는 질의-문서 쌍을 동시에 처리한다:

score(q,d)=fθ([q;d])\text{score}(q, d) = f_\theta([q; d])score(q,d)=fθ​([q;d])

대표적 모델로 bge-reranker-v2-m3(다국어), cross-encoder/ms-marco-MiniLM(영어), Cohere Rerank 등이 있다. "Lost in the middle" 문제 - LLM이 컨텍스트 중간의 정보를 무시하는 현상 - 를 완화하는 데 효과적이다2.

Context Compression: 검색된 문서에서 핵심 정보만 추출하여 토큰 수를 줄인다. LLMLingua는 소형 언어 모델로 불필요한 토큰을 감지하고 제거하여 50~70%의 토큰 절감을 달성한다. RECOMP는 대조 학습으로 훈련된 정보 압축기를 사용한다(Gao et al., 2024).

성능 및 비교

Advanced RAG의 각 기법이 기여하는 성능 향상(NQ Exact Match 기준, Naive RAG 대비):

기법NQ EM 향상추가 레이턴시출처
Reranking (Cross-encoder)+5~8%p+100~300msGao et al. (2024), 벤치마크 재현
Query Rewriting (LLM 기반)+3~5%p+200msGao et al. (2024)
Hybrid Search (Dense+BM25)+2~4%p+50msGao et al. (2024)
Context Compression (LLMLingua)+1~3%p+150msJiang et al. (2023)
통합 적용+10~18%p+500~700ms종합

RAG 패러다임 간 비교:

항목Naive RAGAdvanced RAGModular RAG
파이프라인 구조고정 3단계최적화 계층 추가모듈 교체/조합 가능
질의 처리원본 그대로재작성/확장/변환동적 라우팅
검색 방식Dense onlyHybrid (Dense+Sparse)적응형/반복적
후처리없음Reranking + 압축자기 평가/보정
멀티홉 추론미지원제한적지원
구현 복잡도낮음중간높음
적합 시나리오단순 QA전문 도메인 QA복합 추론, 에이전트

이 수치들은 Gao et al.(arXiv:2312.10997)의 서베이와 이를 기반으로 한 벤치마크 재현 실험들에서 종합한 것이다. 개별 기법의 효과는 데이터셋, 임베딩 모델, LLM에 따라 달라질 수 있다.

Advanced RAG 기법별 성능 기여도

장점과 한계

장점:

  1. 점진적 도입 가능: Naive RAG에서 시작하여 Reranking -> Hybrid Search -> Query 최적화 순으로 단계적으로 추가할 수 있다. 각 모듈이 독립적이므로 하나만 교체해도 효과를 볼 수 있다.
  2. 현저한 품질 향상: 통합 적용 시 NQ EM 기준 10~18%p 향상. 특히 전문 도메인(법률, 의료, 금융)에서 Naive RAG 대비 큰 차이를 만든다.
  3. 기존 인프라 활용: 벡터DB, 임베딩 모델 등 Naive RAG 인프라를 그대로 사용하면서 파이프라인만 확장하면 된다.
  4. 환각 감소: Reranking과 관련성 필터링을 통해 무관한 문서가 LLM에 전달되는 것을 방지하여 환각을 30~50% 줄일 수 있다(관련성 필터링 효과 추정).
  5. 프레임워크 생태계 성숙: LangChain, LlamaIndex, Weaviate 등 주요 프레임워크가 Advanced RAG 기법을 기본 모듈로 제공한다.

한계:

  1. 레이턴시 누적: 각 최적화 단계가 레이턴시를 추가한다. 전체 파이프라인 기준 +500~700ms로, 실시간 대화 시스템에서는 부담이 될 수 있다. 해결 방향: Reranking만 적용하는 경량 버전 사용, 또는 비동기 처리.
  2. 멀티홉 추론 한계: 여러 문서에 걸친 복합 추론이 필요한 경우 여전히 부족하다. 해결 방향: Agentic RAG나 반복적 검색 패턴 도입.
  3. 하이퍼파라미터 튜닝 부담: 하이브리드 검색 가중치(α\alphaα), Top-k 값, Reranker 임계값 등 각 모듈별로 조정해야 할 파라미터가 많다. 해결 방향: RAGAS 등 자동 평가 프레임워크로 체계적 A/B 테스트.
  4. 데이터 품질 의존성: 아무리 검색을 정교하게 해도 지식 베이스 자체가 부정확하거나 오래된 정보를 담고 있으면 한계가 있다. 해결 방향: 문서 파이프라인 단계에서 품질 관리 강화.
  5. 비용 증가: Query Rewriting에 LLM 호출이 필요하고, Reranking에 별도 모델 추론이 필요하여 API 비용과 GPU 비용이 증가한다. 해결 방향: 소형 전용 모델 사용, 캐싱 전략 적용.

실무 적용 가이드

적합한 시나리오:

  • 전문 도메인 QA (법률, 의료, 금융): 정확도가 핵심이고 약간의 레이턴시 증가가 허용되는 경우
  • 기업 내부 문서 검색: 검색 대상이 수만~수십만 건이고, 키워드와 의미 검색을 모두 활용해야 하는 경우
  • 고객 지원 챗봇: 정확한 답변이 중요하고, 1~2초의 응답 시간이 허용되는 경우

부적합한 시나리오:

  • 100ms 이하 실시간 응답이 필요한 경우: 레이턴시 누적으로 인해 부적합
  • 멀티홉 추론이 핵심인 경우: Modular RAG나 Agentic RAG 권장
  • 문서 수가 1,000건 미만인 소규모 지식 베이스: Naive RAG로 충분

단계적 도입 전략:

  1. Naive RAG 기준선 확보: RAGAS로 Faithfulness, Answer Relevancy 측정
  2. Reranker 추가: bge-reranker-v2-m3(다국어) 또는 Cohere Rerank. 가장 ROI가 높은 단일 기법
  3. Hybrid Search 전환: Weaviate hybrid 모드 또는 Elasticsearch + 벡터 플러그인
  4. Query 최적화 추가: 레이턴시 여유가 있으면 Query Rewriting 적용
  5. Context Compression: 토큰 비용이 문제이면 LLMLingua 또는 LongLLMLingua 적용

추천 설정:

  • 하이브리드 검색 가중치: α=0.6\alpha = 0.6α=0.6 (Dense 우선, 키워드 보조)
  • Reranker Top-k: 초기 검색 2050건 -> Reranking 후 Top-510건 선택
  • 청킹 전략: 512 토큰 기준, 문단 경계 우선 분할 (Small2Big 패턴 권장)

Advanced RAG 도입 의사결정 플로우

RAG 패러다임 진화 타임라인

Footnotes

  1. Gao, Y. et al. "Retrieval-Augmented Generation for Large Language Models: A Survey." arXiv:2312.10997 (2023, revised 2024). Naive RAG, Advanced RAG, Modular RAG 3단계 택소노미를 정립한 대표 서베이. ↩

  2. Liu, N. et al. "Lost in the Middle: How Language Models Use Long Contexts." TACL (2024). LLM이 긴 컨텍스트의 중간 정보를 무시하는 현상을 실증적으로 분석. ↩

이전글

Adapter Tuning

다음글

Agentic RAG

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

RAG (Retrieval-Augmented Generation)

관련 게시글

10개

사용 서비스

3개

관련 게시글

AI 기반 시맨틱 검색 엔진 구축하기: 하이브리드 검색 완전 가이드

TUTORIAL

AI 모델 평가 완전 가이드: RAGAS, LangSmith, Promptfoo 실전 비교

COMPARISON

임베딩 모델 완전 비교: OpenAI vs Cohere vs BGE vs 한국어 특화 모델 (2025)

COMPARISON

사용 서비스

NotebookLM

Perplexity

Dify

관련 방법론

Agentic RAG

Corrective RAG (CRAG)

Graph RAG

Hypothetical Document Embeddings (HyDE)

Modular RAG

Naive RAG

RAG Fusion

Self RAG