AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론RAG (Retrieval-Augmented Generation)Graph RAG

Graph RAG

RAG (Retrieval-Augmented Generation)

쉽게 이해하기

보통 검색은 "이 단어가 포함된 문서를 찾아줘" 방식으로 작동합니다. 그런데 이 방식은 정보들 사이의 관계를 활용합니다. 마치 인물 관계도나 가계도를 그려놓고 검색하는 거예요. "홍길동의 상사는 누구이고, 그 상사가 담당하는 프로젝트는 뭐지?"처럼 꼬리에 꼬리를 무는 질문에 강합니다.

예를 들어 "이 약의 부작용과 관련된 다른 약은?"이라고 물으면, 일반 검색은 "부작용"이라는 단어가 나오는 문서만 찾습니다. 하지만 관계도 방식은 "이 약 → 부작용 A → 부작용 A를 유발하는 다른 약들"로 연결고리를 따라가며 답을 찾아요.

마이크로소프트가 2024년에 코파일럿(Copilot)에 이 기술을 적용해서 큰 주목을 받았습니다. 법률 분야에서도 "이 판례와 연관된 판례 → 그 판례를 인용한 판결"을 추적하는 데 아주 효과적입니다. 국내 금융권에서도 기업 간 투자 관계나 계열사 구조를 파악할 때 이 방식을 도입하고 있어요.

기술 심층 분석

📚 선수학습: 이 내용을 이해하려면 RAG (Retrieval-Augmented Generation)를 먼저 읽으면 좋습니다.

핵심 아키텍처

Graph RAG는 문서를 **지식 그래프(Knowledge Graph)**로 구조화한 뒤, 그래프 탐색을 통해 관련 정보를 검색하는 방식이다. Microsoft Research가 2024년에 발표한 논문에서 체계화했으며, 벡터 유사도 기반 검색의 한계 — 특히 전역적(global) 질의에 대한 약점 — 를 해결한다.

전체 아키텍처는 두 단계로 나뉜다:

[오프라인: 그래프 구축]
문서 → LLM 엔티티 추출 → (Entity, Relation, Entity) 트리플
     → 그래프 구성 → 커뮤니티 탐지 → 커뮤니티 요약

[온라인: 질의 응답]
질의 → 관련 커뮤니티/엔티티 탐색 → 부분 그래프 추출
     → 컨텍스트 구성 → LLM 생성 → 답변

엔티티 추출에서 LLM은 문서에서 (주어, 관계, 목적어) 트리플1을 추출한다. 예: ("트랜스포머", "제안됨", "Vaswani et al., 2017"). 이 트리플들이 모여 그래프 G=(V,E)G = (V, E)G=(V,E)를 구성하며, VVV는 엔티티(노드), EEE는 관계(에지)다.

커뮤니티 탐지(Community Detection)2는 Leiden 알고리즘을 사용하여 밀접하게 연결된 엔티티들을 그룹으로 묶는다. 각 커뮤니티에 대해 LLM이 **요약(summary)**을 생성하며, 이 요약이 전역 질의에 답하는 핵심 컨텍스트가 된다.

검색 시 지역적(local) 질의는 엔티티 매칭 후 kkk-hop 이웃 탐색으로 처리한다:

Nk(v)={u∈V∣d(v,u)≤k}\mathcal{N}_k(v) = \{u \in V \mid d(v, u) \leq k\}Nk​(v)={u∈V∣d(v,u)≤k}

전역적(global) 질의는 커뮤니티 요약을 Map-Reduce 방식으로 집계한다.

성능 및 비교

벡터 RAG 대비 Graph RAG의 강점은 관계 추론과 전역 요약에서 드러난다:

질의 유형벡터 RAGGraph RAG
단일 사실 확인★★★★★☆
엔티티 간 관계★★☆★★★
전역 요약/비교★☆☆★★★
시간순 추론★★☆★★★

Microsoft의 실험에서 Graph RAG는 전역 질의(e.g., "이 데이터셋의 주요 테마는?")에서 벡터 RAG 대비 포괄성(comprehensiveness) 70~80% 향상, 다양성(diversity) 60~70% 향상을 보였다.

장점과 한계

장점:

  • 구조적 지식 표현: 엔티티 간 관계를 명시적으로 모델링
  • 전역 질의 대응: 커뮤니티 요약으로 "숲을 보는" 답변 가능
  • 설명 가능성: 그래프 경로를 통해 추론 과정을 시각화 가능

한계:

  • 그래프 구축 비용이 높음 — 대규모 코퍼스에서 LLM 엔티티 추출은 수천 번의 API 호출 필요
  • 엔티티 추출 품질에 전체 시스템 성능이 의존
  • 그래프 업데이트(incremental update)가 벡터DB 대비 복잡

실무 적용 가이드

  1. 구축 비용 추정: 1,000페이지 문서 기준 약 $50~100 API 비용 (GPT-4 기준)
  2. Neo4j + LangChain GraphRAG 조합이 가장 성숙한 오픈소스 스택
  3. 하이브리드 접근: 지역 질의는 벡터 RAG, 전역 질의는 Graph RAG로 라우팅
  4. 증분 업데이트: 새 문서 추가 시 기존 그래프와의 엔티티 해소(entity resolution) 파이프라인 필요
  5. 시각화: 그래프를 사용자에게 보여주면 신뢰도와 UX 모두 향상

Footnotes

  1. 트리플(triple)은 지식 그래프의 기본 단위로, (주어, 술어, 목적어) 형태로 하나의 사실을 표현한다. ↩

  2. 커뮤니티 탐지(Community Detection)란 그래프에서 내부적으로 밀접하게 연결되고 외부와는 느슨하게 연결된 노드 그룹을 찾는 알고리즘이다. ↩

이전글

Foundation Model API Strategy

다음글

Harness Engineering

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

RAG (Retrieval-Augmented Generation)

관련 게시글

1개

사용 서비스

0개

관련 게시글

RAG 완전 정복: 개념부터 프로덕션 배포까지 (2025)

GUIDE

관련 방법론

Advanced RAG

Agentic RAG

Corrective RAG (CRAG)

Hypothetical Document Embeddings (HyDE)

Modular RAG

Naive RAG

RAG Fusion

Self RAG