AI 에이전트 프레임워크가 필요한 이유

단일 LLM 호출로 해결되지 않는 복잡한 태스크 — 여러 도구를 순차적으로 사용하거나, 여러 AI가 협업하거나, 오류가 나면 재시도해야 하는 워크플로우 — 를 구현하려면 에이전트 프레임워크가 필요합니다.

2025년 기준 주요 프레임워크를 실용적 관점에서 비교합니다.

한눈에 보는 비교표

항목	LangChain	LlamaIndex	AutoGen	CrewAI
주요 용도	범용 에이전트	RAG/검색 특화	멀티에이전트	역할 기반 팀
러닝커브	높음	중간	중간	낮음
추상화 수준	낮음 (유연)	중간	중간	높음 (간편)
커뮤니티	★★★★★	★★★★☆	★★★★☆	★★★☆☆
프로덕션 사례	가장 많음	많음	증가 중	적음
한국어 자료	많음	중간	적음	적음
GitHub 스타 (2025)	~95K	~35K	~35K	~25K

LangChain — 가장 넓은 생태계

LangChain은 AI 에이전트 프레임워크의 사실상 표준입니다. 방대한 통합(200개 이상)과 커뮤니티 덕분에 막히는 문제가 거의 없습니다.

핵심 개념:

python

from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.tools import tool

@tool
def search_web(query: str) -> str:
    '''웹에서 정보를 검색합니다'''
    return brave_search(query)

@tool
def run_python(code: str) -> str:
    '''Python 코드를 실행합니다'''
    return exec_safely(code)

agent = create_tool_calling_agent(llm, [search_web, run_python], prompt)
executor = AgentExecutor(agent=agent, tools=[search_web, run_python])
result = executor.invoke({"input": "오늘 삼성전자 주가 분석해줘"})

강점:

가장 풍부한 통합 (Pinecone, Weaviate, 모든 LLM, 수백 개 툴)
LangSmith로 에이전트 실행 추적·디버깅
LCEL(LangChain Expression Language)로 선언적 파이프라인 구성
방대한 한국어 튜토리얼, 블로그 포스트

약점:

추상화 레이어가 많아 디버깅이 어려울 수 있음
버전업 시 API 변경이 잦음 (v0.1 → v0.2 → v0.3 마이그레이션 피로)
간단한 태스크에도 코드가 길어지는 경향

추천: RAG, 도구 사용 에이전트, 다양한 외부 서비스 연동이 필요한 경우

LlamaIndex — RAG와 검색에 최적화

LlamaIndex(구 GPT Index)는 문서 인덱싱과 검색에 특화된 프레임워크입니다. LangChain이 범용이라면, LlamaIndex는 "데이터 위에 AI 올리기"에 집중합니다.

python

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

# 문서 로드 → 인덱싱 → 쿼리 3줄로 완성
documents = SimpleDirectoryReader("./docs").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("계약서의 핵심 조건은?")

강점:

RAG 파이프라인 구축이 LangChain보다 훨씬 간결
다양한 인덱스 타입 (Vector, Summary, Knowledge Graph)
LlamaParse: PDF, 표, 이미지가 포함된 복잡한 문서 파싱 특화
쿼리 라우팅, 서브쿼리 분해 등 고급 RAG 기법 내장

약점:

RAG 외 범용 에이전트 구현은 LangChain보다 불편
외부 서비스 통합 수가 LangChain보다 적음

추천: 문서 기반 QA, 내부 지식베이스 검색, 복잡한 PDF 파싱이 핵심인 서비스

AutoGen — 멀티에이전트 협업

Microsoft가 만든 AutoGen은 여러 AI 에이전트가 대화하며 문제를 해결하는 패러다임입니다.

python

import autogen

assistant = autogen.AssistantAgent(
    name="코딩_어시스턴트",
    llm_config={"model": "gpt-4o"}
)
user_proxy = autogen.UserProxyAgent(
    name="사용자",
    code_execution_config={"work_dir": "coding"}
)

# 두 에이전트가 대화하며 코드 작성 → 실행 → 수정을 자율적으로 반복
user_proxy.initiate_chat(
    assistant,
    message="피보나치 수열을 출력하는 Python 코드 작성하고 실행해줘"
)

강점:

코드 작성 → 자동 실행 → 오류 수정 루프를 자율적으로 반복
다양한 에이전트 역할 조합 (코더, 리뷰어, 플래너 등)
GroupChat으로 여러 에이전트가 동시에 참여

약점:

에이전트 루프가 무한 반복될 수 있음 (비용 주의)
결과가 매번 달라지는 비결정적 동작
복잡한 멀티에이전트 흐름 디버깅 어려움

추천: 코딩 태스크 자동화, 연구 에이전트, 자율적 문제 해결이 필요한 실험적 프로젝트

CrewAI — 역할 기반 팀 시뮬레이션

CrewAI는 "AI 팀"을 만드는 가장 직관적인 프레임워크입니다. 연구원, 작가, 편집자처럼 역할을 정의하면 자동으로 협업합니다.

python

from crewai import Agent, Task, Crew

researcher = Agent(role="AI 리서처", goal="최신 AI 동향 조사", llm=claude)
writer = Agent(role="콘텐츠 작성자", goal="리서치 기반 블로그 포스트 작성", llm=claude)

research_task = Task(description="GPT-5 출시 영향 분석", agent=researcher)
write_task = Task(description="분석 결과로 블로그 포스트 작성", agent=writer)

crew = Crew(agents=[researcher, writer], tasks=[research_task, write_task])
result = crew.kickoff()

강점:

코드가 직관적이고 간결
비개발자도 이해 가능한 역할 기반 설계
태스크 간 의존성 관리 내장

약점:

복잡한 커스터마이징 시 한계
프로덕션 사례가 아직 적음
에러 핸들링이 부족한 편

추천: 콘텐츠 생성 파이프라인, 리서치 자동화, AI 에이전트 입문

2

025년 선택 가이드

RAG/문서 검색이 핵심 → LlamaIndex 범용 에이전트, 다양한 통합 필요 → LangChain 코딩 자동화, 자율 에이전트 실험 → AutoGen 콘텐츠 생성, 빠른 프로토타입 → CrewAI 처음 시작한다면 → LangChain (커뮤니티·자료 압도적)

결론

2025년 AI 에이전트 생태계는 여전히 빠르게 변하고 있습니다. 특정 프레임워크에 너무 깊이 의존하기보다, 핵심 개념(Tool Calling, RAG, 멀티에이전트)을 이해하고 필요에 따라 도구를 선택하는 유연한 접근이 중요합니다. 어떤 프레임워크도 내부적으로는 결국 LLM API 호출과 프롬프트 구성의 조합입니다.

AI 에이전트 프레임워크 비교: LangChain vs LlamaIndex vs AutoGen vs CrewAI

핵심 포인트

AI 에이전트 프레임워크가 필요한 이유

한눈에 보는 비교표

LangChain — 가장 넓은 생태계

LlamaIndex — RAG와 검색에 최적화

AutoGen — 멀티에이전트 협업

CrewAI — 역할 기반 팀 시뮬레이션

2

결론

이 글에서 다루는 AI

관련 글 더 보기

댓글

관련 모델

관련 서비스

관련 방법론