AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Google: Gemini 2.5 Flash

Gemini 2.5 Flash

GoogleLLM자연어 처리컴퓨터 비전오디오 처리1.0M 토큰
2025년 6월 18일Proprietary

한줄 소개

Gemini 2.5 Flash는 Google DeepMind가 개발한 가성비 추론 모델이다. Sparse Mixture-of-Experts(MoE) 트랜스포머 아키텍처 기반으로, 저렴한 가격에 사고(thinking) 기반 추론 능력을 탑재한 최초의 경량급 모델이다. 2025년 6월 프리뷰 출시 후 2026년 1월 GA(정식) 버전이 안정화되었으며, 이후에도 지속적으로 품질과 토큰 효율이 개선되고 있다.

주요 특징

Gemini 2.5 Flash의 핵심은 "조절 가능한 추론(Controllable Thinking)"이다. thinking budget 파라미터를 통해 추론 깊이를 0에서 최대까지 실시간으로 조절할 수 있어, 개발자가 품질-비용-지연 시간 사이의 트레이드오프를 직접 제어한다. 추론을 끄면 330 t/s까지 속도가 올라가고, 켜면 복잡한 수학이나 코딩 문제에서 프리미엄 모델에 근접하는 정확도를 보여준다.

실사용자들이 가장 많이 언급하는 차별점은 가격 대비 성능이다. 입력 0.30,출력0.30, 출력 0.30,출력2.50/1M 토큰이라는 가격은 GPT-4o(2.50/2.50/2.50/10.00)나 Claude Sonnet 4(3.00/3.00/3.00/15.00) 대비 입력 기준 약 1/8~1/10 수준이다. Reddit과 Hacker News에서는 "개인 프로젝트라면 Flash 하나로 충분하다", "Pro 쓸 이유가 줄었다"는 반응이 많다.

1M(100만) 토큰 컨텍스트 윈도우와 최대 66K 토큰 출력을 지원하며, 텍스트, 이미지, 오디오, 비디오를 네이티브로 처리하는 멀티모달 모델이다. Function Calling, Web Search, Code Execution 등 네이티브 도구도 지원한다.

다만 2026년 초 업데이트에서 출력 토큰이 약 24% 줄어들면서 효율은 좋아졌지만, 일부 사용자는 응답이 중간에 끊기는 현상을 보고하고 있다. 이는 모델이 완료 신호를 잘못 보내는 P2급 버그로 GitHub에 문서화되어 있다.

Gemini 2.5 Flash 핵심 역량 인포그래픽

할 수 있는 것

코딩 작업에서 Flash는 상당히 강력하다. HumanEval 95.1%로 대부분의 플래그십 모델을 능가하며, 실사용자들은 "이전에 작성했던 종류의 코드를 빠르게 생성하는 데는 Flash가 최적"이라고 평가한다. 다만 "디버깅처럼 깊은 이해가 필요한 작업에서는 Pro나 Claude Sonnet이 더 낫다"는 의견도 많다.

수학과 과학 추론에서도 두각을 나타낸다. MATH Lvl 5에서 90.9%, GPQA(대학원 수준 과학 QA)에서 82.8%를 기록했다. AIME 2024에서 88.0%를 달성한 것은 경량 모델로서는 이례적인 성과다.

멀티모달 활용도 실용적이다. 이미지 속 텍스트 인식, 차트 분석, 비디오 요약 등이 가능하며, MMMU 79.7%로 멀티모달 이해에서도 GPT-4o(69.1%)를 크게 앞선다. Google AI Studio의 Gemini 2.5 Flash Image 버전은 이미지 생성까지 지원한다.

1M 토큰 컨텍스트를 활용한 대규모 문서 분석에도 적합하다. 커뮤니티에서는 "긴 PDF 분석이나 코드베이스 전체를 넣고 질문하는 용도로 가장 가성비가 좋다"는 평이 많다.

반면 SWE-bench Verified 54.0%로, 실제 코드 저장소에서의 멀티스텝 에이전틱 작업에서는 Claude 3.5 Sonnet(70.3%)에 비해 확실히 뒤처진다. TerminalBench Hard 13.6%도 터미널 기반 에이전트 작업에서의 한계를 보여준다.

성능

벤치마크점수비고
GPQA82.8%대학원 수준 과학 QA (출처: Google 기술 보고서)
MMLU-PRO85.9%전문 영역 지식 (출처: llm-stats.com)
MATH Lvl 590.9%고급 수학 추론 (출처: Google 기술 보고서)
IFEval92.0%지시 따르기 (출처: Google 기술 보고서)
HumanEval95.1%코드 생성 (출처: Google 기술 보고서)
SWE-bench Verified54.0%에이전틱 코딩 (출처: Google 블로그)
MMMU79.7%멀티모달 이해 (출처: Google 기술 보고서)
MMLU88.4%일반 지식 (출처: llm-stats.com)
AIME 202488.0%수학 경시 (출처: llm-stats.com)
AIME 202573.3%수학 경시 최신 (출처: llm-stats.com)
Arena Elo1412사용자 선호도 (출처: lmsys.org)

벤치마크상 Gemini 2.5 Flash는 경량 모델 중에서는 압도적이고, 다수의 지표에서 GPT-4o를 넘어선다. 특히 GPQA(+29.2%p), MMLU-PRO(+13.3%p), MATH Lvl 5(+14.3%p)에서 GPT-4o 대비 큰 격차를 보인다.

그러나 실사용 체감은 벤치마크와 다른 면이 있다. r/Bard 커뮤니티에서는 "벤치마크 점수가 높아도 실제 복잡한 멀티턴 대화에서는 Pro가 훨씬 안정적"이라는 의견이 많다. 특히 긴 대화에서 맥락을 놓치거나, 복잡한 지시를 단순화해서 따르는 경향이 있다는 지적이 있다. SWE-bench Verified 54%는 최근 업데이트로 48.9%에서 5%p 개선된 수치지만, Claude Sonnet 대비 여전히 16%p 뒤처진다.

속도 면에서는 확실한 강점이 있다. 217.9 t/s라는 출력 속도는 동급 모델 평균(89 t/s) 대비 2.4배 빠르며, Artificial Analysis 기준으로도 "well above average"라는 평가를 받고 있다.

Gemini 2.5 Flash 벤치마크 비교 인포그래픽

사용 방법

일반 사용자: Gemini 앱(gemini.google.com) 또는 Google AI Studio(aistudio.google.com)에서 무료로 사용 가능하다. Gemini 앱에서는 채팅 인터페이스로 바로 이용할 수 있으며, Google Workspace(Gmail, Docs 등)에도 통합되어 있다. 무료 티어에서 Flash 모델에 접근할 수 있으나, rate limit가 있다.

개발자: Google AI Studio의 API 키를 발급받아 Gemini API로 호출하거나, Google Cloud Vertex AI를 통해 프로덕션 환경에서 사용할 수 있다. 모델명은 gemini-2.5-flash이며, GA 안정 버전은 gemini-2.5-flash-001이다. OpenRouter 등 서드파티 API 게이트웨이를 통해서도 접근 가능하다.

POST https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent

Thinking 모드를 제어하려면 요청에 thinkingConfig 파라미터를 추가하면 된다. Firebase AI Logic을 통한 모바일/웹 앱 직접 연동도 지원한다.

가격

Google AI Studio에서 무료 티어를 제공하며, rate limit 내에서 Gemini 2.5 Flash를 테스트할 수 있다. 유료 API 가격은 입력 0.30/1M토큰,출력0.30/1M 토큰, 출력 0.30/1M토큰,출력2.50/1M 토큰이다. 더 저렴한 옵션이 필요하면 Gemini 2.5 Flash-Lite(입력 0.10,출력0.10, 출력 0.10,출력0.40/1M)를 사용할 수 있다.

경쟁 모델과 비교하면 가격 우위가 명확하다. GPT-4o는 입력 2.50,출력2.50, 출력 2.50,출력10.00/1M으로 Flash 대비 입력 8.3배, 출력 4배 비싸다. Claude Sonnet 4는 입력 3.00,출력3.00, 출력 3.00,출력15.00/1M으로 입력 10배, 출력 6배 비싸다. GPT-4o mini(0.15/0.15/0.15/0.60)가 입력 기준으로는 더 싸지만, 성능 차이를 감안하면 Flash의 가성비가 월등하다.

커뮤니티 반응을 보면 "고 처리량(high throughput) 작업에서 토큰 사용량이 20-30% 줄어들어 실질 비용이 더 낮아졌다"는 평이 있다. 반면 "추론 모드를 켜면 thinking 토큰이 별도로 과금되어 실제 비용이 표시 가격보다 높을 수 있다"는 점도 지적된다.

한국어 토큰 효율 데이터는 공식적으로 미공개 상태다. 다만 Gemini 시리즈는 한국어를 포함한 다국어를 네이티브로 지원하며, 한국어 사용자들은 "한국어 처리가 ChatGPT와 비슷하거나 약간 나은 수준"이라고 평가하고 있다.

Gemini 2.5 Flash API 가격 비교 인포그래픽

기술 사양

항목상세
개발사Google DeepMind
아키텍처Sparse Mixture-of-Experts (MoE) Transformer
모달리티텍스트, 이미지, 오디오, 비디오 (입력) / 텍스트 (출력)
컨텍스트 윈도우1,048,576 토큰 (1M)
최대 출력65,536 토큰 (66K)
학습 데이터 기준일2025-01-31
출시일2025-06-18 (프리뷰: 2025-03)
GA 안정 버전2026-01-07
라이선스Proprietary (Google ToS)
추론 모드Controllable thinking budget
출력 속도217.9 t/s (비추론: 330 t/s)
API 입력 가격$0.30 / 1M 토큰
API 출력 가격$2.50 / 1M 토큰
네이티브 도구Function Calling, Web Search, Code Execution

Sparse MoE 아키텍처는 입력 토큰마다 전체 파라미터 중 일부 전문가(experts)만 활성화하는 방식으로, 전체 모델 용량과 실제 연산/서빙 비용을 분리한다. 이 덕분에 Flash는 높은 성능을 유지하면서도 프리미엄 모델 대비 훨씬 낮은 비용과 지연 시간을 달성한다.

2025년 12월 발표된 Google DeepMind 기술 보고서(arxiv:2507.06261)에서 Gemini 2.5 시리즈의 아키텍처와 학습 방법론이 상세히 공개되었다.

Gemini 2.5 Flash 기술 사양 인포그래픽

참고 자료

Developers can now start building with Gemini 2.5 Flash.
Google

Developers can now start building with Gemini 2.5 Flash.

Developers can start building with Gemini 2.5 Flash, our fast, cost-efficient thinking model now in preview in the Gemini API in Google AI Studio and Vertex AI.

Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release- Google Developers Blog
developers.googleblog.com

Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release- Google Developers Blog

Gemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI | Google Cloud Blog
Google Cloud Blog

Gemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI | Google Cloud Blog

Latest Gemini 2.5 updates on Vertex AI: Flash & Pro GA for enterprises, SFT GA for custom AI, Flash-Lite Preview, & enhanced Live API for voice apps.

Modelos  |  Gemini API  |  Google AI for Developers
Google AI for Developers

Modelos  |  Gemini API  |  Google AI for Developers

Saiba mais sobre todos os modelos de IA mais avançados do Google

artificialanalysis.ai

artificialanalysis.ai

Gemini 2.5 Flash: Pricing, Benchmarks & Performance
LLM Stats

Gemini 2.5 Flash: Pricing, Benchmarks & Performance

A thinking model designed for a balance between price and performance. It builds upon Gemini 2.0 Flash with upgraded reasoning, hybrid thinking control, multimodal capabilities (text, image, video, audio input), and a 1M token input context window.

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
arXiv.org

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

In this report, we introduce the Gemini 2.X model family: Gemini 2.5 Pro and Gemini 2.5 Flash, as well as our earlier Gemini 2.0 Flash and Flash-Lite models. Gemini 2.5 Pro is our most capable model yet, achieving SoTA performance on frontier coding and reasoning benchmarks. In addition to its incredible coding and reasoning skills, Gemini 2.5 Pro is a thinking model that excels at multimodal understanding and it is now able to process up to 3 hours of video content. Its unique combination of long context, multimodal and reasoning capabilities can be combined to unlock new agentic workflows. Gemini 2.5 Flash provides excellent reasoning abilities at a fraction of the compute and latency requirements and Gemini 2.0 Flash and Flash-Lite provide high performance at low latency and cost. Taken together, the Gemini 2.X model generation spans the full Pareto frontier of model capability vs cost, allowing users to explore the boundaries of what is possible with complex agentic problem solving.

Gemini 2.5 Flash  |  Generative AI on Vertex AI  |  Google Cloud Documentation
Google Cloud Documentation

Gemini 2.5 Flash  |  Generative AI on Vertex AI  |  Google Cloud Documentation

스펙

컨텍스트 윈도우

1.0M 토큰

라이선스

Proprietary

출시일

2025년 6월 18일

학습 마감일

2025년 1월 31일

가성비 지수

3.0

API 가격 (혼합)

입력 $0.300/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.30 / 1M 토큰

출력 (Completion)

$2.50 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

지시따르기최강

92.0

복잡한 지시사항 이해 및 수행

수학/추론

86.8

수학, 과학, 논리적 추론

일반지식

85.9

다양한 분야 지식 및 이해

Provider

Google

Google의 다른 모델

Google: Gemma 4Google: Gemini 3.1 Pro PreviewGoogle: Gemini 3 Pro PreviewGoogle: Gemma 3 27BGoogle: Gemma 2 27B

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
Arena Elo1412.01369.21493.0

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Gemini 2.5 FlashGoogle87.8-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

관련 블로그 글

튜토리얼2026년 3월 28일

멀티모달 AI 개발 가이드: 이미지+텍스트 분석 실전 구현

## 멀티모달 AI란? 멀티모달 AI는 텍스트뿐 아니라 이미지, 오디오, 비디오 등 여러 형태의 데이터를 동시에 처리합니다. 이미지를 설명하거나, 차트를 해석하거나, 문서에서 정보를 추출하는 작업이 가능합니다. ```mermaid flowchart LR Image["이미지/PDF"] --> Encode[인코딩<br/>Base64/URL] Text["텍스트 질문"] --> API[멀티모달 LLM API] Encode --> API API --> GPT["GPT-4o<br/>Vision"] API --> Claude["Claude 3.5<br/>Sonnet"] API --> Gemini["Gemini 2.5<br/>Pro"] GPT --> Result["분석 결과<br/>텍스트"] Claude --> Result Gemini --> Result ``` --- ## GPT-4o Vision API ```python import base64 from openai import OpenAI from pathlib import Path client = OpenAI() def encode_image(image_path: str) -> str: with open(image_path, "rb") as f: return base64.b64encode(f.read()).decode("utf-8") def analyze_image(image_path: str, question: str) -> str: base64_image = encode_image(image_path) ext = Path(image_path).suffix.lower() media_type = {"jpg": "image/jpeg", ".jpeg": "image/jpeg", ".png": "image/png", ".gif": "image/gif", ".webp": "image/webp"}.get(ext, "image/jpeg") response = client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": [ { "type": "image_url", "image_url": { "url": f"data:{media_type};base64,{base64_image}", "detail": "high" # low/high/auto } }, {"type": "text", "text": question} ] }], max_tokens=1024 ) return response.choices[0].message.content # URL로 직접 이미지 분석 def analyze_image_url(url: str, question: str) -> str: response = client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": [ {"type": "image_url", "image_url": {"url": url}}, {"type": "text", "text": question} ] }] ) return response.choices[0].message.content # 사용 예시 result = analyze_image("chart.png", "이 차트에서 가장 높은 값은 무엇이고 어떤 트렌드를 보이나요?") print(result) ``` --- ## Claude Vision API Claude는 특히 긴 문서와 복잡한 레이아웃 분석에 강합니다. ```python import anthropic import base64 import httpx client = anthropic.Anthropic() def analyze_with_claude(image_path: str, question: str) -> str: with open(image_path, "rb") as f: image_data = base64.standard_b64encode(f.read()).decode("utf-8") ext = image_path.rsplit(".", 1)[-1].lower() media_type_map = {"jpg": "image/jpeg", "jpeg": "image/jpeg", "png": "image/png", "gif": "image/gif", "webp": "image/webp"} media_type = media_type_map.get(ext, "image/jpeg") response = client.messages.create( model="claude-sonnet-4-5-20251001", max_tokens=2048, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": media_type, "data": image_data, }, }, {"type": "text", "text": question} ] }] ) return response.content[0].text # URL에서 다운로드 후 분석 def analyze_url_with_claude(url: str, question: str) -> str: image_data = base64.standard_b64encode(httpx.get(url).content).decode("utf-8") response = client.messages.create( model="claude-sonnet-4-5-20251001", max_tokens=2048, messages=[{ "role": "user", "content": [ { "type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": image_data}, }, {"type": "text", "text": question} ] }] ) return response.content[0].text ``` --- ## PDF 문서 분석 (멀티페이지) ```python import fitz # PyMuPDF import base64 from anthropic import Anthropic client = Anthropic() def pdf_to_images(pdf_path: str, dpi: int = 150) -> list[str]: doc = fitz.open(pdf_path) images = [] for page in doc: mat = fitz.Matrix(dpi/72, dpi/72) pix = page.get_pixmap(matrix=mat) img_bytes = pix.tobytes("png") images.append(base64.standard_b64encode(img_bytes).decode("utf-8")) doc.close() return images def analyze_pdf(pdf_path: str, question: str, max_pages: int = 10) -> str: images = pdf_to_images(pdf_path)[:max_pages] content = [] for i, img_data in enumerate(images): content.append({ "type": "image", "source": {"type": "base64", "media_type": "image/png", "data": img_data} }) content.append({"type": "text", "text": question}) response = client.messages.create( model="claude-sonnet-4-5-20251001", max_tokens=4096, messages=[{"role": "user", "content": content}] ) return response.content[0].text # 계약서 핵심 조항 추출 result = analyze_pdf( "contract.pdf", "이 계약서에서 위약금, 계약 기간, 비밀유지 조항을 표 형태로 정리해줘" ) ``` --- ## 실전 활용 사례 ### 영수증/청구서 OCR ```python def extract_invoice_data(image_path: str) -> dict: prompt = '''이 영수증/청구서에서 다음 정보를 JSON으로 추출하세요: { "vendor": "가게/회사명", "date": "날짜 (YYYY-MM-DD)", "total": 총금액(숫자), "tax": 세금(숫자), "items": [{"name": "상품명", "qty": 수량, "price": 가격}] }''' result = analyze_with_claude(image_path, prompt) import json return json.loads(result.replace("```json", "").replace("```", "").strip()) # 상품 사진 → 상세 설명 생성 def generate_product_description(image_url: str) -> str: return analyze_image_url( image_url, "이 상품의 상세 설명을 한국어로 작성해줘. 특징, 소재, 활용 방법을 포함해서 200자 이내로." ) ``` ### 차트 데이터 추출 ```python def extract_chart_data(chart_path: str) -> dict: prompt = '''이 차트에서 다음을 JSON으로 반환하세요: { "chart_type": "차트 유형", "title": "제목", "x_axis": "X축 레이블", "y_axis": "Y축 레이블", "data_points": [{"label": "라벨", "value": 값}], "trend": "전반적인 트렌드 설명" }''' import json result = analyze_with_claude(chart_path, prompt) return json.loads(result.replace("```json", "").replace("```", "").strip()) ``` --- ## 모델 멀티모달 기능 비교 | 모델 | 이미지/요청 | 해상도 | PDF | 동영상 | 강점 | |------|-----------|------|-----|------|------| | GPT-4o | 최대 20개 | 최대 2048px | ❌ (이미지 변환 필요) | ❌ | 다이어그램, UI 분석 | | Claude 3.5 Sonnet | 최대 20개 | 최대 8000px | ✅ 네이티브 | ❌ | 긴 문서, 복잡한 레이아웃 | | Gemini 2.5 Pro | 최대 16개 | 제한 없음 | ✅ | ✅ | 동영상, 초대형 문서 | | Gemini 2.5 Flash | 최대 16개 | 제한 없음 | ✅ | ✅ | 가성비 최고 | --- ## 기술 심층 분석 ### Vision 모델 내부 동작 GPT-4V/Claude Vision은 CLIP 같은 인코더로 이미지를 패치(보통 224×224px 타일) 단위로 분할하고, 각 패치를 임베딩 벡터로 변환해 텍스트 토큰과 함께 트랜스포머에 입력합니다. `detail: "high"` 모드(OpenAI)는 이미지를 더 많은 타일로 분할해 세밀한 분석이 가능하지만 토큰 비용도 증가합니다. ### 이미지 토큰 비용 - OpenAI GPT-4o `detail: "low"`: 이미지당 고정 85토큰 - OpenAI GPT-4o `detail: "high"`: 이미지 크기에 따라 170~1360토큰 - Claude: 이미지 크기/해상도에 비례 (1024×1024 ≈ 1600 tokens) ### 멀티모달 프롬프트 팁 1. **구체적 질문**: "이미지 설명해줘" 보다 "왼쪽 그래프의 2023년 매출액은?" 2. **구조화 요청**: JSON, 표, 목록 형식으로 출력 요청 3. **좌표 참조**: "왼쪽 상단의..." 처럼 공간적 참조 활용 4. **체인 분석**: 여러 이미지를 순서대로 제공해 비교 분석 --- ## Footnotes [^1]: GPT-4V 논문: [GPT-4 Technical Report](https://arxiv.org/abs/2303.08774) — OpenAI의 멀티모달 LLM 기술 개요 [^2]: Claude Vision 이미지 크기 권장사항: 최적 품질/비용을 위해 1568px 이하 권장 (Anthropic 공식 문서) [^3]: Gemini 1.5 Pro는 최대 3600개 이미지를 하나의 요청에 포함 가능 (1M 컨텍스트 활용) — 동영상 프레임 분석에 활용

이전글

Google: Gemini 2.0 Flash

다음글

Google: Gemini 2.5 Pro

댓글

0개

댓글을 작성하려면

로그인

해주세요

사용하는 서비스

NotebookLM

Summarization (문서 요약)

Genspark

Summarization (문서 요약)

Google AI Studio

Code Generation (코드 생성)

관련 기사

멀티모달 AI 개발 가이드: 이미지+텍스트 분석 실전 구현

TUTORIAL

ChatGPT vs Claude vs Gemini: 2025년 어떤 AI를 써야 할까?

COMPARISON

AI 코드 리뷰 자동화: PR 품질을 10배 높이는 방법

TUTORIAL
멀티모달

79.7

이미지, 비디오 등 멀티모달 이해

코딩

54.2

코드 생성, 버그 수정, 소프트웨어 엔지니어링

elo
GPQALLM82.864.094.3%
HumanEvalLLM95.186.097.6%
IFEvalLLM92.085.395.9%
MATH Lvl 5LLM90.975.599.2%
MMLU88.484.298.0%
MMLU-PROLLM85.973.890.5%
MMMU79.771.185.0%
SWE-bench VerifiedAgentic54.063.680.9%
TerminalBench13.641.359.3%
Mistral Large 3 2512Mistral AI72.8-
비교2026년 3월 28일

ChatGPT vs Claude vs Gemini: 2025년 어떤 AI를 써야 할까?

## 세 AI, 뭐가 다를까? ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google)는 2025년 현재 가장 많이 쓰이는 AI 챗봇입니다. 모두 뛰어나지만 각자 강점이 다릅니다. 어느 것이 "최고"냐가 아니라 **어떤 일에 어느 것을 쓰면 되는지**가 핵심입니다. --- ## 한눈에 보는 비교 | 항목 | ChatGPT | Claude | Gemini | |------|---------|--------|--------| | 만든 곳 | OpenAI (MS 투자) | Anthropic (Amazon 투자) | Google | | 무료 버전 | GPT-4o mini | Claude Sonnet (제한) | Gemini 1.5 Flash | | 유료 버전 | $20/월 (Plus) | $20/월 (Pro) | $20/월 (Advanced) | | 컨텍스트 길이 | 128K 토큰 | 200K 토큰 | 1M 토큰 | | 한국어 수준 | ★★★★ | ★★★★★ | ★★★★ | | 이미지 생성 | ✅ (DALL-E 3) | ❌ | ✅ | | 웹 검색 | ✅ | ✅ | ✅ | | 파일 업로드 | ✅ | ✅ | ✅ | --- ## 업무별 최강자 ### 글쓰기 & 문서 작성 — 🏆 Claude Claude는 자연스러운 문체와 논리적 구성에서 두드러집니다. 긴 보고서, 기획서, 에세이, 블로그 글 등에서 가장 매끄러운 한국어 결과물을 냅니다. "사람이 쓴 것 같다"는 평가를 가장 많이 받는 AI입니다. **시도해볼 것**: 같은 주제로 세 AI에게 블로그 글 초안을 요청해보세요. 차이를 바로 느낄 수 있습니다. ### 코딩 & 개발 — 🏆 ChatGPT (GPT-4o) 개발자 커뮤니티에서 가장 선호하는 코딩 AI입니다. 다양한 언어와 프레임워크에 대한 방대한 학습 데이터, 직접 실행해볼 수 있는 Code Interpreter, GitHub Copilot과의 연동이 강점입니다. Claude도 코딩 실력은 뛰어나지만 ChatGPT의 생태계가 더 풍부합니다. ### 정보 검색 & 최신 정보 — 🏆 Gemini Google 검색 엔진과 연동되어 실시간 정보를 가장 잘 가져옵니다. 뉴스, 주가, 날씨, 최근 이벤트 등 최신 정보가 필요한 작업에 유리합니다. Google Workspace (Gmail, Docs, Sheets)와의 통합도 강점입니다. ### 긴 문서 분석 — 🏆 Claude 200K 토큰의 컨텍스트 창은 경쟁사 대비 월등합니다. 100페이지 이상의 보고서, 계약서, 논문을 한 번에 넣고 분석 요청이 가능합니다. 법무팀, 연구자, 투자자들이 Claude를 선호하는 이유입니다. ### 창작 & 스토리텔링 — 🏆 Claude 소설, 시나리오, 광고 카피 등 창의적 글쓰기에서 가장 독창적이고 일관성 있는 결과물을 냅니다. 캐릭터 묘사, 대화 구성, 세계관 설정 등에서 타 AI보다 확실히 앞섭니다. ### 멀티모달 (이미지+텍스트) — 🏆 Gemini 이미지를 업로드해 분석하거나, DALL-E 3(ChatGPT)로 이미지를 생성하는 것 모두 가능합니다. 동영상 분석은 현재 Gemini만 지원합니다. --- ## 무료 버전으로 충분할까? **충분한 경우** - 가끔 이메일 초안, 번역, 간단한 질문 - 하루 10회 미만 사용 - 속도보다 비용 절감이 우선 **유료가 필요한 경우** - 매일 업무에 활용 - 긴 문서 분석 (무료는 길이 제한 있음) - 이미지 생성, 파일 업로드 등 고급 기능 - 빠른 응답 속도 필요 유료($20/월)는 스타벅스 커피 7잔 가격입니다. 업무에 실제로 활용한다면 가성비는 압도적입니다. --- ## 상황별 추천 정리 | 상황 | 추천 AI | |------|---------| | 처음 시작, 무료로 써보고 싶다 | Gemini (가장 관대한 무료) | | 한국어 글쓰기, 문서 작성 | Claude | | 코딩, 개발 업무 | ChatGPT | | Google 앱 연동, 최신 정보 | Gemini | | 긴 문서 분석 (계약서, 논문) | Claude | | 이미지 생성 포함 | ChatGPT 또는 Gemini | | 창작, 소설, 시나리오 | Claude | --- ## 한 가지만 선택해야 한다면 **일반 직장인**: Claude (한국어 글쓰기 최강, 문서 분석 우수) **개발자**: ChatGPT (생태계와 도구 가장 풍부) **Google 헤비 유저**: Gemini (Workspace 통합) 사실 세 가지를 모두 무료로 써보고 본인 업무에 맞는 걸 유료로 전환하는 것이 가장 현명한 방법입니다. --- ## Footnotes [^1]: LMSYS Chatbot Arena 2025 기준: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro가 상위권을 번갈아 차지하며 실력 차이가 크지 않음 [^2]: Anthropic에 따르면 Claude의 컨텍스트 200K 토큰은 약 15만 단어, 일반 소설 1권 분량에 해당 [^3]: 2024년 기준 ChatGPT 월간 활성 사용자 2억 명, Claude 약 1,000만 명, Gemini 약 5,000만 명

튜토리얼2026년 3월 28일

AI 코드 리뷰 자동화: PR 품질을 10배 높이는 방법

## AI 코드 리뷰가 필요한 이유 수동 코드 리뷰는 리뷰어의 컨디션, 도메인 지식, 가용 시간에 따라 품질이 달라집니다. AI는 지치지 않고 모든 PR에 일관된 기준을 적용합니다. ```mermaid flowchart LR PR[PR 생성] --> GH[GitHub Actions 트리거] GH --> Diff[git diff 추출] Diff --> LLM[LLM 분석] LLM --> Comment[PR 코멘트 게시] LLM --> Labels[라벨 자동 부착] style LLM fill:#7c3aed,color:#fff style Comment fill:#16a34a,color:#fff ``` --- ## 기본 설정: GitHub Actions + Claude ```yaml # .github/workflows/ai-code-review.yml name: AI Code Review on: pull_request: types: [opened, synchronize] jobs: ai-review: runs-on: ubuntu-latest permissions: pull-requests: write contents: read steps: - uses: actions/checkout@v4 with: fetch-depth: 0 - name: Get PR diff id: diff run: | git diff origin/${{ github.base_ref }}...HEAD > pr_diff.txt echo "diff_size=$(wc -c < pr_diff.txt)" >> $GITHUB_OUTPUT - name: AI Code Review if: steps.diff.outputs.diff_size < '50000' # 50KB 제한 env: ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }} GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }} run: python .github/scripts/ai_review.py ``` --- ## Python 리뷰 스크립트 ```python # .github/scripts/ai_review.py import os import anthropic from github import Github client = anthropic.Anthropic() gh = Github(os.environ["GITHUB_TOKEN"]) def get_pr_diff() -> str: with open("pr_diff.txt") as f: return f.read()[:30000] # 토큰 절약 def review_code(diff: str) -> str: response = client.messages.create( model="claude-sonnet-4-6-20251001", max_tokens=4096, system='''당신은 시니어 소프트웨어 엔지니어입니다. PR diff를 검토해서 다음 항목을 체크하세요: 1. **보안 취약점**: SQL injection, XSS, 인증 누락, 시크릿 하드코딩 2. **버그**: null 참조, 경계값 오류, 레이스 컨디션 3. **성능**: N+1 쿼리, 불필요한 루프, 메모리 누수 4. **코드 품질**: 중복 코드, 복잡도, 명명 규칙 5. **테스트 누락**: 중요 로직에 테스트가 없는 경우 각 이슈는 심각도(🔴 CRITICAL / 🟡 WARNING / 🔵 INFO)와 함께 파일명:줄번호 형식으로 표시. 이슈가 없으면 ✅ LGTM 이라고만 작성.''', messages=[{ "role": "user", "content": f"다음 PR diff를 리뷰해주세요: ```diff {diff} ```" }] ) return response.content[0].text def post_review(review: str): repo_name = os.environ["GITHUB_REPOSITORY"] pr_number = int(os.environ["PR_NUMBER"]) repo = gh.get_repo(repo_name) pr = repo.get_pull(pr_number) # 기존 봇 코멘트 삭제 (중복 방지) for comment in pr.get_issue_comments(): if comment.user.login == "github-actions[bot]": comment.delete() # 새 리뷰 코멘트 게시 body = f" ## 🤖 AI 코드 리뷰{review} --- *Powered by Claude Sonnet 4.6*" pr.create_issue_comment(body) if __name__ == "__main__": diff = get_pr_diff() review = review_code(diff) post_review(review) print("✅ AI 코드 리뷰 완료") ``` --- ## 특화 리뷰: 보안 집중 검사 ```python SECURITY_REVIEW_PROMPT = '''당신은 보안 전문 코드 리뷰어입니다. OWASP Top 10 기준으로 다음을 반드시 검사하세요: A01 - Broken Access Control: 권한 확인 누락, IDOR 취약점 A02 - Cryptographic Failures: 약한 암호화, 키 하드코딩 A03 - Injection: SQL/NoSQL/OS 인젝션, XSS A04 - Insecure Design: 비즈니스 로직 결함 A05 - Security Misconfiguration: 기본 설정, 불필요한 기능 활성화 A06 - Vulnerable Components: 취약한 의존성 A07 - Auth Failures: 약한 인증, 세션 관리 A08 - Integrity Failures: 검증되지 않은 데이터 A09 - Logging Failures: 로깅 부족, 민감정보 로그 A10 - SSRF: 서버 사이드 요청 위조 발견된 취약점은 CVE 또는 CWE 번호와 함께 수정 방법 제시.''' ``` --- ## 자동 라벨링 및 승인 ```python def auto_label(review: str, pr) -> None: labels_to_add = [] if "🔴 CRITICAL" in review: labels_to_add.append("needs-security-review") # 보안팀 멘션 pr.create_issue_comment("@security-team 보안 리뷰가 필요합니다!") elif "🟡 WARNING" in review: labels_to_add.append("needs-revision") else: labels_to_add.append("ai-approved") # 이슈 없으면 자동 approve pr.create_review(event="APPROVE", body="AI 리뷰 통과: 이슈 없음") for label in labels_to_add: try: pr.add_to_labels(label) except Exception: pass # 라벨이 없으면 무시 ``` --- ## 리뷰 품질 측정 | 지표 | 수동 리뷰 | AI 리뷰 | |------|-----------|---------| | 응답 시간 | 수 시간 ~ 수 일 | 2-3분 | | 보안 이슈 탐지율 | 60-70% | 85-90% | | 일관성 | 리뷰어마다 다름 | 항상 동일 | | 커버리지 | 일부 파일만 | 모든 변경사항 | | 비용 | 엔지니어 시간 | ~$0.02/PR | --- ## 고급: 파일별 인라인 코멘트 ```python def post_inline_comments(diff: str, pr): # 파일별로 분리하여 각각 분석 files = parse_diff_by_file(diff) for filename, file_diff in files.items(): if not is_code_file(filename): continue response = client.messages.create( model="claude-haiku-4-5-20251001", # 저렴한 모델로 파일별 처리 max_tokens=512, messages=[{ "role": "user", "content": f"이 파일 diff에서 가장 심각한 이슈 하나만 알려줘: {file_diff}" }] ) # GitHub Review API로 라인 코멘트 commit = pr.get_commits().reversed[0] pr.create_review_comment( body=response.content[0].text, commit=commit, path=filename, line=get_changed_line(file_diff) ) ``` GitHub Actions에서 `PR_NUMBER` 환경변수는 `${{ github.event.number }}`로 전달하세요.

비교2026년 3월 28일

2025 LLM API 비용 완전 비교: OpenAI, Anthropic, Google

## 2 025년 주요 LLM API 가격표 *(2025년 3월 기준, 1M 토큰 = 약 75만 한국어 글자)* | 모델 | 입력 ($/1M) | 출력 ($/1M) | 컨텍스트 | 특징 | |------|------------|------------|----------|------| | **GPT-4o** | $2.50 | $10.00 | 128K | OpenAI 주력 | | **GPT-4o mini** | $0.15 | $0.60 | 128K | 경량, 빠름 | | **GPT-o3** | $10.00 | $40.00 | 200K | 고추론 | | **Claude Opus 4.5** | $15.00 | $75.00 | 200K | 최고 성능 | | **Claude Sonnet 4.6** | $3.00 | $15.00 | 200K | 균형형 | | **Claude Haiku 4.5** | $0.80 | $4.00 | 200K | 경량, 저비용 | | **Gemini 2.5 Pro** | $1.25 | $10.00 | 1M | 대용량 | | **Gemini 2.5 Flash** | $0.075 | $0.30 | 1M | **최저비용** | | **DeepSeek V3.1** | $0.27 | $1.10 | 128K | 가성비 최상 | --- ## 실제 월 사용료 시뮬레이션 ### 시나리오 A: 개인 개발자 (소규모 챗봇) - 일 1,000회 API 호출, 평균 1,000토큰 입력 + 500토큰 출력 - 월 기준: 입력 30M 토큰, 출력 15M 토큰 | 모델 | 월 비용 | |------|---------| | Gemini 2.5 Flash | **$6.75** | | GPT-4o mini | $10.50 | | Claude Haiku 4.5 | $84 | | GPT-4o | $225 | | Claude Sonnet 4.6 | $315 | → 소규모 앱이라면 **Gemini Flash 압도적 우위** ### 시나리오 B: 스타트업 (문서 분석 서비스) - 일 100개 문서 처리, 문서당 평균 10,000토큰 입력 + 2,000토큰 출력 - 월 기준: 입력 30M 토큰, 출력 6M 토큰 | 모델 | 월 비용 | |------|---------| | Gemini 2.5 Flash | **$4.05** | | DeepSeek V3.1 | $14.7 | | GPT-4o mini | $8.10 | | Claude Haiku 4.5 | $48 | | Claude Sonnet 4.6 | $180 | ### 시나리오 C: 기업 (고품질 추론 필요) - 일 1,000회, 복잡한 분석 태스크. 평균 5,000토큰 입력 + 3,000토큰 출력 - 월 기준: 입력 150M 토큰, 출력 90M 토큰 | 모델 | 월 비용 | |------|---------| | **Claude Opus 4.5** | $9,000 | | GPT-o3 | $5,100 | | Claude Sonnet 4.6 | $1,800 | | GPT-4o | $1,275 | → 고품질 추론이 필요하면 GPT-o3 또는 Claude Sonnet이 Opus 대비 훨씬 합리적 --- ## 비용 절감 전략 ### 1. 모델 라우팅 (가장 효과적) 모든 요청을 같은 모델로 보내지 말고, 복잡도에 따라 라우팅합니다. ```python def route_request(query: str) -> str: if is_simple_query(query): # 간단한 분류, 추출 return "gemini-2.5-flash" elif is_medium_query(query): # 일반 대화, 요약 return "claude-haiku-4-5" else: # 복잡한 추론, 코드 return "claude-sonnet-4-6" ``` ### 2. 캐싱 동일하거나 유사한 요청은 결과를 캐시합니다. Anthropic과 OpenAI 모두 **Prompt Caching** 기능을 제공해 반복되는 시스템 프롬프트 비용을 최대 90% 줄일 수 있습니다. ### 3. 청크 최적화 불필요하게 긴 컨텍스트를 줄이는 것만으로 비용을 50% 이상 줄일 수 있습니다. ### 4. 배치 처리 OpenAI Batch API, Anthropic Batch API를 사용하면 동일 비용으로 2배 처리량, 또는 비용 50% 절감이 가능합니다. --- ## 한국 원화 환산 (참고) $1 ≈ ₩1,350 기준: | 예산 | 가능한 것 (Gemini Flash 기준) | |------|-------------------------------| | 월 1만원 ($7.4) | 약 10만회 API 호출 | | 월 5만원 ($37) | 약 50만회 API 호출 | | 월 10만원 ($74) | 약 100만회 API 호출 | --- ## 결론 2025년 LLM API 비용의 핵심은 **모델 선택과 라우팅**에 있습니다. - **비용 최우선** → Gemini 2.5 Flash 또는 DeepSeek V3.1 - **품질 균형** → Claude Sonnet 4.6 또는 GPT-4o - **최고 성능** → Claude Opus 4.5 또는 GPT-o3 (비용 대비 효과 신중히 검토) - **한국어 대용량** → BGE-M3 임베딩 + Gemini Flash 조합이 가성비 최상 ai.zip 리더보드에서 각 모델의 벤치마크 점수와 가격을 실시간으로 비교하세요.

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI