멀티모달 AI의 현재
2025년 주요 LLM은 모두 이미지를 이해합니다. 하지만 "이미지를 본다"는 것이 모델마다 의미하는 바가 다릅니다. 사진 설명에 그치는 모델이 있는가 하면, 복잡한 차트를 분석하고, 스크린샷에서 코드를 추출하고, 의학 영상을 해석하는 모델도 있습니다.
한눈에 보는 비교
| 항목 | GPT-4o | Claude 3.5 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|
| 이미지 당 입력 비용 | ~$0.002 | ~$0.003 | ~$0.0003 |
| 이미지 해상도 | 최대 2048×2048 | 최대 8000×8000 | 최대 3072×3072 |
| 동영상 입력 | X | X | O |
| PDF 직접 입력 | X | O | O |
| 최대 이미지 수/요청 | 제한적 | 20개 | 16개 |
| 실시간 카메라 | GPT-4o Live | X | Gemini Live |
GPT-4o Vision — 균형 잡힌 범용성
잘하는 것:
- 이미지 속 텍스트 인식 (OCR) — 영어 기준 정확도 높음
- 이미지 설명의 자연스러운 한국어 번역
- 스크린샷 분석 → 버그 찾기, UI 개선 제안
- 음식 사진 → 칼로리 추정 (재미있는 활용)
import base64
from openai import OpenAI
with open("chart.png", "rb") as f:
img_b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}},
{"type": "text", "text": "이 차트의 핵심 인사이트를 한국어로 3가지 추출해줘"}
]
}]
)
약점:
- 정밀한 물체 위치 파악(좌표 지정)이 약함
- 수식, 다이어그램 이해에서 Gemini에 밀림
Claude
3.5 Sonnet Vision — 고해상도와 문서 처리
Claude는 멀티모달에서 고해상도 이미지와 PDF 처리에서 두각을 나타냅니다.
잘하는 것:
- 고해상도 문서 분석: 의료 문서, 법률 계약서, 기술 도면
- PDF 직접 입력: 별도 파싱 없이 PDF 파일을 직접 전달 가능
- 코드가 찍힌 스크린샷 → 코드 추출 + 수정 제안
- 복잡한 표, 차트 → 구조화된 데이터 추출
import anthropic
with open("contract.pdf", "rb") as f:
pdf_data = base64.b64encode(f.read()).decode()
response = client.messages.create(
model="claude-sonnet-4-6",
messages=[{
"role": "user",
"content": [
{
"type": "document",
"source": {"type": "base64", "media_type": "application/pdf", "data": pdf_data}
},
{"type": "text", "text": "계약서의 핵심 조건과 위험 조항을 추출해줘"}
]
}]
)
약점:
- 동영상 입력 미지원
- 실시간 이미지 스트리밍 없음
Gemini
2.5 Pro Vision — 동영상과 대용량
Google의 Gemini는 멀티모달에서 가장 넓은 스펙을 가집니다.
잘하는 것:
- 동영상 직접 분석: YouTube URL만 붙여넣으면 영상 내용 분석
- 1M 토큰 컨텍스트: 수백 페이지 PDF + 텍스트 + 이미지를 한 번에
- 수식, 과학 다이어그램 이해 (구글 DeepMind 학습 데이터 효과)
- 가장 저렴한 이미지 처리 비용
import google.generativeai as genai
model = genai.GenerativeModel("gemini-2.5-pro")
response = model.generate_content([
"이 강의 영상의 핵심 내용을 목차 형식으로 정리해줘",
genai.upload_file("lecture.mp4") # 동영상 직접 입력
])
약점:
- 자연스러운 한국어 설명에서 Claude에 밀림
- 이미지 생성 기능 없음 (Imagen 별도)
태스크별 추천
| 태스크 | 추천 모델 |
|---|---|
| PDF 계약서/문서 분석 | Claude Sonnet |
| 동영상 내용 분석 | Gemini Pro |
| 코드 스크린샷 → 수정 | Claude 또는 GPT-4o |
| 차트/그래프 데이터 추출 | Gemini Pro |
| 의료 영상, 기술 도면 | Claude (고해상도) |
| 비용 절감 이미지 분류 | Gemini Flash |
| 한국어 이미지 설명 | Claude 또는 GPT-4o |
| 실시간 카메라 연동 | GPT-4o Live 또는 Gemini Live |
실전 팁: 이미지 입력 최적화
1. 해상도 전처리 필요 이상으로 큰 이미지는 비용만 늘립니다.
from PIL import Image
img = Image.open("screenshot.png")
# 1280×720 이하로 리사이즈 (대부분 태스크에 충분)
img.thumbnail((1280, 720))
img.save("screenshot_resized.png")
2. 여러 이미지 배치 처리 개별 API 호출보다 한 번에 여러 이미지를 전달하면 효율적입니다.
3. 설명적인 프롬프트 "이 이미지를 설명해줘" 보다 "이 차트에서 2024년 Q3 매출 수치와 전년 대비 증감률을 추출해줘"처럼 구체적으로 요청하면 훨씬 좋은 결과가 나옵니다.
결론멀티모달 AI 선택 기준은 단순합니다:
- 문서/PDF → Claude
- 동영상 → Gemini
- 범용 + 비용 → GPT-4o 또는 Gemini Flash
- 고해상도 기술 문서 → Claude
2025년에는 세 모델 모두 기본적인 이미지 이해는 충분히 잘 합니다. 차이는 특화 영역과 비용에 있습니다.





