AI PM이 다른 이유
AI 기능을 기획하는 PM은 일반 소프트웨어 개발과 다른 도전을 마주합니다. AI는 비결정적입니다. 같은 입력에 다른 출력이 나올 수 있고, "버그"와 "의도된 동작"의 경계가 모호합니다.
flowchart LR Traditional[일반 PM<br/>입력 → 결정적 출력<br/>버그=코드 오류] --> AI_PM AI_PM[AI PM<br/>입력 → 확률적 출력<br/>품질=정도의 문제<br/>실패=명확하지 않음]
AI 기능 기획 프레임워크
1단계: 문제 정의 (AI가 필요한지 먼저 확인)
AI가 필요한 경우:
✓ 패턴 인식 (사기 탐지, 감정 분석)
✓ 자연어 이해 (챗봇, 문서 요약)
✓ 대규모 개인화 (추천 시스템)
✓ 비구조적 데이터 처리 (이미지, 음성)
AI가 필요 없는 경우:
✗ 규칙이 명확한 계산 로직
✗ 단순 데이터베이스 조회
✗ 결정적 워크플로우 자동화
2단계: 성공 지표 정의
AI 기능의 성공 지표는 일반 기능과 다릅니다:
| 일반 기능 | AI 기능 |
|---|---|
| 에러율 0% | 정확도 95% (100%는 불가) |
| 응답시간 200ms | p95 레이턴시 2초 이내 |
| 가용성 99.9% | 품질 저하율 < 5% |
핵심 AI 지표:
- 정밀도(Precision): AI가 맞다고 한 것 중 실제 맞는 비율
- 재현율(Recall): 실제 맞는 것 중 AI가 찾아낸 비율
- F1 Score: 정밀도와 재현율의 조화 평균
- 사용자 만족도: 실제 사용자가 AI 응답에 얼마나 만족하는가
3단계: 데이터 전략
flowchart TD A[데이터 필요성 파악] --> B{자체 데이터<br/>있나?} B -- Yes --> C[데이터 품질 감사] B -- No --> D[공개 데이터셋<br/>또는 수집 계획] C --> E{충분한 양?} D --> E E -- 500개 미만 --> F[프롬프트 엔지니어링<br/>Few-shot으로 해결] E -- 500~10K --> G[파인튜닝 고려] E -- 10K 이상 --> H[전용 모델 학습 고려]
AI 기능 PRD 작성 가이드
일반 PRD와 달리 AI 기능 PRD에는 추가 섹션이 필요합니다:
## AI 기능 PRD: [기능명]
### 문제 정의
- 해결하려는 사용자 문제
- 기존 방법의 한계
- AI가 이 문제를 해결할 수 있는 이유
### 성공 기준 (측정 가능하게)
- 정확도 목표: 90% 이상
- 레이턴시 목표: p95 3초 이내
- 오남용 방지: 유해 콘텐츠 생성 0%
### 실패 시나리오 (AI 특화)
- 틀린 답변을 자신 있게 말할 때 (Hallucination)
- 프롬프트 인젝션 공격 시
- API 장애 시 폴백(fallback) 동작
### 평가 계획
- 테스트 데이터셋: 100개 golden set
- 평가 방법: LLM-as-Judge + 사람 검토
- 배포 전 기준치: F1 0.85 이상
### 윤리/안전
- 편향 위험: [설명]
- 개인정보 처리: [설명]
- 사용자에게 AI임을 명시하는가
A/B 테스트: AI 기능의 특수성
AI 기능의 A/B 테스트는 일반 테스트보다 복잡합니다:
주의할 점:
# 잘못된 A/B 테스트: 같은 입력에 다른 모델을 쓰면
# 비결정적 출력 때문에 결과 해석이 어려움
# 올바른 접근:
# 1. 충분한 샘플 크기 (비결정성 평균화)
# 2. 같은 사용자에게 일관된 variant 배정
# 3. 단기 지표 (클릭, 완료율) + 장기 지표 (재방문, 만족도) 함께 측정
# 4. "좋음/나쁨" 피드백 버튼으로 사용자 직접 피드백 수집
측정해야 할 지표:
| 지표 | 측정 방법 |
|---|---|
| 작업 완료율 | 사용자가 AI 응답 후 목표 달성 % |
| 재생성 요청률 | "다시 시도" 클릭 비율 (낮을수록 좋음) |
| 수정 비율 | AI 제안을 그대로 쓰는 vs 수정하는 비율 |
| 이탈률 | AI 응답 후 페이지 이탈 비율 |
| 명시적 피드백 | 👍/👎 평점 비율 |
프롬프트를 코드처럼 관리하기
PM이 직접 관여해야 하는 부분:
프롬프트 변경 = 제품 변경
모든 프롬프트 변경은:
1. 버전 관리 (Git)
2. 테스트셋 통과 확인
3. A/B 테스트 또는 단계적 롤아웃
4. 롤백 계획 준비
프롬프트 변경 이력 관리:
{
"version": "2.1.0",
"date": "2025-03-15",
"author": "product-team",
"change": "응답 길이 제한 추가, 불필요한 서두 제거",
"test_result": {"f1": 0.91, "latency_p95": "1.8s"},
"rollout": "10% → 50% → 100%"
}
AI 기능의 윤리적 고려사항
출시 전 반드시 확인해야 할 것들:
1. AI임을 명시하라 사용자는 자신이 AI와 대화하고 있음을 알 권리가 있습니다.
2. 편향 테스트 다양한 성별, 나이, 지역, 문화권에서 공평하게 동작하는지 테스트합니다.
3. 오류 시 인간 에스컬레이션 AI가 확신이 없을 때 사람에게 연결하는 명확한 경로가 있어야 합니다.
4. 데이터 최소화 AI에게 필요 이상의 사용자 데이터를 주지 마세요.
결론: AI PM의 핵심 역량
2025년 AI PM이 갖춰야 할 것들:
- 기술 이해: 모델의 한계, 환각, 레이턴시/비용 트레이드오프 이해
- 평가 설계: 정확도 측정, LLM-as-Judge, 사람 검토 워크플로우
- 점진적 출시: AI 기능은 10% → 50% → 100% 단계적 롤아웃
- 피드백 루프: 사용자 피드백 → 프롬프트/모델 개선 사이클
AI 기능을 기획할 때 "완벽한 AI"를 목표로 하지 마세요. "충분히 좋고, 실패해도 안전하며, 지속적으로 개선되는 AI"가 현실적인 목표입니다.
