뭘 만드나
"유튜브 영상 만들어 줘"라고 한 마디 하면, 기획부터 대본, 이미지, 음성, 편집, 업로드까지 사람 손을 거의 거치지 않고 완성되는 영상 자동화 시스템. 그리고 기존 롱폼 영상을 넣으면 바이럴 구간을 자동으로 잘라 숏폼으로 변환해주는 생성기. 이 글은 실제로 이 두 시스템을 구축한 개발자들의 사례를 바탕으로, Claude Code를 활용한 영상 자동화의 구체적인 방법론을 정리한다.
사용 기술 스택: Claude Code(오케스트레이터), Claude Skills(워크플로우 정의), ElevenLabs(TTS), CapCut(편집 - JSON 기반), FFmpeg(영상 처리), FastAPI(웹 UI), YouTube Data API(업로드)
"이 튜토리얼을 끝까지 따라하면, 영상 한 편을 약 5,000원에 자동 제작하는 파이프라인과 롱폼에서 숏폼을 추출하는 생성기를 이해하고 자신의 워크플로우에 적용할 수 있다."
시작 전 준비

왜 이 스택을 선택했는가: Claude Code는 터미널 기반 AI 코딩 에이전트로, Skills 시스템을 통해 복잡한 멀티스텝 워크플로우를 정의할 수 있다. 영상 제작은 기획-대본-에셋 생성-편집-배포라는 명확한 파이프라인이 있기 때문에, 각 단계를 에이전트로 분리하고 오케스트레이션하기에 적합하다. CapCut은 프로젝트 폴더 구조가 JSON 기반이라 프로그래밍으로 편집 데이터를 직접 생성할 수 있고, FFmpeg는 영상 크롭과 합성을 코드로 처리할 수 있는 오픈소스 도구다.
사전 요구사항:
- Claude Code 설치 및 Pro/Max 구독 (월 100/$200)
- Node.js 18+, Python 3.10+
- FFmpeg 설치 (
brew install ffmpeg) - ElevenLabs API 키 (TTS용, 롱폼 자동화 시)
- Anthropic API 키 (숏폼 생성기의 자막 분석용)
- CapCut 데스크톱 앱 (롱폼 편집 자동화 시)
진행 로드맵

이 글은 두 가지 접근법을 다룬다. 하나는 카카오 출신 개발자 노정호(개발남노씨)가 구축한 "롱폼 영상 전체 자동화 시스템"이고, 다른 하나는 커리어해커 알렉스가 라이브로 1시간 만에 만든 "숏폼 생성기"다. 두 사례 모두 Claude Code를 중심에 두지만, 설계 철학과 기술 스택이 다르다.
접근법 1: 롱폼 영상 전체 자동화 (개발남노씨 사례)
Step
1: 오케스트레이터 설계 - Claude Skills로 YouTube PD 만들기
노정호는 Claude Code의 Skills 시스템을 메인 오케스트레이터로 활용한다. .claude/skills/ 디렉토리에 "YouTube PD"라는 스킬을 정의하고, 이 스킬이 전체 영상 제작 워크플로우를 관장한다.
핵심 설계 원칙은 분업이다. YouTube PD 스킬은 세부 작업을 직접 수행하지 않고, 각 단계마다 전문 에이전트에게 위임한다. 대본 작성 에이전트, 검수 에이전트, TTS 에이전트 등 6개 이상의 에이전트가 유기적으로 협업하는 구조다.
에이전트 간 맥락 전달은 마크다운 파일로 이루어진다. 각 단계의 결과물을 .md 파일로 저장하고, 다음 에이전트 실행 시 해당 파일을 넘겨주는 방식이다. 노정호는 이렇게 설명했다: "한 세션에서 대본을 다 쓰라고 하면 글자수도 잘 못 채우고 뒤로 갈수록 품질이 떨어진다. 기획서만 탄탄하면 각 파트를 따로 써도 일관성을 유지할 수 있다."
Step
2: 기획 파이프라인 - 레퍼런스 분석부터 훅 설계까지
"유튜브 만들어 줘"라고 입력하면, 시스템은 먼저 같은 주제의 레퍼런스 영상 3-4개를 수집한다. YouTube API를 통해 대본, 썸네일, 제목, 댓글까지 가져온 뒤, 분석 에이전트가 성공 패턴을 도출한다.
여기서 중요한 건 팩트체크 단계다. 레퍼런스 영상의 대본에도 허위 정보가 있을 수 있기 때문에, 별도의 웹 검색 에이전트가 신뢰성 있는 소스에서 교차 검증을 수행한다. 노정호의 표현을 빌리면: "그들도 의도하진 않았겠지만 허위 정보들이 있을 수 있어요. 그래서 한번 더 신뢰성 있는 곳에서 검색해 봐라."
그 다음은 전략가 에이전트가 등장한다. 타겟 시청자에 맞춰 컨셉을 3가지 제안하고, 각각에 대한 제목과 훅 인트로를 설계한다. 초기에는 노정호가 직접 선택했지만, 점차 AI의 선택이 자신보다 나은 결과를 만든다는 걸 경험적으로 확인했다. "이 친구가 세 개를 추천해 주는데 네가 선택을 해라. 전략가 친구가 그걸 선택을 하거든요. 그러니까 저는 아예 손을 뗐어요." 이것이 "오토 모드"다.
Step
3: 에셋 생성 - TTS, 이미지, 비디오
대본이 확정되면 에셋 생성 단계로 넘어간다.
- TTS: ElevenLabs API로 음성을 생성한다. 20분 분량 영상 기준 글자 수 8,000-10,000자, 비용은 약 2,500-3,000원이다. API 응답에는 음성 파일과 함께 자막 타임스탬프가 포함되지만, 싱크가 맞지 않는 경우가 종종 발생한다. 이때는 대본을 짧은 문장으로 분절하여 재요청하거나, 후처리 스크립트로 보정한다.
- 이미지: Google Whisk AI를 사용한다. 더 좋은 품질의 도구도 있지만, "최대 성과 나는 가성비 라인"으로 선택했다.
- 비디오: Grok으로 동영상을 생성하여 훅 인트로 부분에만 적용한다. 전체 영상에 동영상을 쓰면 비용이 급증하기 때문에, 시청자를 끌어들이는 첫 구간에만 집중하고 나머지는 이미지로 커버한다.
- 신(Scene) 설계: 기획서와 대본을 바탕으로 클로드가 6-7초 단위로 신을 자동 분할한다. 정보성 유튜브 콘텐츠의 경우, 한 신당 자막 3-4문장이 적절하다는 것을 벤치마킹으로 파악했다.
Step
4: CapCut JSON 편집 자동화 - 핵심 기술
이 시스템의 가장 독창적인 부분이다. CapCut은 프로젝트 데이터를 JSON 파일로 관리한다. Claude Code가 이 JSON 구조를 분석하고, 편집이 완료된 프로젝트 폴더를 직접 생성한다.
작동 원리:
- CapCut의 프로젝트 폴더(draft 폴더)에는
draft_content.json, 리소스 파일들이 포함된다 - Claude Code가 이미지, 영상, 음성, 자막 파일을 리소스 폴더에 배치한다
- 각 에셋의 타이밍, 위치, 효과를 JSON으로 명시한다 - 시작 시간, 지속 시간, 이미지 확대/축소 모션, 전환 효과까지 모두 코드로 정의 가능하다
- 완성된 폴더를 CapCut의 프로젝트 디렉토리에 넣으면, CapCut에서 새 프로젝트로 자동 인식된다
노정호의 설명: "사실 그냥 폴더 자체로 그냥 주면 돼요. 그게 편집이 끝나는 거예요. 그냥 여기에 떠요." 사용자는 CapCut을 열고 Export 버튼만 누르면 된다.
이 접근법의 난이도가 높은 부분은 자막-음성 싱크 맞추기다. 노정호는 알고리즘 강사 배경이 이 부분에서 크게 도움이 됐다고 밝혔다. "모든 걸 다 클로드가 뚝딱뚝딱 하진 못한다는 걸 우리가 경험적으로 알고 있잖아요. 사용자의 이해도만큼 클로드가 할 수 있다고 보거든요."
Step
5: 배포 자동화
렌더링된 영상, 썸네일, 메타데이터(제목, 설명, 태그)가 모두 프로젝트 폴더에 준비되면, YouTube Data API를 통해 자동 업로드한다. 초기에는 수동으로 올렸지만, 하루에 여러 편을 올리다 보니 이 과정도 자동화했다.
영상 1편당 총 비용: 약 5,000원
- TTS (ElevenLabs): 2,500-3,000원
- Claude Code 사용량: 500-1,000원
- 썸네일 생성 (Nano/Gemini Pro): 500-1,000원 미만
노정호는 이 시스템으로 수동 대비 5배 이상의 생산성을 달성했다고 밝혔다. 그리고 자동화된 영상이 실제로 조회수를 기록하고 있다는 점이 핵심이다. "자동화 자체는 그렇게 어렵지 않은데, 이게 진짜로 사람들이 보나? 실제로 동작을 했고, 야 이게 진짜 되는구나."
접근법 2: 숏폼 자동 생성기 (커리어해커 알렉스 사례)
Step
1: 리서치 먼저, 코드는 나중에
알렉스는 라이브 코딩으로 1시간 만에 숏폼 생성기를 만들었다. 첫 번째로 한 일은 코드를 짜는 게 아니라, Claude Code에게 "유튜브 숏폼은 어떻게 잘 만들 수 있는지 리서치해 와"라고 지시한 것이다. 강력한 훅, 스티키 요소 등 성공하는 숏폼의 공식을 먼저 정리한 뒤, 이 리서치 결과를 프로젝트의 요구사항(PRD)으로 활용했다.
Step
2: 플랜 모드로 티키타카
알렉스의 핵심 방법론은 "코드를 짜기 전에 Claude와 충분히 대화하는 것"이다. Plan 모드를 활용해서 질문을 주고받으며 Product Requirement를 설정한다. 이 대화를 통해 기술 스택(Python, FFmpeg, Node.js, FastAPI), 입출력 형식(SRT 자막 + MP4 영상), UI 방식(웹 인터페이스)을 확정한다. 알렉스의 표현: "이제는 서비스를 만드는 게 그냥 대화하는 것처럼 느껴지기도 하거든요."
Step
3: MVP 빌드 - 에이전틱 코딩
플랜이 확정되면 Claude Code가 프로젝트를 생성한다. FastAPI 서버, 웹 UI, SRT 파서, FFmpeg 영상 처리 모듈을 자동으로 구성한다. 약 10분 만에 첫 번째 웹 UI가 완성된다.
이 과정에서 알렉스가 강조한 것은 "에이전틱 코딩"이다. Claude Code가 코드를 작성하고, 브라우저를 직접 열어 테스트하고, 에러를 발견하면 스스로 수정한다. "뭐 요즘에는 코딩이라는 게 참 신기해요. 그냥 얘가 뭐 하는지 보면서 한마디씩 던져주는 게 새로운 코딩이지 않나."
API 키 문제도 라이브 중에 발생했다. Anthropic 계정에 잔액을 충전했는데 API 키가 다른 계정에 연결되어 있었고, 모델명 오타(존재하지 않는 모델 ID)도 있었다. Claude Sonnet으로 모델을 변경하자 해결됐다.
Step
4: 바이럴 구간 자동 추출
핵심 기능은 롱폼 영상의 SRT 자막을 분석해서 숏폼으로 적합한 구간을 자동 추출하는 것이다. Claude API(Sonnet)가 자막 전체를 읽고, 훅 파워, 스토리텔링 구조, 바이럴 요소를 기준으로 5개의 추천 구간을 선정한다. 단일 구간뿐 아니라 여러 구간을 합성하는 것도 가능하다.
Step
5: 16:9에서 9:16으로 자동 크롭
숏폼의 핵심 기술 과제인 가로 영상의 세로 변환을 FFmpeg로 처리한다. 가운데를 단순히 자르면 콘텐츠가 잘리기 때문에, 알렉스는 "가운데 4:3 영역만 보여주고 나머지는 검은 여백으로 채우는" 방식을 선택했다. 이렇게 하면 영상 콘텐츠가 덜 잘리면서도 9:16 비율을 유지할 수 있다.
Step
6: 타이틀 + 서브타이틀 오버레이
완성도를 높이기 위해 영상 위에 훅 타이틀(큰 글씨)과 서브타이틀을 오버레이한다. 각 숏폼의 내용에 맞는 타이틀을 AI가 자동 생성하고, 배경 컬러와 폰트 스타일까지 지정한다.
두 접근법의 핵심 교훈
1. 도메인 지식이 자동화의 품질을 결정한다
노정호는 유튜브 크리에이터 강의를 수강하고, 미스터비스트의 팁을 분석하고, 성공 채널의 패턴을 연구한 뒤에야 자동화를 시작했다. "유튜브 생태계의 지식이 제일 중요하다고 생각합니다." AI에게 무작정 "해라"가 아니라, 도메인 지식을 먼저 습득하고 이를 워크플로우에 반영해야 한다.
2. 오토 모드 - AI의 판단을 신뢰하기
노정호가 도달한 결론은, 전략적 선택까지 AI에게 맡기는 것이 더 나은 결과를 만든다는 것이다. "내가 더 낫다는 그 보장을 이젠 못 하겠는 거예요." 3개의 옵션 중 AI가 추천한 것을 AI가 직접 선택하는 오토 모드가 본인이 직접 고른 것보다 성과가 좋았다.
3. 만들기 > 구매하기
알렉스의 마인드셋: "웬만한 서비스가 필요하다 싶으면 제가 그냥 다 만들거든요. 가격도 훨씬 더 저렴하고 내 마음대로 갖다가 만들어서 쓸 수 있고." 숏폼 생성 SaaS는 많지만, 자신의 요구에 정확히 맞는 도구를 1시간 만에 직접 만들 수 있는 시대다.
4. 멀티태스킹이 새로운 생산성
알렉스는 라이브 중에 2-3개의 Claude Code 세션을 동시에 운영했다. 하나가 영상을 렌더링하는 동안 다른 세션에서 UI를 수정하고, 또 다른 세션에서 다른 프로젝트를 진행한다. "AI 네이티브 개발자의 핵심 실력 중 하나는 얼마나 멀티태스킹을 빨리 할 수 있나."
트러블슈팅

TTS 자막 싱크 불일치
ElevenLabs API가 반환하는 자막 타임스탬프가 실제 음성과 맞지 않는 경우가 빈번하다. 대본을 짧은 문장으로 분절하여 API를 호출하면 정확도가 올라간다. 그래도 맞지 않으면 재요청하는 것이 후처리보다 효과적이다.
API 키 인증 오류
알렉스의 라이브에서 발생한 문제: 잔액을 충전한 계정과 API 키가 속한 계정이 달랐다. Anthropic 콘솔에서 Billing과 API Keys의 Organization이 일치하는지 반드시 확인해야 한다. 또한 모델명을 정확히 입력해야 한다.
숏폼 구간 추출 시 말 잘림
자막 기반으로 구간을 추출할 때, 문장 중간에서 잘리는 문제가 발생한다. "첫 3초 훅이 제일 중요해. 말이 잘리면 절대 안 돼"라는 조건을 프롬프트에 명시적으로 추가하고, 구간 시작점을 반드시 문장 시작에 맞추도록 지시해야 한다.
더 알아보기
- 심화 학습: Claude Code Skills 공식 문서에서 멀티 에이전트 오케스트레이션 패턴을 학습할 수 있다
- 관련 도구: Remotion(코드 기반 영상 생성), CapCut MCP Server(CapCut 편집 자동화), Buttercut(Claude Code 영상 편집 스킬)
- 오픈소스: AI-Youtube-Shorts-Generator(GPT-4 + FFmpeg 기반 숏폼 생성기, GitHub에서 확인 가능)


![[무편집] 클로드 코드로 1시간 만에 "숏츠" 생성기 만드는법](https://img.youtube.com/vi/EUi09O_b7so/hqdefault.jpg)




