AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
블로그Hugging Face 완전 가이드: AI 개발자의 GitHub (2025)

Hugging Face 완전 가이드: AI 개발자의 GitHub (2025)

가이드
2026년 3월 28일약 2분

핵심 포인트

  • 1.Hugging Face가 뭐하는 곳인가
  • 2.Hugging Face는 AI 모델과 데이터셋의 GitHub입니다
  • 3.2025년 현재 80만 개 이상의 모델, 15만 개 이상의 데이터셋이 공개되어 있습니다

Hugging Face가 뭐하는 곳인가?

Hugging Face는 AI 모델과 데이터셋의 GitHub입니다. 2025년 현재 80만 개 이상의 모델, 15만 개 이상의 데이터셋이 공개되어 있습니다. Meta, Google, Mistral 같은 대기업도 자사 모델을 여기에 올립니다.

mermaid
flowchart LR
    HF[Hugging Face Hub] --> Models[모델 허브<br/>80만+ 모델]
    HF --> Datasets[데이터셋<br/>15만+ 데이터셋]
    HF --> Spaces[Spaces<br/>데모 앱 호스팅]
    HF --> Inference[Inference API<br/>모델 즉시 사용]

    Models --> Use1[로컬 실행]
    Models --> Use2[파인튜닝]
    Models --> Use3[API 호출]

핵심 라이브러리

transformers:

모델의 모든 것

bash
pip install transformers torch
python
from transformers import pipeline

# 가장 간단한 사용법: pipeline
# 한국어 감성 분석
classifier = pipeline(
    "text-classification",
    model="snunlp/KR-FinBert-SC",  # 한국어 금융 감성 분석 모델
    device=0  # GPU 사용 (없으면 -1)
)

result = classifier("삼성전자 주가가 급등했다. 긍정적인 실적 발표 덕분이다.")
# [{'label': 'positive', 'score': 0.97}]

# 이미지 분류
image_classifier = pipeline("image-classification", model="google/vit-base-patch16-224")

# 번역
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-ko-en")
result = translator("안녕하세요, 저는 AI 개발자입니다.")
# [{'translation_text': 'Hello, I am an AI developer.'}]

텍스트 생성

python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "Qwen/Qwen2.5-7B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 채팅 형식으로 생성
messages = [
    {"role": "system", "content": "당신은 AI 전문가입니다."},
    {"role": "user", "content": "RAG와 파인튜닝의 차이를 설명해줘"}
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.7)

response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print(response)

datasets: 데이터셋 다루기

python
from datasets import load_dataset

# 공개 데이터셋 로드
dataset = load_dataset("klue", "ynat")  # KLUE 한국어 NLU 벤치마크

print(dataset)
# DatasetDict({
#     train: Dataset({features: ['guid', 'title', 'label', 'url'], num_rows: 45678})
#     validation: Dataset({...num_rows: 9107})
# })

# 데이터 확인
print(dataset["train"][0])
# {'guid': 'ynat-v1_train_00000', 'title': '인천공항 ...',  'label': 6}

# 필터링
short_texts = dataset["train"].filter(lambda x: len(x["title"]) < 20)

# 커스텀 데이터셋 업로드
from datasets import Dataset

my_data = {"text": ["문장1", "문장2"], "label": [0, 1]}
ds = Dataset.from_dict(my_data)
ds.push_to_hub("your-username/my-dataset")

Inference API: 코드 없이 즉시 사용

Hugging Face의 Inference API로 모델을 API처럼 사용합니다:

python
import requests

API_URL = "https://api-inference.huggingface.co/models/Qwen/Qwen2.5-7B-Instruct"
headers = {"Authorization": "Bearer hf_..."}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

result = query({
    "inputs": "한국의 AI 산업 동향을 요약해줘",
    "parameters": {"max_new_tokens": 500}
})

Serverless Inference 가격:

  • 무료 티어: 월 30,000 토큰
  • Pro ($9/월): 월 2억 토큰
  • 대부분의 모델 지원

Spaces: AI 데모 즉시 배포

Spaces는 Gradio나 Streamlit 앱을 무료로 호스팅합니다:

python
# app.py (Gradio)
import gradio as gr
from transformers import pipeline

pipe = pipeline("text-generation", model="gpt2")

def generate(prompt):
    result = pipe(prompt, max_length=100)[0]["generated_text"]
    return result

demo = gr.Interface(
    fn=generate,
    inputs=gr.Textbox(label="프롬프트"),
    outputs=gr.Textbox(label="생성된 텍스트"),
    title="GPT-2 텍스트 생성기"
)

demo.launch()
yaml
# README.md 앞에 추가 (Space 메타데이터)
---
title: My AI Demo
emoji: 🤖
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
---

huggingface-cli 또는 Git으로 push하면 자동 배포됩니다.


한국어 특화 모델 추천

태스크모델특징
텍스트 생성Qwen/Qwen2.5-7B-Instruct한국어 가장 강함
임베딩BAAI/bge-m3다국어 SOTA
감성 분석snunlp/KR-FinBert-SC금융 특화
NLImonologg/koelectra-base-v3KoELECTRA
번역Helsinki-NLP/opus-mt-ko-en경량 번역
STTopenai/whisper-large-v3한국어 최강

모델 허브에서 모델 찾는 법

python
from huggingface_hub import list_models

# 한국어 텍스트 분류 모델 검색
models = list_models(
    filter="text-classification",
    language="ko",
    sort="downloads",
    direction=-1,
    limit=10
)

for model in models:
    print(f"{model.id}: {model.downloads:,} downloads")

또는 huggingface.co/models에서:

  • Language: Korean
  • Task: 원하는 태스크
  • Sort by: Downloads (인기순)

결론Hugging Face는 AI 개발자의 필수 도구입니다:

  1. 모델 발견: 어떤 태스크든 이미 누군가 학습시킨 모델이 있음
  2. 빠른 프로토타입: pipeline 5줄로 시작, 필요하면 커스터마이징
  3. 한국어 생태계: KoELECTRA, KoBERT, BGE-M3 등 한국어 특화 모델들
  4. 무료 인프라: Spaces로 무료 GPU 데모, Inference API로 즉시 사용

시작점: transformers 설치 후 pipeline("task", model="...") 한 줄로 어떤 모델이든 즉시 실행해보세요.

이 글에서 다루는 AI

DeepSeek: DeepSeek V3

DeepSeek · 모델

Meta: Llama 3.1 8B Instruct

Meta · 모델

Meta: Llama 3.3 70B Instruct

Meta · 모델

관련 글 더 보기

가이드2026년 4월 6일

AI 재귀적 자기 개선 완전 가이드: 특이점 논쟁부터 실전 활용까지

비교2026년 4월 6일

Cursor vs GitHub Copilot vs Windsurf: AI 코딩 어시스턴트 비교 (2026)

비교2026년 4월 6일

GPT-5.4 vs Claude Opus 4.6 vs Gemini 2.5 Pro: 2026 플래그십 AI 비교

비교2026년 4월 6일

Auto Research vs AutoML: LLM 자율 연구와 자동 ML의 핵심 차이

ai.zip 커뮤니티에 참여하세요

AI 소식·유용한 링크 공유, 새 모델/서비스 토론까지 -- Discord에서 함께해요.

Discord 참여하기

이전글

Vercel AI SDK 완전 가이드: Next.js에 AI 채팅·스트리밍 붙이기 (2025)

다음글

AI 음성 기술 비교: Whisper vs ElevenLabs vs Clova Speech (2025)

댓글

0개

댓글을 작성하려면

로그인

해주세요

글 정보

가이드
2026년 3월 28일2분

관련 글

AI 재귀적 자기 개선 완전 가이드: 특이점 논쟁부터 실전 활용까지

가이드

Cursor vs GitHub Copilot vs Windsurf: AI 코딩 어시스턴트 비교 (2026)

비교

GPT-5.4 vs Claude Opus 4.6 vs Gemini 2.5 Pro: 2026 플래그십 AI 비교

Mistral: Mistral 7B Instruct v0.1

Mistral AI · 모델

OpenAI API Platform

서비스

Fine-tuning

Transfer Learning

Foundation Model API Strategy

방법론

LoRA

Fine-tuning

QLoRA

Fine-tuning

비교

Auto Research vs AutoML: LLM 자율 연구와 자동 ML의 핵심 차이

비교

Cursor vs Claude Code vs Copilot: 2026 AI 코딩 어시스턴트 최종 비교

비교

관련 모델

DeepSeek: DeepSeek V3

DeepSeek

Meta: Llama 3.1 8B Instruct

Meta

Meta: Llama 3.3 70B Instruct

Meta

관련 서비스

OpenAI API Platform

관련 방법론

Fine-tuning

Transfer Learning

Foundation Model API Strategy

LoRA

Fine-tuning