Question 1

Sliding Window Attention이란 무엇인가요?

Accepted Answer

슬라이딩 윈도우 어텐션은 AI가 긴 문서를 읽을 때 "지금 이 단어 주변 N개만 집중해서 보는" 방법입니다. 모든 단어가 모든 단어를 보는 전체 어텐션(Full Attention)은 문서가 길어질수록 메모리가 기하급수적으로 늘어납니다. Mistral 7B, Longformer가 이 방식을 사용하며, 책의 각 문단을 읽을 때 앞뒤 몇 문단만 참고하는 것과 유사합니다.

Question 2

Sliding Window Attention의 기술적 원리는 무엇인가요?

Accepted Answer

- 복잡도 개선: Full Attention  → Sliding Window  (: 윈도우 크기)

- 어텐션 마스크: 레이어 에서 토큰 는  범위만 어텐션

- 다층 스택 수용 영역(Receptive Field): 개 레이어 →  토큰까지 간접 참조 가능

- Global Token: 특별 [CLS] 토큰이 모든 위치와 어텐션 (Longformer 방식)

- KV Cache with Sliding Window: 추론 시 최근 개 토큰의 K/V만 유지

- Mistral 7B의 혁신: Sliding Window + Rolling Buffer KV Cache
  - 고정 VRAM으로 사실상 무한 컨텍스트 처리 가능
  - 4096 윈도우 × 32 레이어 = 131K 토큰 수용 영역

- 변형: Longformer (local+global), BigBird (random+window+global), StreamingLLM (attention sink 추가)

Sliding Window Attention

쉽게 이해하기

기술 심층 분석

Footnotes

댓글