AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론Context Window ManagementSliding Window Attention

Sliding Window Attention

Context Window Management

쉽게 이해하기

슬라이딩 윈도우 어텐션은 AI가 긴 문서를 읽을 때 "지금 이 단어 주변 N개만 집중해서 보는" 방법입니다. 모든 단어가 모든 단어를 보는 전체 어텐션(Full Attention)은 문서가 길어질수록 메모리가 기하급수적으로 늘어납니다. Mistral 7B, Longformer가 이 방식을 사용하며, 책의 각 문단을 읽을 때 앞뒤 몇 문단만 참고하는 것과 유사합니다.

기술 심층 분석

  • 복잡도 개선: Full Attention O(n2)O(n^2)O(n2) → Sliding Window O(n⋅w)O(n \cdot w)O(n⋅w) (www: 윈도우 크기)

  • 어텐션 마스크: 레이어 lll에서 토큰 iii는 [i−w/2,i+w/2][i-w/2, i+w/2][i−w/2,i+w/2] 범위만 어텐션 Aij(l)={softmax(qi⋅kj/d)if ∣i−j∣≤w/2−∞otherwiseA_{ij}^{(l)} = \begin{cases} \text{softmax}(\mathbf{q}_i \cdot \mathbf{k}_j / \sqrt{d}) & \text{if } |i-j| \leq w/2 \\ -\infty & \text{otherwise} \end{cases}Aij(l)​={softmax(qi​⋅kj​/d​)−∞​if ∣i−j∣≤w/2otherwise​

  • 다층 스택 수용 영역(Receptive Field): LLL개 레이어 → L×wL \times wL×w 토큰까지 간접 참조 가능

  • Global Token: 특별 [CLS] 토큰이 모든 위치와 어텐션 (Longformer 방식)

  • KV Cache with Sliding Window: 추론 시 최근 www개 토큰의 K/V만 유지

  • Mistral 7B의 혁신: Sliding Window + Rolling Buffer KV Cache

    • 고정 VRAM으로 사실상 무한 컨텍스트 처리 가능
    • 4096 윈도우 × 32 레이어 = 131K 토큰 수용 영역
  • 변형: Longformer (local+global), BigBird (random+window+global), StreamingLLM (attention sink 추가)

Footnotes

이전글

SFT (Supervised Fine-Tuning)

다음글

Transfer Learning

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

Context Window Management

관련 게시글

0개

사용 서비스

0개

관련 방법론

ALiBi (Attention with Linear Biases)

RoPE (Rotary Position Embedding)