슬라이딩 윈도우 어텐션은 AI가 긴 문서를 읽을 때 "지금 이 단어 주변 N개만 집중해서 보는" 방법입니다. 모든 단어가 모든 단어를 보는 전체 어텐션(Full Attention)은 문서가 길어질수록 메모리가 기하급수적으로 늘어납니다. Mistral 7B, Longformer가 이 방식을 사용하며, 책의 각 문단을 읽을 때 앞뒤 몇 문단만 참고하는 것과 유사합니다.
복잡도 개선: Full Attention → Sliding Window (: 윈도우 크기)
어텐션 마스크: 레이어 에서 토큰 는 범위만 어텐션
다층 스택 수용 영역(Receptive Field): 개 레이어 → 토큰까지 간접 참조 가능
Global Token: 특별 [CLS] 토큰이 모든 위치와 어텐션 (Longformer 방식)
KV Cache with Sliding Window: 추론 시 최근 개 토큰의 K/V만 유지
Mistral 7B의 혁신: Sliding Window + Rolling Buffer KV Cache
변형: Longformer (local+global), BigBird (random+window+global), StreamingLLM (attention sink 추가)