도서관에서 책을 찾는 상황을 떠올려 보자. 기존 위치 인코딩 방식은 각 책에 고정된 번호표를 붙이는 것과 같다. 1번 책, 2번 책, 3번 책... 이렇게 번호를 미리 정해두면, 도서관이 확장되어 1,000번 이후의 책이 들어왔을 때 기존 번호 체계로는 그 책들의 위치를 제대로 파악할 수 없다. ALiBi(Attention with Linear Biases)는 이 문제를 완전히 다른 방식으로 접근한다. 번호표를 붙이는 대신, "지금 내가 보고 있는 책에서 얼마나 멀리 있는가"에 따라 관심도를 자동으로 조절하는 것이다.
기존의 sinusoidal이나 learned position embedding 방식은 토큰 임베딩에 위치 정보를 직접 더한다. 즉, 모델이 "3번 위치"라는 패턴을 학습하므로, 학습 시 본 적 없는 위치 번호(예: 2049번)가 나타나면 성능이 급격히 붕괴한다. 반면 ALiBi는 위치 임베딩을 아예 사용하지 않는다. 대신 어텐션 점수를 계산한 후, 두 토큰 사이의 거리에 비례하는 선형 페널티를 부과한다. 가까운 토큰은 거의 페널티 없이 높은 어텐션을 받고, 먼 토큰은 거리만큼 페널티를 받아 어텐션이 약해진다. 이 페널티는 학습하는 것이 아니라 고정된 값이므로, 학습 시 보지 못한 더 긴 시퀀스에서도 자연스럽게 작동한다.
ALiBi를 채택한 대표적인 모델로는 BigScience의 BLOOM(176B 파라미터), MosaicML의 MPT 시리즈, 일부 Falcon 모델, 그리고 MosaicBERT가 있다. Meta의 음성 모델인 VoiceBox와 AudioBox에서도 ALiBi가 활용되고 있어, 텍스트뿐 아니라 오디오 도메인까지 적용 범위가 넓다.
정량적으로 보면, ALiBi를 적용한 1.3B 파라미터 모델은 1,024 토큰으로 학습한 후 2,048 토큰 시퀀스에서 테스트했을 때, 2,048 토큰으로 직접 학습한 sinusoidal 모델과 동일한 perplexity를 달성했다. 동시에 학습 속도는 11% 빠르고, 메모리는 11%(1.6GB) 적게 사용했다1. 즉, 절반 길이의 데이터로 학습해도 동일한 성능을 얻을 수 있어 학습 비용을 크게 절감할 수 있다.

선수학습: 이 내용을 이해하려면 Context Window Management를 먼저 읽으면 좋습니다. 형제 방법론인 RoPE와 Sliding Window Attention도 함께 참고하세요.
ALiBi의 핵심 수식은 다음과 같다. 기존 어텐션 메커니즘에서 softmax 계산 전 단계에 선형 편향(linear bias)을 추가한다:
여기서 는 위치 의 query 벡터, 는 key 행렬, 은 헤드별 고정 기울기(slope)다. 편향 벡터 은 현재 위치에서 각 이전 토큰까지의 거리를 음수로 표현한 것이다. 현재 토큰(거리 0)은 페널티 없이 원래 어텐션 점수를 유지하고, 멀리 있는 토큰일수록 큰 음수 페널티를 받는다2.
헤드별 기울기(slope) 설정
개의 어텐션 헤드가 있을 때, 각 헤드 의 기울기는 등비수열로 결정된다:
8개 헤드 기준으로 구체적인 값은 다음과 같다:
| 헤드 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|---|---|---|---|---|---|---|---|---|
| slope () | 1/2 | 1/4 | 1/8 | 1/16 | 1/32 | 1/64 | 1/128 | 1/256 |
큰 slope(1/2)를 가진 헤드는 먼 토큰에 강한 페널티를 부과해 근거리 토큰에 집중하며, 주로 구문(syntax) 패턴을 포착한다. 작은 slope(1/256)를 가진 헤드는 약한 페널티로 먼 토큰까지 어텐션을 허용하여 전체 문맥의 의미(semantics)를 파악한다. 이 기울기 값은 학습하지 않으며, 모든 도메인과 모델 크기에서 동일한 공식으로 설정한다(논문 Table 3)2.
기존 방식과의 구조적 차이
기존 방식 (Sinusoidal / Learned):
input = token_embedding + position_embedding
attention = softmax(QK^T / sqrt(d))
ALiBi:
input = token_embedding (위치 임베딩 없음)
attention = softmax(QK^T / sqrt(d) + m * distance_bias)
위치 정보가 임베딩 공간이 아닌 어텐션 점수 공간에서 작용하므로, 학습 시 보지 못한 위치에 대해서도 거리 기반 페널티가 자연스럽게 적용된다.

| 방법론 | 학습 길이 | 테스트 길이 | Perplexity | 외삽 가능 여부 | 출처 |
|---|---|---|---|---|---|
| ALiBi | 1024 | 2048 | 11.2 | 가능 (2-10x) | 논문 Table 1 |
| Sinusoidal | 2048 | 2048 | 11.2 | 불가 | 논문 Table 1 |
| Sinusoidal | 1024 | 2048 | 50+ | 불가 (급격 붕괴) | 논문 Figure 1 |
| RoPE | 1024 | 2048 | ~14.8 | 제한적 | 논문 Figure 1 |
| T5 Bias | 1024 | 2048 | ~13.5 | 제한적 | 논문 Figure 1 |
ALiBi는 1,024 토큰으로 학습한 모델이 2,048 토큰까지 외삽했을 때 perplexity가 거의 증가하지 않으며, 심지어 16,000 토큰까지도 안정적인 성능을 유지한다. 반면 sinusoidal과 RoPE는 학습 길이를 넘어서면 perplexity가 급격히 상승한다(논문 Figure 1)1.
학습 효율 측면에서, ALiBi 모델은 동일 성능 달성 시 sinusoidal 대비 학습 속도 11% 향상, 메모리 사용량 11%(1.6GB) 절감을 보인다. 이는 위치 임베딩 테이블이 불필요하고, 더 짧은 시퀀스로 학습할 수 있기 때문이다(논문 Section 5)1.
실무적으로 이 수치가 의미하는 것은, 1K 토큰으로 학습한 ALiBi 모델을 2K-10K 토큰 추론에 바로 배포할 수 있어 학습 비용을 대폭 줄일 수 있다는 점이다.
BLOOM-7B 모델의 SCROLLS 벤치마크에서, ALiBi 보간(interpolation) 방식은 외삽(extrapolation) 대비 NarrativeQA에서 F1 4.17 vs 1.63, GovReport에서 ROUGE1 18.39 vs 14.21로 크게 앞섰다(SambaNova, 2024)3.

장점
한계
적합한 시나리오
부적합한 시나리오
도입 판단 기준
ALiBi를 사용하는 주요 모델: BLOOM (BigScience), MPT (MosaicML), Falcon (일부), MosaicBERT, VoiceBox (Meta)


Press, O., Smith, N., Lewis, M. "Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation." ICLR 2022. ↩ ↩2 ↩3 ↩4 ↩5
labml.ai ALiBi implementation (nn.labml.ai/transformers/alibi) ↩ ↩2 ↩3
SambaNova Systems. "ALiBi Deep Dive: Interpolation vs. Extrapolation." 2024. ↩ ↩2
ICLR Blogposts 2024. "Masked Language Model with ALiBi and CLAP head." ↩
OpenReview. "From Interpolation to Extrapolation." Under review at ICLR 2024. ↩ ↩2