Attention Slack — Why a Bigger Context Improves Reasoning (Even on 150-Token Prompts)
세차장이 50미터 거리에 있다. 걸어갈까, 운전할까? 정답은 운전이다 — 차가 세차장에 있어야 하니까. Perplexity, ChatGPT, Claude, Mistral 모두 '걷기'라고 답했다.
이 역설에서 출발한 벤치마크. Gemma4 26B를 4가지 컨텍스트 설정(96K~256K)으로 테스트한 결과, 256K 설정만이 모든 변형에서 0.80의 점수로 오차 없이 통과했다. 프롬프트는 단 150토큰이었다. 컨텍스트 윈도우 크기는 단순한 저장 공간이 아니라 모델의 추론 작업 공간이다.
Attention Slack 가설: 어텐션 헤드(head)는 학습된 분포(sequence length)에 따라 특화되며, 충분한 '슬랙'(빈 KV 캐시 슬롯)이 없으면 분산 통합 헤드가 제대로 작동하지 않는다. 4개의 SVG 차트, 전체 재현 프로토콜 포함.
The car wash is 50 meters away. Walk or drive? The correct answer is drive — the car needs to be at the wash. Every major model said walk.
This benchmark tests Gemma4 26B across 4 context configurations (96K to 256K). Only 256K passes every variant at 0.80 with zero variance. The prompt was 150 tokens. Context window size isn't storage — it's the model's reasoning workspace.
Attention Slack Hypothesis: attention heads specialize based on training sequence length distribution. Without sufficient "slack" (empty KV cache slots), distributed integrator heads fail to activate properly. 4 SVG charts, full reproduction protocol.
v1.0 — 2026-05-14 — 최초 작성
