LLM 추론 최적화 Part 2 — KV Cache 최적화

Part 1에서 Attention의 구조와 KV Cache의 동작 원리를 다뤘습니다. 이번 Part에서는 KV Cache 자체를 최적화하는 실전 기법들을 코드와 함께 살펴봅니다.

모델 가중치는 양자화로 줄여도, KV Cache는 fp16 그대로인 경우가 대부분입니다. 컨텍스트가 길어지면 KV Cache가 전체 VRAM의 절반 이상을 차지하는 것도 흔한 일입니다. 이 문제를 해결하는 세 가지 접근법을 다룹니다.

1. KV Cache 양자화

원리

KV Cache의 각 원소를 fp16(2바이트)에서 int8(1바이트) 또는 int4(0.5바이트)로 변환합니다. 가장 직관적인 압축 방법입니다.

$$\text{quantized} = \text{round}\left(\frac{x - \text{zero\_point}}{\text{scale}}\right)$$

python

import torch

def quantize_kv_cache_int8(key: torch.Tensor, value: torch.Tensor):
    """KV Cache를 int8로 양자화 (per-channel)"""
    def quantize_tensor(t):
        # Channel별 min/max 기반 양자화
        t_flat = t.reshape(-1, t.shape[-1])  # (tokens, head_dim)
        t_min = t_flat.min(dim=0).values
        t_max = t_flat.max(dim=0).values

        scale = (t_max - t_min) / 255.0
        zero_point = t_min

        quantized = ((t - zero_point) / scale).round().clamp(0, 255).to(torch.uint8)
        return quantized, scale, zero_point

    k_quant, k_scale, k_zp = quantize_tensor(key)
    v_quant, v_scale, v_zp = quantize_tensor(value)

    return (k_quant, k_scale, k_zp), (v_quant, v_scale, v_zp)


def dequantize_kv_cache(quantized, scale, zero_point, dtype=torch.float16):
    """양자화된 KV Cache를 복원"""
    return quantized.to(dtype) * scale + zero_point


# 사용 예시
batch, kv_heads, seq_len, head_dim = 1, 8, 4096, 128
key = torch.randn(batch, kv_heads, seq_len, head_dim, dtype=torch.float16)
value = torch.randn(batch, kv_heads, seq_len, head_dim, dtype=torch.float16)

# 양자화
(k_q, k_s, k_z), (v_q, v_s, v_z) = quantize_kv_cache_int8(key, value)

# 메모리 비교
original_mb = (key.nelement() + value.nelement()) * 2 / 1024**2  # fp16
quantized_mb = (k_q.nelement() + v_q.nelement()) * 1 / 1024**2   # int8

print(f"Original (fp16): {original_mb:.1f} MB")
print(f"Quantized (int8): {quantized_mb:.1f} MB")
print(f"Compression: {original_mb / quantized_mb:.1f}x")

# 복원 품질 확인
key_restored = dequantize_kv_cache(k_q, k_s, k_z)
mse = ((key.float() - key_restored.float()) ** 2).mean()
print(f"MSE: {mse:.6f}")

HuggingFace에서 KV Cache 양자화

transformers 4.38+에서는 QuantizedCache를 지원합니다.

LLM 추론 최적화 Part 2 — KV Cache 최적화

LLM 추론 최적화 Part 2 — KV Cache 최적화

1. KV Cache 양자화

원리

HuggingFace에서 KV Cache 양자화

이어서 읽으려면 로그인이 필요합니다

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법