LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.

LLM 추론 최적화 Part 2 — KV Cache 최적화
Part 1에서 Attention의 구조와 KV Cache의 동작 원리를 다뤘습니다. 이번 Part에서는 KV Cache 자체를 최적화하는 실전 기법들을 코드와 함께 살펴봅니다.
모델 가중치는 양자화로 줄여도, KV Cache는 fp16 그대로인 경우가 대부분입니다. 컨텍스트가 길어지면 KV Cache가 전체 VRAM의 절반 이상을 차지하는 것도 흔한 일입니다. 이 문제를 해결하는 세 가지 접근법을 다룹니다.
1. KV Cache 양자화
원리
관련 포스트

AI Engineering
LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

AI Engineering
LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

AI Engineering
LLM 추론 최적화 Part 1 — Attention 메커니즘 해부
Self-Attention을 밑바닥부터 구현. MHA → GQA → MQA 진화를 코드로 비교. KV Cache 동작 원리와 Prefill vs Decode 분석.