Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법
LLM의 내부에서는 무슨 일이 벌어지고 있을까? Logit Lens와 Tuned Lens를 통해 Transformer가 layer마다 어떻게 답을 만들어가는지 직접 들여다본다.

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법
대형 언어 모델(LLM)에게 "프랑스의 수도는?"이라고 물으면 "파리"라고 답합니다.
하지만 이 답은 어디서 만들어진 것일까요? 첫 번째 layer에서? 마지막 layer에서? 아니면 중간 어딘가에서 서서히 형성된 것일까요?
Mechanistic interpretability의 핵심 도구인 Lens 계열은 바로 이 질문에 답합니다. 모델의 중간 hidden state를 사람이 읽을 수 있는 형태로 "투영"하여, layer마다 모델이 무엇을 생각하고 있는지 직접 관찰하는 것입니다.
이 글에서는 가장 단순한 Logit Lens부터 학습 기반의 Tuned Lens까지, Transformer 내부를 읽는 방법의 발전 과정을 정리합니다.
관련 포스트

Claude Sonnet 4.6: Opus급 성능, 40% 저렴 — 벤치마크 심층 분석
Claude Sonnet 4.6은 SWE-bench 79.6%, OSWorld 72.5%, GDPval-AA 1633 Elo로 실무 태스크에서 Opus 4.6과 동급이거나 우위. $3/$15 vs $5/$25. Adaptive Thinking, Context Compaction, OSWorld 성장 추이 분석.

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.