Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
Andrej Karpathy가 새로운 코드를 공개했습니다. 이번에는 nanoGPT보다 더 극단적입니다. 외부 라이브러리 없이, 순수 Python만으로 GPT를 학습하고 추론하는 150줄짜리 코드입니다.
PyTorch 없음. NumPy 없음. import는 os, math, random 세 개뿐.
코드 상단의 주석이 모든 것을 요약합니다:
"This file is the complete algorithm. Everything else is just efficiency."
이 글에서는 microgpt.py를 한 줄 한 줄 해부합니다. 코드를 따라가다 보면, GPT라는 알고리즘이 실제로는 놀라울 정도로 단순한 수학 연산의 조합이라는 사실을 체감하게 됩니다.
전체 구조
microgpt.py는 크게 6개 파트로 나뉩니다:
| 파트 | 줄 수 | 역할 |
|---|---|---|
| 데이터 & 토크나이저 | ~10줄 | 이름 데이터셋 로드, 문자 단위 토큰화 |
| Value 클래스 (Autograd) | ~35줄 | 스칼라 자동 미분 엔진 |
| 파라미터 초기화 | ~15줄 | 가중치 행렬 생성 (4,192개 파라미터) |
| 모델 아키텍처 | ~40줄 | Embedding + Attention + MLP + RMSNorm |
| 학습 루프 | ~20줄 | Cross-entropy loss + Adam optimizer |
| 추론 | ~15줄 | Temperature sampling으로 이름 생성 |
총 파라미터: 4,192개. GPT-2 Small의 124M과 비교하면 약 30,000배 작습니다. 하지만 알고리즘은 동일합니다.
관련 포스트

AI Tools & Agents
나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

AI Tools & Agents
Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.

AI Tools & Agents
AI는 왜 어제 한 일을 잊는가 — 기억력 문제를 해결하는 오픈소스 3종
karpathy-skills, claude-mem, Cognee — AI 기억력 문제를 해결하는 3가지 접근법을 비교 분석합니다.