AI는 왜 어제 한 일을 잊는가 — 기억력 문제를 해결하는 오픈소스 3종

"한국어는 합니다체로 써"를 매번 말해야 하는 AI와, 한 번 말하면 영원히 기억하는 AI. 당신은 어떤 것을 원하십니까?

AI의 기억력 문제

Claude Code로 10시간 동안 프로젝트를 진행했습니다. 버그를 잡고, 아키텍처를 결정하고, "이건 이렇게 하기로 했어"라는 규칙을 세웠습니다. 그런데 세션이 끝나고 다음 날 다시 열면 — AI는 모든 것을 잊어버립니다.

이것은 단순한 불편함이 아닙니다. 생산성의 구조적 손실입니다.

매 세션마다 반복되는 것들이 있습니다:

"한국어 포스트는 합니다체로 써"
"Sanity 업로드 스크립트는 이 패턴을 따라"
"이 프로젝트의 slug 규칙은 한국어는 접미사 없이, 영어는 -en"
"그거 이틀 전에 만들다 말았는데, 어디까지 했더라..."

LLM은 세계에서 가장 뛰어난 문맥 이해 능력을 가지고 있지만, 기억력은 금붕어 수준입니다. 세션이 끝나면 모든 것이 증발합니다.

이 문제를 해결하려는 오픈소스 프로젝트 3개가 지금 GitHub에서 폭발적으로 성장하고 있습니다. 접근 방식이 각각 다르기 때문에, 비교하면서 보면 "AI 기억력"이라는 문제의 본질을 더 잘 이해할 수 있습니다.

1. andrej-karpathy-skills — CLAUDE.md 하나로 코딩 품질 올리기

GitHub: forrestchang/andrej-karpathy-skills

Stars: 48,900+ (하루 만에 7,900개)

무엇인가

Andrej Karpathy가 2026년 1월, LLM 코딩 에이전트의 반복적인 실패 패턴을 관찰하고 정리한 내용을 하나의 CLAUDE.md 파일로 만든 것입니다. 이 파일을 프로젝트 루트에 놓으면 Claude Code가 자동으로 읽고, 해당 규칙을 따릅니다.

Karpathy가 관찰한 LLM의 4가지 실패 패턴

패턴	설명
Silent Assumptions	확인하지 않고 가정을 세우고 달려감
Overengineering	100줄이면 될 것을 1,000줄로 만듦
Scope Creep	요청하지 않은 코드까지 건드림
Lack of Judgment	문법은 맞지만 판단이 없음

4가지 규칙

Rule 1: Think Before Coding

코딩하기 전에 가정을 명시적으로 밝히고, 불확실하면 물어보라는 규칙입니다. 여러 해석이 가능하면 선택지를 제시하되, 조용히 하나를 고르지 말라고 합니다.

Rule 2: Simplicity First

요청받은 것만 구현합니다. 미래의 유연성, 설정 가능성, 불가능한 시나리오에 대한 에러 핸들링 — 전부 하지 말라고 합니다. 200줄 짜리가 50줄이 될 수 있으면 다시 쓰라고 합니다.

Rule 3: Surgical Changes

기존 코드를 편집할 때, 인접한 코드를 "개선"하지 말라는 규칙입니다. 스타일이 마음에 안 들어도 기존 스타일을 따르고, 관련 없는 데드 코드를 발견해도 삭제하지 말고 언급만 하라고 합니다.

Rule 4: Goal-Driven Execution

모든 작업을 검증 가능한 목표로 변환합니다:

"validation 추가해" → "잘못된 입력에 대한 테스트를 작성하고, 통과시켜라"
"버그 수정해" → "버그를 재현하는 테스트를 작성하고, 통과시켜라"

기억력 문제와의 관계

karpathy-skills는 기억력 문제의 가장 원시적인 해결책입니다. "AI가 잊어버리는 규칙을 파일 하나에 적어두자." CLAUDE.md는 세션이 시작될 때마다 자동으로 로드되므로, AI가 "잊어버릴 수 없는" 규칙이 됩니다.

이 접근법의 한계는 명확합니다:

수동입니다. 사람이 직접 규칙을 작성해야 합니다
정적입니다. 프로젝트가 진행되면서 쌓이는 맥락은 담을 수 없습니다
크기 제한이 있습니다. 200줄 이상은 권장되지 않습니다

그럼에도 48K 스타를 받은 이유는, 이것만으로도 코딩 정확도가 65-70%에서 91-94%로 올라갔다는 커뮤니티 보고 때문입니다. 단순하지만 강력합니다.

2. claude-mem — 세션 간 컨텍스트를 자동으로 기억

GitHub: thedotmack/claude-mem

Stars: 59,300+ (62.7K 도달)

무엇인가

claude-mem은 Claude Code의 모든 활동을 자동으로 캡처하고, AI로 압축한 뒤, 다음 세션에 자동 주입하는 영구 기억 플러그인입니다. karpathy-skills가 "규칙을 적어두자"였다면, claude-mem은 "모든 것을 자동으로 기록하자"입니다.

동작 방식

세션 시작 → 최근 작업 기록 자동 주입 (800~3,000 토큰)
  ↓
작업 중 → 모든 tool 호출 결과를 백그라운드에서 AI 압축
  ↓
파일 읽기 → 해당 파일 관련 과거 기억 자동 주입
  ↓
세션 종료 → 세션 요약 생성 및 저장

핵심은 5개의 라이프사이클 후크입니다:

후크	시점	동작
`SessionStart`	세션 시작	최근 관찰 50개 + 세션 요약 10개 주입
`UserPromptSubmit`	프롬프트 입력	세션 로깅
`PostToolUse`	도구 실행 후	결과를 백그라운드 워커로 전송, AI 압축
`Stop`	중단/유휴	세션 수준 요약 생성
`SessionEnd`	세션 종료	메타데이터 확정

가장 혁신적인 기능: PreToolUse:Read

Claude가 파일을 읽을 때, 과거에 그 파일에 대해 기록된 관찰을 자동으로 주입합니다. 즉, 기억이 에이전트의 시선을 따라갑니다. 공식 문서에서도 이 기능을 "genuinely novel(진정으로 새로운)"이라고 표현했습니다.

3계층 Progressive Disclosure

토큰 효율성을 위해 한 번에 모든 기억을 로드하지 않습니다:

검색 (Layer 1): 관찰 ID만 반환 (~50-100 토큰)
타임라인 (Layer 2): 시간순 맥락 제공
상세 (Layer 3): 선택된 관찰만 전체 로드 (~500-1,000 토큰)

결과: 25,000 토큰이 필요할 상황에서 5,250 토큰만 사용 (80% 절약).

설치

bash

npx claude-mem install

이 한 줄로 SQLite + ChromaDB 설정, 후크 등록, 워커 서비스 시작까지 전부 완료됩니다.

karpathy-skills와의 차이

	karpathy-skills	claude-mem
방식	수동 규칙 작성	자동 캡처 + AI 압축
범위	불변 규칙	모든 작업 히스토리
크기	~200줄	무제한 (DB)
업데이트	수동	자동
검색	없음 (전체 로드)	시맨틱 + 키워드
비용	무료	압축당 $0.002-0.01

한계

소스 코드 수준 비교에서 지적된 약점들:

Zero knowledge integrity (지식 무결성 검증 없음)
Zero quality/trust scoring (품질 신뢰도 점수 없음)
Zero append-only protection (추가 전용 보호 없음)

강력하지만, 기관급 보안이 필요한 환경에서는 부족합니다.

3. cognee — AI 에이전트를 위한 학습하는 메모리 엔진

GitHub: topoteretes/cognee

Stars: 16,400+

무엇인가

cognee는 비정형 데이터를 학습하고 진화하는 지식 시스템으로 변환하는 AI 메모리 엔진입니다. claude-mem이 "개인 기억"이라면, cognee는 "조직 지식"에 가깝습니다.

6줄로 시작하는 AI 메모리

python

import cognee, asyncio

async def main():
    await cognee.remember("Cognee는 문서를 AI 메모리로 변환합니다.")
    results = await cognee.recall("Cognee가 뭘 하나요?")
    for result in results:
        print(result)

asyncio.run(main())

이 간결함 뒤에는 정교한 파이프라인이 숨어 있습니다:

remember: 데이터 → 임베딩 + 그래프 노드로 변환 → 영구 저장
recall: 쿼리를 최적 검색 전략(벡터/그래프 하이브리드)으로 자동 라우팅
forget: 관계 정리 포함 선택적 삭제
improve: 피드백 기반 학습으로 지식 구조 업데이트

RAG vs. cognee

	전통적 RAG	cognee
메모리 타입	정적 문서	학습하고 진화하는 지식 그래프
검색	벡터 유사도만	벡터 + 그래프 탐색 하이브리드
맥락	단일 세션	크로스 세션, 크로스 에이전트
학습	없음	`improve()`를 통한 지속적 개선
관계	없음	개념 간 명시적 연결 + 온톨로지
다중 에이전트	격리됨	테넌트 격리 + 공유 지식

핵심 차별점: 학습하는 메모리

RAG는 검색(retrieve)합니다. cognee는 학습(learn)하고 추론(reason)합니다. 유사한 문서를 찾는 것이 아니라, 개념들이 어떻게 연결되는지 이해하고 결과에 따라 적응합니다.

사용 사례

고객 지원 에이전트: 과거 상담 히스토리를 그래프로 연결, 유사 사례의 검증된 솔루션 자동 검색
전문가 지식 이전: 시니어 분석가의 SQL 패턴을 캡처, 주니어에게 자동 제공
다중 에이전트 연구: 에이전트 간 지식 공유, 중복 연구 방지

3가지 도구 비교

이 세 도구는 같은 문제의 서로 다른 층위를 해결합니다:

karpathy-skills (규칙)
  └── "이렇게 해라" — 불변 원칙
        ↓
claude-mem (기억)
  └── "어제 이걸 했다" — 개인 히스토리
        ↓
cognee (지식)
  └── "이것과 저것은 이렇게 연결된다" — 조직 지식

차원	karpathy-skills	claude-mem	cognee
비유	포스트잇	일기장	백과사전
대상	개인 개발자	개인/팀	팀/조직
자동화	수동	완전 자동	API 기반
기억 구조	플랫 텍스트	시계열 관찰	지식 그래프
학습	없음	패턴 인식	피드백 기반 진화
토큰 효율	전체 로드	Progressive Disclosure	Auto-routing
스타	48.9K	59.3K	16.4K
설치 난이도	파일 복사	`npx` 한 줄	`pip install`

어떤 것을 써야 할까?

지금 당장 Claude Code 품질만 올리고 싶다면 → karpathy-skills. 파일 하나 복사하면 끝입니다
매일 같은 프로젝트를 작업하고, 맥락 손실이 싫다면 → claude-mem. 설치 5분, 3~5 세션 후부터 ROI 양전환
팀 단위로 AI 에이전트를 운영하고, 지식이 누적돼야 한다면 → cognee. 학습하는 메모리는 RAG의 다음 단계입니다

실전 조합 추천

가장 강력한 조합은 세 가지를 같이 쓰는 것입니다:

CLAUDE.md에 karpathy-skills의 4가지 규칙을 넣어 기본 품질을 확보
claude-mem으로 세션 간 히스토리를 자동 유지
cognee로 팀/조직 수준의 지식을 구축하고, 에이전트에 주입

CLAUDE.md (규칙 계층)
  + claude-mem (기억 계층)
    + cognee (지식 계층)
= 잊지 않는 AI

마무리: 기억하는 AI를 향해

2024년의 화두가 "AI가 코드를 쓸 수 있는가?"였다면, 2026년의 화두는 "AI가 어제 한 일을 기억할 수 있는가?"입니다.

karpathy-skills의 48K 스타와 claude-mem의 59K 스타는 이 문제가 얼마나 절실한지를 보여줍니다. 개발자들은 더 이상 "AI가 코드를 잘 쓰느냐"를 묻지 않습니다. "AI가 맥락을 유지하느냐"를 묻습니다.

세 도구 모두 완벽하지 않습니다. karpathy-skills는 수동이고, claude-mem은 기관급 보안이 부족하고, cognee는 설정 복잡도가 있습니다. 하지만 이들이 가리키는 방향은 같습니다: LLM의 다음 도약은 더 큰 모델이 아니라, 더 나은 기억력에 있습니다.

*이 글에서 소개한 프로젝트들:*

andrej-karpathy-skills — CLAUDE.md 코딩 규칙 (48.9K stars)
claude-mem — 영구 기억 플러그인 (59.3K stars)
cognee — AI 메모리 엔진 (16.4K stars)

AI는 왜 어제 한 일을 잊는가 — 기억력 문제를 해결하는 오픈소스 3종