AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패
Theory of Mind, Physical Common Sense, Working Memory — 텍스트만으로 학습한 LLM이 상식과 인지에서 어디서 실패하는지 실험합니다.

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패
사람은 물건이 떨어지면 아래로 간다는 걸 압니다. 누군가가 방을 나간 사이 물건이 옮겨졌으면, 돌아온 사람이 원래 자리를 찾아볼 거라는 것도 압니다. 어제 배운 내용이 오늘 수정되면, 수정된 버전을 기억해야 한다는 것도요.
이 모든 건 몸으로 세상을 경험하면서 쌓은 지식입니다. LLM은 이런 경험 없이 텍스트만으로 학습합니다. 텍스트에 "공은 아래로 떨어진다"고 쓰여 있으니 그 문장은 알지만, 공을 실제로 떨어뜨려본 적은 없습니다.
이번 글에서는 LLM 추론 실패 시리즈의 세 번째 주제로, 상식과 인지 영역의 세 가지 테스트를 다룹니다.
- Theory of Mind: 다른 사람의 믿음을 추적할 수 있는가
- Physical Common Sense: 직관에 반하는 물리 현상을 이해하는가
- Working Memory: 정보 업데이트를 정확히 추적하는가
7개 모델(GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite)을 대상으로 직접 실험한 결과입니다.
Theory of Mind: Sally-Anne에서 3rd-order belief까지
Theory of Mind이란
관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.