LLM이 정말 똑똑할까요? AI의 '추론 실패'를 파헤치다
스탠포드 연구진이 500편 이상의 논문을 분석해 LLM의 추론 실패를 체계적으로 정리했습니다. 인지 편향, 역전의 저주, 합성적 추론 실패 등 AI가 어디서 왜 실패하는지 알아봅니다.

LLM이 정말 똑똑할까요? AI 추론 실패 완전 가이드
ChatGPT나 Claude 같은 대규모 언어 모델(LLM)은 복잡한 코드를 짜고, 시를 쓰며, 철학적인 대화도 나눕니다. 하지만 가끔 아주 간단한 문제에서 엉뚱한 대답을 내놓아 당황하게 만들기도 합니다.
"왜 이렇게 똑똑한 AI가 이런 기본적인 실수를 할까?"
스탠포드 대학교의 Song, Han, Goodman이 발표한 서베이 논문 "Large Language Model Reasoning Failures"(TMLR 2026)는 LLM이 어디서, 왜 실패하는지를 체계적으로 정리한 최초의 분류 체계입니다. 500편 이상의 연구를 분석해 수십 가지 실패 유형을 추론 유형별, 실패 성격별로 매핑합니다.
이 글에서는 논문의 프레임워크와 핵심 발견을 소개합니다. 논문의 분류 체계에 영감을 받아 10가지 실험을 직접 설계하고 7개 최신 모델로 재현해봤습니다. 실험의 상세 결과는 Part 1-3에서 다루고, 이 글은 전체 개요입니다.
관련 포스트

파인튜닝 모델 평가부터 배포까지 — 실전 완결편
Perplexity, KoBEST, ROUGE-L로 모델 평가. merge_and_unload()로 어댑터 머지, GGUF 변환, vLLM/Ollama 배포. 과적합 방지, 데이터 품질, 하이퍼파라미터 가이드.

QLoRA + 한국어 — T4 한 장으로 7B 모델을 한국어 전문가로 만들기
QLoRA(4-bit NormalFloat + LoRA)로 T4 16GB에서 Qwen 2.5 7B 파인튜닝. 한국어 데이터셋 구축 가이드, NF4/Double Quantization/Paged Optimizer 원리, Wandb 모니터링.

LoRA 완전 정복 — 7B 모델을 노트북 하나로 파인튜닝하기
LoRA(Low-Rank Adaptation)의 원리부터 Qwen 2.5 7B 실습까지. 전체 파라미터의 0.18%만 학습해서 풀 파인튜닝의 98% 성능을 달성하는 방법. VRAM 130GB → 18GB로 86% 절감.