스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

에이전트에게 스킬을 가르치지 마세요. 스스로 배우게 하세요.

에이전트 프레임워크의 한계

LangGraph, CrewAI, AgentScope — 수많은 에이전트 프레임워크가 등장했습니다. 하지만 이들에게는 공통된 한계가 있습니다: 개발자가 모든 능력을 미리 정의해야 한다는 것입니다.

도구를 등록하고, 프롬프트를 작성하고, 워크플로우를 설계합니다. 에이전트가 새로운 상황을 만나면? 개발자가 다시 코드를 수정해야 합니다. 에이전트 자체는 아무것도 "배우지" 못합니다.

2026년 들어, 이 근본적 한계를 깨려는 프로젝트들이 GitHub에서 급부상하고 있습니다. 자가 진화(self-evolving) — 에이전트가 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 패러다임입니다.

이 글에서는 접근 방식이 완전히 다른 3개 프로젝트를 분석합니다.

1. GenericAgent — 3,300줄의 씨앗에서 자라는 스킬 트리

GitHub: lsdefine/GenericAgent

Stars: 4,300+ (하루 883개)

핵심 아이디어

GenericAgent의 철학은 간단합니다: 프레임워크를 크게 만들지 말고, 작은 씨앗을 심어서 키워라. 전체 코드가 약 3,300줄입니다. 비교하면 OpenClaw은 530,000줄입니다.

이 3,300줄 안에 들어있는 것:

9개의 원자적 도구 (코드 실행, 파일 읽기/쓰기, 브라우저 제어 등)
~100줄의 에이전트 루프
5계층 메모리 시스템

나머지는 에이전트가 스스로 만듭니다.

스킬 결정화(Skill Crystallization)

GenericAgent의 핵심 메커니즘은 "스킬 결정화"입니다:

새로운 작업 → 자율 탐색 → 실행 경로 결정화 → 메모리 저장 → 다음에 직접 재사용

예시:

"배달 앱에서 음식 주문해줘" (처음)

→ 앱 탐색, UI 학습, 주문 완료 (높은 토큰 소비)

"다시 주문해줘" (두 번째)

→ 결정화된 스킬 호출, 즉시 실행 (낮은 토큰 소비)

이것이 6배 토큰 절약의 비밀입니다. 처음에는 비싸지만, 반복할수록 싸집니다.

5계층 메모리 아키텍처

계층	이름	역할
L0	Meta Rules	핵심 행동 제약
L1	Insight Index	라우팅 및 리콜 인덱싱
L2	Global Facts	축적된 안정적 지식
L3	Task Skills/SOPs	재사용 가능한 워크플로우
L4	Session Archive	장기 리콜용 세션 기록

L1이 라우팅 레이어 역할을 하면서, "필요한 지식만 정확히" 가져오는 구조입니다. 이것이 30K 컨텍스트 윈도우에서도 작동하는 이유입니다 (경쟁자들은 200K-1M 토큰 필요).

자기 증명

가장 인상적인 사실: 이 레포 자체가 GenericAgent가 만들었습니다. 388개의 커밋 중 사람이 터미널에서 직접 입력한 것은 없습니다. 에이전트가 자신의 코드를 작성하고, 디버깅하고, 커밋했습니다. 이것이 자가 진화의 가장 강력한 증거입니다.

주요 차별점

진짜 브라우저 통합: 샌드박스가 아닌 실제 브라우저에 주입, 로그인 세션 유지
모바일 지원: ADB를 통한 안드로이드 기기 제어
다중 모델: Claude, Gemini, Kimi, MiniMax 등 지원

2. Evolver — 게놈 진화 프로토콜

GitHub: EvoMap/evolver

Stars: 4,700+ (하루 866개)

핵심 아이디어

GenericAgent가 "스킬을 결정화한다"면, Evolver는 "진화를 프로토콜화한다"입니다. 임의로 프롬프트를 수정하는 것이 아니라, 유전자(gene)와 캡슐(capsule)이라는 자산을 통해 구조화된 진화를 수행합니다.

게놈 진화 프로토콜(GEP)

Evolver의 핵심은 3가지 자산 유형입니다:

assets/gep/
├── genes.json      # 원자적 진화 패턴 (재사용 가능한 개선 단위)
├── capsules.json   # 복합 진화 전략 (유전자 조합)
└── events.jsonl    # 감사 가능한 진화 기록 (추가 전용 로그)

진화 워크플로우

신호 감지 → 유전자/캡슐 선택 → 변이 생성 → 프롬프트 방출 → 이벤트 기록

신호 추출: memory/ 디렉토리의 런타임 로그에서 오류 패턴 분석
유전자 선택: 신호 매칭 알고리즘으로 관련 진화 자산 점수 매김
변이 생성: 각 진화 실행을 통제하는 명시적 매개변수의 변이 객체 생성
프롬프트 방출: 프로토콜 기반 프롬프트 생성 (임의 코드 실행이 아님)
이벤트 기록: 추적성을 위해 모든 진화 이벤트를 events.jsonl에 기록

자가 진화 vs. 파인튜닝

측면	자가 진화 (Evolver)	파인튜닝
메커니즘	프로토콜 기반 이산 진화 사이클	연속적 그래디언트 기반 모델 업데이트
감사 가능성	명시적 EvolutionEvent 기록	블랙박스 가중치 변경
결정론	결정론적, 검토 가능한 변경 추적	확률론적, 누적 조정
되돌리기	Git 기반 롤백 + 폭발 반경 계산	체크포인트 기반, 재훈련 필요
GPU	불필요	필수

핵심 차이: Evolver는 에이전트가 *어떻게 행동하는지*를 진화시킵니다. 파인튜닝은 모델이 *무엇을 아는지*를 변경합니다. 전혀 다른 계층의 최적화입니다.

전략 프리셋

bash

# 균형 (기본값): 혁신 50%, 최적화 30%, 수리 20%
EVOLVE_STRATEGY=balanced node index.js --loop

# 강화: 혁신 20%, 최적화 40%, 수리 40%
EVOLVE_STRATEGY=harden node index.js --loop

# 수리 전용: 혁신 0%, 최적화 20%, 수리 80%
EVOLVE_STRATEGY=repair-only node index.js --loop

프로덕션 환경에서는 harden이나 repair-only로 안정성을 높이고, 실험 환경에서는 balanced로 혁신을 추구하는 것이 추천됩니다.

안전 장치

Evolver에는 여러 안전 장치가 내장되어 있습니다:

신호 중복 제거: 재귀적 수리 루프 방지
정체 감지: 무한 진화 사이클 차단
소스 파일 보호: 핵심 코드를 에이전트가 덮어쓰지 못하도록 차단
검증 게이트: 진화 적용 전 유효성 검사

3. Open Agents — Vercel이 만든 클라우드 에이전트 레퍼런스

GitHub: vercel-labs/open-agents

Stars: 3,100+ (하루 735개)

핵심 아이디어

GenericAgent와 Evolver가 "에이전트의 진화"에 집중한다면, Vercel의 Open Agents는 "에이전트의 인프라"에 집중합니다. "자율 코딩 에이전트를 프로덕션에서 어떻게 운영할 것인가?"에 대한 Vercel의 답변입니다.

3계층 아키텍처

Web Layer (Next.js) → Agent Workflow (Durable) → Sandbox VM (격리)

결정적 설계 결정: 에이전트가 샌드박스 밖에서 실행됩니다.

대부분의 프레임워크가 에이전트를 샌드박스 안에 넣는 반면, Open Agents는 에이전트와 실행 환경을 분리합니다. 이렇게 하면:

샌드박스의 독립적 휴면/재개가 가능합니다
에이전트 실행이 개별 요청 수명을 초월합니다
모델과 샌드박스 구현을 독립적으로 교체할 수 있습니다

Durable Execution

Vercel의 Workflow SDK 기반으로, 에이전트 작업이 서버 재시작을 살아남습니다:

다단계 워크플로우의 영구적 실행
스트리밍 및 취소 지원
장기 실행 작업에 걸친 상태 관리

이것은 GenericAgent나 Evolver에는 없는 인프라 수준의 내구성입니다.

에이전트 기능

파일 읽기/쓰기/편집/검색
시맨틱 코드 검색
쉘 명령 실행
레포 클론, 브랜치 관리, 자동 커밋/PR 생성
세션 공유 (읽기 전용 링크)
스킬 시스템 (.agents/skills)

왜 이 글에 포함했는가

Open Agents는 "자가 진화" 에이전트는 아닙니다. 하지만 GenericAgent나 Evolver 같은 진화 엔진이 프로덕션에서 운영되려면 필요한 인프라를 보여줍니다:

진화하는 에이전트가 서버 재시작 후에도 살아남아야 합니다 → Durable Execution
자율 에이전트가 안전하게 코드를 실행해야 합니다 → Sandbox 격리
진화 결과를 실제 코드에 반영해야 합니다 → Git 통합 + PR 자동화

GenericAgent의 스킬 트리 + Evolver의 게놈 프로토콜 + Open Agents의 인프라 = 프로덕션 레디 자가 진화 에이전트 시스템.

3가지 프로젝트 비교

차원	GenericAgent	Evolver	Open Agents
핵심 혁신	스킬 결정화	게놈 진화 프로토콜	에이전트-샌드박스 분리
코드 규모	3,300줄	~5K줄	대형 레퍼런스 앱
진화 방식	실행 → 결정화	신호 → 변이 → 프롬프트	없음 (인프라 제공)
학습 위치	L3 Task Skills	genes.json + capsules.json	N/A
감사 가능성	세션 아카이브	EvolutionEvent 완전 추적	Git 히스토리
프로덕션	로컬 위주	로컬 + 데몬 모드	Vercel 클라우드
안전 장치	기본	정체 감지, 소스 보호, 검증 게이트	샌드박스 격리
언어	Python	JavaScript (Node.js)	TypeScript (Next.js)

패러다임의 스펙트럼

사전 정의 (LangGraph, CrewAI)
  └── 개발자가 모든 것을 설계
        ↓
스킬 결정화 (GenericAgent)
  └── 에이전트가 경험에서 스킬을 추출
        ↓
프로토콜 진화 (Evolver)
  └── 구조화된 유전자 기반 진화
        ↓
인프라 (Open Agents)
  └── 위의 모든 것이 프로덕션에서 동작하는 기반

자가 진화가 의미하는 것

토큰 경제학의 변화

전통적 에이전트: 매번 같은 비용을 지불합니다. 100번 같은 작업을 하면 100배의 토큰을 소비합니다.

자가 진화 에이전트: 처음에만 비싸고, 이후에는 기하급수적으로 싸집니다. GenericAgent의 6배 절약 주장은 이 구조에서 나옵니다. 스킬이 축적될수록 ROI가 올라갑니다.

프롬프트 엔지니어링의 종말?

Evolver의 게놈 프로토콜은 프롬프트 엔지니어링을 엔지니어링 규율로 승격시킵니다. 더 이상 개인의 감에 의존하지 않습니다. 진화 자산은 버전 관리되고, 감사 가능하고, 공유할 수 있습니다.

새로운 질문

하지만 새로운 질문도 생깁니다:

안전 경계는 어디인가? 에이전트가 스스로 진화한다면, 어디까지 허용해야 할까요? Evolver는 검증 게이트와 소스 보호로 답하지만, 이것으로 충분할까요?
스킬의 품질은 누가 보장하는가? GenericAgent가 결정화한 스킬이 잘못된 것이면? 자동으로 학습한 나쁜 습관은 자동으로 퍼집니다.
의존성 문제: 에이전트가 특정 환경에서 학습한 스킬이 다른 환경에서도 작동할까요?

마무리: 도구에서 동료로

2024년: AI가 도구(tool)로 등장했습니다. 시키는 것만 합니다.

2025년: AI가 에이전트(agent)로 진화했습니다. 자율적으로 작업합니다.

2026년: AI가 학습자(learner)로 변하고 있습니다. 경험에서 배우고, 실패를 기억하고, 스스로 성장합니다.

GenericAgent의 스킬 결정화, Evolver의 게놈 진화 프로토콜, 그리고 Open Agents의 프로덕션 인프라 — 이 세 프로젝트가 가리키는 방향은 같습니다: 한 번 알려주면 영원히 기억하고, 실패할 때마다 더 나아지는 AI.

가장 흥미로운 것은, 이것이 더 큰 모델이나 더 많은 데이터가 아니라 아키텍처의 혁신이라는 점입니다. 3,300줄의 코드로도 가능합니다. 게놈 진화 프로토콜로도 가능합니다. 중요한 것은 모델의 크기가 아니라, 기억과 학습의 구조입니다.

*이 글에서 소개한 프로젝트들:*

GenericAgent — 자가 진화 스킬 트리 에이전트 (4.3K stars)
Evolver — 게놈 진화 프로토콜 엔진 (4.7K stars)
Open Agents — Vercel의 클라우드 에이전트 레퍼런스 (3.1K stars)

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임