100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다
MoE 스케일링, Token Editing(T2T+M2T), S-Mode/Q-Mode, RL Framework -- LLaDA 2.X가 Diffusion LLM을 실용화하는 과정.

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다
Part 3에서 LLaDA가 Masked Diffusion을 8B 스케일로 확장하며 "Diffusion LLM은 가능하다"를 증명했습니다. 하지만 실용적인 문제가 남아 있었습니다: 속도가 AR 모델에 비해 훨씬 느리고, RLHF 같은 정렬 학습이 부재했습니다.
2025년 11월 Ant Group의 InclusionAI가 LLaDA 2.0으로 이 간극을 좁히기 시작했고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도-품질 트레이드오프를 재정의했습니다.
이 글에서는 8B에서 100B로의 스케일링, MoE 아키텍처의 도입, 그리고 Token Editing의 작동 원리를 다룹니다.
LLaDA 2.0: 100B로의 도약
LLaDA 2.0은 두 가지 모델을 출시했습니다:
| 모델 | 총 파라미터 | 활성 파라미터 | 레이어 | Heads | Context | Vocab |
|---|---|---|---|---|---|---|
| LLaDA 2.0-mini | 16B | 1.4B | 20 | 16 | 32,768 | 157,184 |
| LLaDA 2.0-flash | 100B | 6.1B | 32 | 32 | 32,768 | 157,184 |
핵심 변화: MoE(Mixture of Experts) 도입.
원본 LLaDA 8B는 dense 모델이었습니다 -- 모든 파라미터가 매 입력에 대해 활성화됩니다. LLaDA 2.0은 MoE 구조를 채택해 총 파라미터는 크게 키우되, 실제 추론 시에는 소수의 expert만 활성화됩니다.
LLaDA 2.0-flash는 100B 파라미터 중 6.1B만 활성화됩니다. 이것은 Mixtral, DeepSeek 등 AR MoE 모델과 동일한 전략입니다: "모델의 전체 지식은 넓게 유지하되, 추론 비용은 낮게."
관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.