Models & Algorithms•December 2, 2025•EN

SANA: O(n²)→O(n) Linear Attention으로 1024² 이미지 0.6초 생성

Self-Attention의 quadratic 복잡도 문제를 Linear Attention이 어떻게 해결했는지. DiT 대비 100배 빠른 생성의 비밀.

SANA: O(n²)→O(n) Linear Attention으로 1024² 이미지 0.6초 생성

SANA: Linear Attention으로 초고속 고해상도 이미지 생성

TL;DR: SANA는 Linear Attention과 효율적인 토큰 압축을 통해 1024×1024 이미지를 0.6초 만에 생성합니다. DiT 대비 100배 이상 빠르면서 동등한 품질을 유지하는 획기적인 아키텍처입니다.

1. 소개: 속도와 품질의 트레이드오프 극복

1.1 기존 Diffusion 모델의 속도 문제

고해상도 이미지 생성은 계산 비용이 막대합니다:

모델	해상도	생성 시간	GPU 메모리
Stable Diffusion XL	1024²	~8초	16GB
PixArt-α	1024²	~5초	12GB
DALL-E 3	1024²	~12초	-
DiT-XL/2	512²	~4초	20GB

핵심 병목:

Transformer의 Self-Attention: $O(n^2)$ 복잡도
1024×1024 이미지 → 4096 패치 → 1,600만 쌍의 attention 연산!

1.2 SANA의 해결책

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

로그인 / 회원가입

관련 포스트

TurboQuant 실전 — llama.cpp와 HuggingFace에서 KV Cache 압축하기

Models & Algorithms

TurboQuant 실전 — llama.cpp와 HuggingFace에서 KV Cache 압축하기

llama.cpp turbo3 빌드, HuggingFace 통합, 메모리 계산기, 최적 설정 가이드. 70B 모델 536K 컨텍스트 실현.

TurboQuant 완전 해부 — Google의 KV Cache 극한 압축 알고리즘

Models & Algorithms

TurboQuant 완전 해부 — Google의 KV Cache 극한 압축 알고리즘

PolarQuant + Lloyd-Max로 KV Cache를 3비트까지 압축. 리트레이닝 없이 4.6배 메모리 절약, 정확도 손실 제로.

Qwen 3.5 파인튜닝 실전 가이드 — LoRA로 나만의 모델 만들기

Models & Algorithms

Qwen 3.5 파인튜닝 실전 가이드 — LoRA로 나만의 모델 만들기

Qwen 3.5를 LoRA/QLoRA로 파인튜닝하는 전 과정을 다룹니다. 8GB GPU에서도 가능한 QLoRA 설정부터 Unsloth 최적화, GGUF 변환, Ollama 배포까지.