AI ResearchEN

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

멀티모달 AI의 숙원이 있습니다. 하나의 모델이 이미지를 이해하고, 생성하고, 편집하는 것. 기존에는 각 작업마다 별도의 모델이 필요했습니다. 이미지 이해는 InternVL, 생성은 Stable Diffusion, 편집은 InstructPix2Pix -- 파이프라인이 복잡해지고, 모델 간 지식 공유가 불가능했습니다.

Shanghai AI Lab이 2026년 3월 발표한 InternVL-U는 이 문제를 정면으로 해결합니다. 단 4B 파라미터의 단일 모델로 멀티모달 이해, 텍스트-투-이미지 생성, 이미지 편집, 추론 기반 생성까지 모두 수행합니다. 14B 파라미터의 BAGEL을 GenEval(0.85 vs 0.82)과 DPG-Bench(85.18 vs 85.07)에서 능가합니다.

비결은 디커플드 비주얼 표현(Decoupled Visual Representation)이라는 아키텍처 설계에 있습니다.

통합 멀티모달의 딜레마: 단일 표현의 한계

이전의 통합 멀티모달 모델들(Emu3, Show-o, Janus)은 하나의 비주얼 토크나이저로 이해와 생성을 모두 처리하려 했습니다. 이것이 근본적인 충돌을 일으킵니다.

이해(Understanding)에 필요한 것:

  • 고수준 의미 특징 (이것이 "고양이"라는 사실)
  • 객체 간 관계 (고양이가 매트 "위에" 앉아있다)
  • 장면 전체의 맥락

생성(Generation)에 필요한 것:

  • 저수준 픽셀 정보 (정확한 색상, 텍스처)
  • 공간적 정밀도 (객체의 정확한 위치와 크기)
  • 시각적 디테일 (그림자, 반사, 질감)

하나의 표현이 두 가지를 모두 잘 하기는 구조적으로 어렵습니다. 이해에 최적화하면 생성 품질이 떨어지고, 생성에 최적화하면 이해 능력이 약해집니다. 이것이 "표현 충돌(representation conflict)" 문제입니다.

InternVL-U의 해법: 디커플드 비주얼 표현

InternVL-U의 핵심 아이디어는 간단합니다:

이해와 생성에 서로 다른 비주얼 표현을 사용한다.
파이프라인컴포넌트용도특징 유형
이해Pre-trained ViT (InternViT-300M)이미지 인식/추론고수준 의미 특징
생성VAE (Qwen-Image)이미지 생성/편집저수준 연속 잠재 표현

ViT는 이해에만 집중하고, VAE는 생성에만 집중합니다. 두 표현이 서로의 학습을 방해하지 않으므로, 각각 자신의 역할에서 최적 성능을 발휘합니다.

아키텍처 상세: 세 개의 모듈

InternVL-U는 세 개의 모듈로 구성된 4B 파라미터 모델입니다.

모듈 1: Visual Understanding Encoder (InternViT-300M)

  • 파라미터: 약 300M
  • 구조: 24 Transformer 레이어, hidden size 1024, 16 attention heads
  • 역할: 원본 픽셀에서 고수준 의미 특징을 추출
  • 토큰 처리: 이미지 패치를 1024개 비주얼 토큰으로 인코딩 → pixel shuffle로 256 토큰으로 압축
  • 해상도: Dynamic High Resolution 전략 사용, 448x448 타일 분할

모듈 2: Context Backbone / MLLM (InternVL3.5-2B)

  • 파라미터: 약 2B
  • 구조: 28 Transformer 레이어 (Qwen-series LLM backbone)
  • 역할: 텍스트 생성, 의미 추론, 이해-생성 간 브릿지
  • 패턴: ViT-MLP-LLM 아키텍처 (InternVL 패밀리 표준)

이 모듈이 핵심 허브입니다. 텍스트 토큰과 비주얼 토큰을 공유 잠재 공간에서 처리하며, 이해 결과를 생성 모듈의 조건 신호로 변환합니다.

모듈 3: Visual Generation Head (Custom MMDiT, 1.7B)

  • 파라미터: 약 1.7B
  • 구조: 20 Transformer 레이어, 12 attention heads
  • 핵심 혁신:

- 어텐션 블록 내 게이팅 메커니즘: MMDiT 아키텍처에서 최초

- Multimodal Scalable RoPE (MSRoPE): 가변 해상도 처리

- Flow Matching: 표준 diffusion noise prediction 대신 velocity parameterization 사용

  • VAE: Qwen-Image와 동일한 VAE로 연속 잠재 공간과 픽셀 공간 간 변환

모듈 간 연결

MLLM backbone이 생성하는 통합 hidden states가 MMDiT generation head의 조건 신호가 됩니다. VLM 브랜치의 특징 분포 차이를 해결하기 위해 dual projectors + variance normalization을 사용합니다.

네 가지 동작 모드

InternVL-U는 하나의 체크포인트로 네 가지 작업을 수행합니다:

모드입력출력예시
텍스트 생성이미지 + 텍스트텍스트"이 이미지에서 보이는 아미노산은?"
이미지 생성텍스트이미지"석양의 미래 도시"
이미지 편집이미지 + 지시문편집된 이미지"하늘을 노을 색으로 바꿔"
추론 기반 생성텍스트CoT 텍스트 + 이미지"물리 다이어그램 생성"

특히 4번째 모드가 독특합니다. 추상적인 프롬프트("행복을 생성해")를 Chain-of-Thought로 구체적인 시각 요소, 감정적 의도, 타이포그래피 제약으로 분해한 후 이미지를 생성합니다.

학습 파이프라인: 3단계

Stage 1: Generation Head Pre-training

  • 스텝: 250,000
  • 해상도: 고정 512px
  • MLLM: 동결 (MMDiT만 학습)
  • 데이터: T2I : 편집 = 4:1
  • 목적: MMDiT가 MLLM hidden states를 조건으로 이미지를 생성하도록 기초 학습

Stage 2: Variable Resolution Pre-training

  • 스텝: 60,000
  • 해상도: 가변 512~1024px
  • MLLM: 동결
  • 목적: 가변 해상도 적응 + 엄격한 미적 필터링

Stage 3: Unified SFT (전체 모델 학습)

  • 스텝: 20,000
  • MLLM: 동결 해제 (전체 end-to-end 학습)
  • 데이터: 생성 : 편집 : 이해 = 1:1:2
  • 손실 가중치: NTP : VP = 1:20
  • 목적: CoT 추론 데이터를 포함한 통합 최적화

데이터 합성 파이프라인

InternVL-U의 강점 중 하나는 5개 도메인에 걸친 합성 데이터입니다:

  1. 텍스트 중심: 이중언어(중/영) 텍스트 렌더링
  2. 과학 중심: 물리 다이어그램, 컴퓨터 과학 시각화
  3. 공간 중심: 고체 기하학, CAD 다중 뷰, 3D 회전
  4. 유머 중심: 밈 생성/편집
  5. 추론 중심 (CoT): 일반, 지식, 밈, 과학 이미지에 대한 Chain-of-Thought 증강

벤치마크 결과

이미지 생성 (GenEval)

모델파라미터Single ObjTwo ObjCountingColorsOverall
InternVL-U4B0.990.940.740.910.85
BAGEL14B--------0.82
Janus-Pro7B--------0.80
Qwen-Image20B--------0.87

4B가 14B(BAGEL)를 이기고, 5배 큰 20B(Qwen-Image)에 근접합니다.

멀티모달 이해

벤치마크InternVL-U (4B)BAGEL (14B)Janus-Pro (7B)
OCRBench83.973.348.7
MMMU54.755.336.3
MME-P1607.51687.01444.0

OCRBench에서 BAGEL을 10.6포인트 차이로 크게 앞섭니다. MMMU에서는 0.6포인트 차이로 거의 동등합니다.

이미지 생성 (DPG-Bench)

모델GlobalEntityAttributeRelationOverall
InternVL-U90.3990.7890.6890.2985.18
BAGEL--------85.07
Janus-Pro--------84.19

3.5배 작은 모델이 DPG-Bench에서도 BAGEL을 앞섭니다.

실제 사용법

python
import torch
from PIL import Image
from internvlu import InternVLUPipeline

pipeline = InternVLUPipeline.from_pretrained(
    "InternVL-U/InternVL-U",
    torch_dtype=torch.bfloat16,
).to("cuda")

# 이미지 이해
output = pipeline(
    prompt="이 사진에 보이는 동물은?",
    image=Image.open("cat.jpg").convert("RGB"),
    generation_mode="text",
)

# 이미지 생성
output = pipeline(
    prompt="A futuristic city at sunset",
    height=576, width=1024,
    generation_mode="image",
    generator=torch.Generator(device="cuda").manual_seed(42),
)

# 이미지 편집
output = pipeline(
    prompt="Change the sky to sunset colors",
    image=Image.open("photo.jpg").convert("RGB"),
    generation_mode="image",
)
  • 라이선스: MIT
  • 모델 웨이트: HuggingFace
  • 코드: GitHub
  • VRAM: bf16 기준 약 16~24GB 추정

왜 4B가 14B를 이기나?

두 가지 핵심 요인:

1. 디커플드 표현으로 최적화 충돌 제거

BAGEL은 14B 파라미터를 가졌지만, 이해와 생성이 표현을 공유하면서 서로의 학습을 방해합니다. InternVL-U는 ViT와 VAE를 완전히 분리하여 각각의 역할에 집중시킵니다. 더 적은 파라미터로 더 높은 효율을 달성합니다.

2. CoT 데이터 증강

추상적인 사용자 지시를 구체적인 시각 요소로 분해하는 Chain-of-Thought 학습이, 텍스트 렌더링과 지식 집약적 생성에서 특히 큰 차이를 만듭니다.

결론

InternVL-U가 보여주는 것은 "크기가 전부가 아니다"입니다.

  1. 디커플링이 핵심이다: 이해와 생성에 같은 표현을 강제하면 둘 다 손해봅니다
  2. 4B로 14B를 이길 수 있다: 아키텍처 설계가 파라미터 수보다 중요합니다
  3. 통합 모델이 실용적이 됐다: 하나의 체크포인트로 이해+생성+편집, MIT 라이선스
  4. CoT가 생성에도 효과적이다: 추론 기반 생성이 새로운 방향을 제시합니다

참고 자료:

더 많은 콘텐츠를 받아보세요

SNS에서 새로운 글과 튜토리얼 소식을 가장 먼저 받아보세요

이메일로 받아보기

관련 포스트