InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
멀티모달 AI의 숙원이 있습니다. 하나의 모델이 이미지를 이해하고, 생성하고, 편집하는 것. 기존에는 각 작업마다 별도의 모델이 필요했습니다. 이미지 이해는 InternVL, 생성은 Stable Diffusion, 편집은 InstructPix2Pix -- 파이프라인이 복잡해지고, 모델 간 지식 공유가 불가능했습니다.
Shanghai AI Lab이 2026년 3월 발표한 InternVL-U는 이 문제를 정면으로 해결합니다. 단 4B 파라미터의 단일 모델로 멀티모달 이해, 텍스트-투-이미지 생성, 이미지 편집, 추론 기반 생성까지 모두 수행합니다. 14B 파라미터의 BAGEL을 GenEval(0.85 vs 0.82)과 DPG-Bench(85.18 vs 85.07)에서 능가합니다.
비결은 디커플드 비주얼 표현(Decoupled Visual Representation)이라는 아키텍처 설계에 있습니다.
통합 멀티모달의 딜레마: 단일 표현의 한계
관련 포스트

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.

Claude Sonnet 4.6: Opus급 성능, 40% 저렴 — 벤치마크 심층 분석
Claude Sonnet 4.6은 SWE-bench 79.6%, OSWorld 72.5%, GDPval-AA 1633 Elo로 실무 태스크에서 Opus 4.6과 동급이거나 우위. $3/$15 vs $5/$25. Adaptive Thinking, Context Compaction, OSWorld 성장 추이 분석.