AI ResearchEN

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

멀티모달 AI의 숙원이 있습니다. 하나의 모델이 이미지를 이해하고, 생성하고, 편집하는 것. 기존에는 각 작업마다 별도의 모델이 필요했습니다. 이미지 이해는 InternVL, 생성은 Stable Diffusion, 편집은 InstructPix2Pix -- 파이프라인이 복잡해지고, 모델 간 지식 공유가 불가능했습니다.

Shanghai AI Lab이 2026년 3월 발표한 InternVL-U는 이 문제를 정면으로 해결합니다. 단 4B 파라미터의 단일 모델로 멀티모달 이해, 텍스트-투-이미지 생성, 이미지 편집, 추론 기반 생성까지 모두 수행합니다. 14B 파라미터의 BAGEL을 GenEval(0.85 vs 0.82)과 DPG-Bench(85.18 vs 85.07)에서 능가합니다.

비결은 디커플드 비주얼 표현(Decoupled Visual Representation)이라는 아키텍처 설계에 있습니다.

통합 멀티모달의 딜레마: 단일 표현의 한계

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트