Qwen 3.5 로컬 설치 완전 가이드 — Ollama부터 vLLM까지
Qwen 3.5를 로컬에서 실행하는 4가지 방법을 단계별로 설명합니다. Ollama 5분 설치부터 llama.cpp, vLLM 프로덕션 서버, HuggingFace Transformers까지.

Qwen 3.5 로컬 설치 & 실행 완전 가이드 — Ollama부터 vLLM까지
이전 글에서 Qwen 3.5와 DeepSeek V3.2를 비교했습니다. 이번에는 Qwen 3.5를 직접 로컬에 설치하고 실행하는 과정을 단계별로 다룹니다.
Ollama로 5분 만에 돌리는 방법부터, vLLM으로 프로덕션급 API 서버를 띄우는 방법, 그리고 GPU별 최적 모델 사이즈 선택까지 빠짐없이 정리했습니다.
1. 어떤 사이즈를 골라야 할까?
Qwen 3.5는 8가지 사이즈가 있습니다. GPU에 맞는 모델을 고르는 게 첫 번째입니다.
관련 포스트

Models & Algorithms
Qwen 3.5 파인튜닝 실전 가이드 — LoRA로 나만의 모델 만들기
Qwen 3.5를 LoRA/QLoRA로 파인튜닝하는 전 과정을 다룹니다. 8GB GPU에서도 가능한 QLoRA 설정부터 Unsloth 최적화, GGUF 변환, Ollama 배포까지.

Models & Algorithms
Qwen 3.5 vs DeepSeek V3.2 — 2026년 오픈소스 LLM 양강 구도 완전 분석
Qwen 3.5와 DeepSeek V3.2를 아키텍처, 벤치마크, 하드웨어, 파인튜닝까지 완전 비교. 어떤 상황에 어떤 모델을 써야 하는지 정리했습니다.

AI Research
Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.