Variet/variet_llm

Table of Contents

Phase 01 — LLM Tuning

5 모델 확정 성능 (v3 재튜닝 포함)
Hardware Asymmetry
v3 재튜닝 변경사항 (2026-04-11)

balanced (Qwen 3.5 35B-A3B)
fast (Gemma 4 26B-A4B)

아키텍처 발견

Qwen 3.5 35B-A3B (Gated Delta Net)
Gemma 4 26B-A4B

Reference
Status

Phase 01 — LLM Tuning

5 모델 확정 성능 (v3 재튜닝 포함)

#	모델	역할	측정 t/s	컨텍스트	비고
1	Gemma 4 26B-A4B Q4_K_M	fast	71.89	256K	Vision GPU (~1s)
2	Qwen 3.5 35B-A3B Q4_K_M	balanced (primary)	64.16	256K	Vision CPU (6.4s), thinking mode
3	Gemma 4 31B Dense Q4_K_M	deep-coder	16.0	192K	코딩 특화
4	Qwen 3.5 27B Dense Q4_K_M	deep-logic	16.7	256K	깊은 추론
5	Qwen 3.5 122B-A10B Q4_K_M	ultra	8.95	256K	GPU 1 단독

Hardware Asymmetry

GPU 0  PCIe 3.0 x4  (3.94 GB/s)  ← bottleneck
GPU 1  PCIe 4.0 x16 (31.5 GB/s)
Total VRAM: 24 GB

GPU 0의 PCIe x4 제약이 이중 GPU 추론 속도 상한을 결정합니다.

v3 재튜닝 변경사항 (2026-04-11)

balanced (Qwen 3.5 35B-A3B)

-ub 128 → 256 (prefill +78%: 649 → 1,157 t/s)
-ts 0.5,0.5 → 0.48,0.52 (PP 활성화)
--mmproj models/mmproj-F16.gguf + --no-mmproj-offload (비전 CPU)
--mlock/--poll/--prio/-t/-tb 제거

fast (Gemma 4 26B-A4B)

cache-type: f16 → q8_0 (VRAM 2.5 GB 절약)
-ts 0.43,0.57 (13/17 layer split)
--mmproj models/gemma-4-26B-mmproj-F16.gguf (Vision GPU)
--mlock/--poll/--prio/-t/-tb 제거

아키텍처 발견

Qwen 3.5 35B-A3B (Gated Delta Net)

40 레이어 중 10개만 full attention (매 4번째)
나머지 30개는 SSM (Mamba-like) 레이어
KV 캐시 실제 크기: 1.4 GB (q4_0, 256K) — 초기 추정(5GB) 대비 작음

Gemma 4 26B-A4B

30 레이어 중 5개만 full attention (매 6번째)
나머지 25개는 SWA (Sliding Window, 1,536 cells)
128 experts / 8 active (MoE)

Reference

Status

Phase 01: ✅ COMPLETE (2026-04-07 초기, 2026-04-11 재검증)