1
Phase-01-LLM-Tuning
Variet Main Worker edited this page 2026-04-11 09:18:12 +00:00

Phase 01 — LLM Tuning

5 모델 확정 성능 (v3 재튜닝 포함)

# 모델 역할 측정 t/s 컨텍스트 비고
1 Gemma 4 26B-A4B Q4_K_M fast 71.89 256K Vision GPU (~1s)
2 Qwen 3.5 35B-A3B Q4_K_M balanced (primary) 64.16 256K Vision CPU (6.4s), thinking mode
3 Gemma 4 31B Dense Q4_K_M deep-coder 16.0 192K 코딩 특화
4 Qwen 3.5 27B Dense Q4_K_M deep-logic 16.7 256K 깊은 추론
5 Qwen 3.5 122B-A10B Q4_K_M ultra 8.95 256K GPU 1 단독

Hardware Asymmetry

GPU 0  PCIe 3.0 x4  (3.94 GB/s)  ← bottleneck
GPU 1  PCIe 4.0 x16 (31.5 GB/s)
Total VRAM: 24 GB

GPU 0의 PCIe x4 제약이 이중 GPU 추론 속도 상한을 결정합니다.

v3 재튜닝 변경사항 (2026-04-11)

balanced (Qwen 3.5 35B-A3B)

  • -ub 128 → 256 (prefill +78%: 649 → 1,157 t/s)
  • -ts 0.5,0.5 → 0.48,0.52 (PP 활성화)
  • --mmproj models/mmproj-F16.gguf + --no-mmproj-offload (비전 CPU)
  • --mlock/--poll/--prio/-t/-tb 제거

fast (Gemma 4 26B-A4B)

  • cache-type: f16 → q8_0 (VRAM 2.5 GB 절약)
  • -ts 0.43,0.57 (13/17 layer split)
  • --mmproj models/gemma-4-26B-mmproj-F16.gguf (Vision GPU)
  • --mlock/--poll/--prio/-t/-tb 제거

아키텍처 발견

Qwen 3.5 35B-A3B (Gated Delta Net)

  • 40 레이어 중 10개만 full attention (매 4번째)
  • 나머지 30개는 SSM (Mamba-like) 레이어
  • KV 캐시 실제 크기: 1.4 GB (q4_0, 256K) — 초기 추정(5GB) 대비 작음

Gemma 4 26B-A4B

  • 30 레이어 중 5개만 full attention (매 6번째)
  • 나머지 25개는 SWA (Sliding Window, 1,536 cells)
  • 128 experts / 8 active (MoE)

Reference

Status

Phase 01: COMPLETE (2026-04-07 초기, 2026-04-11 재검증)