@echo off chcp 65001 >nul echo ========================================================= echo Gemma4 26B-A4B API Server (256K Context - Final Optimal) echo [CORE] --n-cpu-moe 10: VRAM 12GB 최적화용 Expert 오프로드 echo [TUNED] -t 4 -ub 512: CPU 병목 방지 및 SWA 캐시 최적화 echo [PERF] Speed: ~30.9 t/s (1x RTX 3060) echo ========================================================= echo. llama_bin_run\llama-server.exe ^ --model models\gemma-4-26B-A4B-it-Q4_K_M.gguf ^ -ngl 999 ^ --n-cpu-moe 10 ^ -c 262144 ^ -np 1 ^ -fa on ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ -ub 512 ^ -b 2048 ^ -t 4 ^ -tb 4 ^ --mlock ^ --prio 3 ^ --poll 50 ^ --port 8000 ^ --host 0.0.0.0 pause