variet_llm/config/engine_models.json

{
  "version": "1.0",
  "default_role": "fast",
  "llama_server": {
    "path": "llama_bin_run/llama-server.exe",
    "internal_port": 8080,
    "internal_host": "127.0.0.1"
  },
  "engine": {
    "external_port": 8000,
    "external_host": "0.0.0.0"
  },
  "roles": {
    "fast": {
      "display_name": "Gemma 4 26B (Fast)",
      "model_path": "models/gemma-4-26B-A4B-it-Q4_K_M.gguf",
      "measured_tps": 72.04,
      "args": [
        "--mmproj",
        "models/gemma-4-26B-mmproj-F16.gguf",
        "-ngl",
        "999",
        "-c",
        "262144",
        "-np",
        "1",
        "-fa",
        "on",
        "--cache-type-k",
        "q8_0",
        "--cache-type-v",
        "q8_0",
        "-ub",
        "512",
        "-b",
        "2048",
        "-ts",
        "0.43,0.57"
      ]
    },
    "balanced": {
      "display_name": "Qwen 3.5 35B (Balanced)",
      "model_path": "models/Qwen3.5-35B-A3B-Q4_K_M.gguf",
      "measured_tps": 64.16,
      "args": [
        "--mmproj",
        "models/mmproj-F16.gguf",
        "--no-mmproj-offload",
        "-ngl",
        "999",
        "-c",
        "262144",
        "-np",
        "1",
        "-fa",
        "on",
        "--cache-type-k",
        "q4_0",
        "--cache-type-v",
        "q4_0",
        "-ub",
        "256",
        "-b",
        "512",
        "-t",
        "6",
        "-tb",
        "6",
        "-ts",
        "0.48,0.52"
      ]
    },
    "deep-coder": {
      "display_name": "Gemma 4 31B (Deep Coder)",
      "model_path": "models/gemma-4-31B-it-Q4_K_M.gguf",
      "measured_tps": 16.0,
      "args": [
        "-ngl",
        "999",
        "-c",
        "196608",
        "-np",
        "1",
        "-fa",
        "on",
        "--cache-type-k",
        "q4_0",
        "--cache-type-v",
        "q4_0",
        "-ub",
        "128",
        "-b",
        "512",
        "-t",
        "6",
        "-tb",
        "6",
        "--prio",
        "3",
        "--mlock",
        "--poll",
        "50"
      ]
    },
    "deep-logic": {
      "display_name": "Qwen 3.5 27B (Deep Logic)",
      "model_path": "models/Qwen3.5-27B-Q4_K_M.gguf",
      "measured_tps": 16.7,
      "args": [
        "-ngl",
        "999",
        "-c",
        "262144",
        "-np",
        "1",
        "-fa",
        "on",
        "--cache-type-k",
        "q4_0",
        "--cache-type-v",
        "q4_0",
        "-ub",
        "512",
        "-b",
        "1024",
        "-t",
        "6",
        "-tb",
        "6",
        "--prio",
        "3",
        "--mlock",
        "--poll",
        "50",
        "-ts",
        "0.5,0.5"
      ]
    },
    "ultra": {
      "display_name": "Qwen 3.5 122B (Ultra Heavy)",
      "model_path": "models/Q4_K_M/Qwen3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf",
      "measured_tps": 8.95,
      "args": [
        "-ngl",
        "999",
        "-ncmoe",
        "48",
        "-c",
        "262144",
        "-np",
        "1",
        "-fa",
        "on",
        "--cache-type-k",
        "q4_0",
        "--cache-type-v",
        "q4_0",
        "-ub",
        "512",
        "-b",
        "2048",
        "-t",
        "8",
        "-tb",
        "8",
        "--prio",
        "3",
        "--poll",
        "50",
        "--main-gpu",
        "1",
        "-sm",
        "none",
        "--no-mmap"
      ]
    }
  }
}