Phase 01 (LLM Tuning): - Gemma4 26B: 74.65 t/s (fast) - Qwen 35B: 61.62 t/s (balanced) - Gemma4 31B: 16.0 t/s (deep-coder) - Qwen 27B: 16.7 t/s (deep-logic) - Qwen 122B: 8.95 t/s (ultra, GPU 1 only) Phase 02 (API Engine): - FastAPI reverse proxy on port 8000 - /engine/switch hot-swap with 503 protection - config/engine_models.json as single source of truth - Replaced 4 individual .bat files with unified engine File cleanup: - scripts/ 85 files -> 9 + _archive/ - Root .bat files -> _archive/
124 lines
3.4 KiB
JSON
124 lines
3.4 KiB
JSON
[
|
|
{
|
|
"id": "code_generate",
|
|
"category": "coding",
|
|
"name": "Python 함수 생성",
|
|
"model": "gemma4",
|
|
"response": "```python\nfrom typing import List\n\ndef merge_sorted",
|
|
"tokens": 800,
|
|
"time": 11.21,
|
|
"tps": 71.34,
|
|
"eval_criteria": [
|
|
"correctness",
|
|
"type_hints",
|
|
"docstring",
|
|
"edge_cases"
|
|
]
|
|
},
|
|
{
|
|
"id": "code_debug",
|
|
"category": "coding",
|
|
"name": "버그 찾기 & 수정",
|
|
"model": "gemma4",
|
|
"response": "",
|
|
"tokens": 800,
|
|
"time": 11.2,
|
|
"tps": 71.4,
|
|
"eval_criteria": [
|
|
"bug_identified",
|
|
"correct_fix",
|
|
"clean_code"
|
|
]
|
|
},
|
|
{
|
|
"id": "code_refactor",
|
|
"category": "coding",
|
|
"name": "TypeScript 리팩토링",
|
|
"model": "gemma4",
|
|
"response": "",
|
|
"tokens": 800,
|
|
"time": 11.23,
|
|
"tps": 71.26,
|
|
"eval_criteria": [
|
|
"types",
|
|
"error_handling",
|
|
"backoff",
|
|
"production_quality"
|
|
]
|
|
},
|
|
{
|
|
"id": "korean_schedule",
|
|
"category": "assistant_kr",
|
|
"name": "한국어 일정 관리",
|
|
"model": "gemma4",
|
|
"response": "요청하신 내일 일정을 정리하고, 서울 시내 이동 시간을 고려하여 현실적인 가능성을 분석해",
|
|
"tokens": 800,
|
|
"time": 11.2,
|
|
"tps": 71.43,
|
|
"eval_criteria": [
|
|
"korean_fluency",
|
|
"schedule_analysis",
|
|
"practical_advice"
|
|
]
|
|
},
|
|
{
|
|
"id": "korean_email",
|
|
"category": "assistant_kr",
|
|
"name": "한국어 이메일 요약",
|
|
"model": "gemma4",
|
|
"response": "요청하신 내용을 다음과 같이 요약 및 정리해 드립니다.\n\n**[3줄 요약]**\n1. 본부장님 지시로 Q2 마케팅 예산이 기존 대비 15% 삭감되었습니다.\n2. 이에 따라 ROI가 낮은 채널(인스타그램 등)을 중심으로 예산 조정이 필요합니다.\n3. 수요일 수정안 제출을 위해 채널별 삭감 우선순위 결정이 시급합니다.\n\n**[필요 액션]**\n* **채널별 삭감 우선순위 정리 및 회신** (기한: **화요일 오전까지**)",
|
|
"tokens": 686,
|
|
"time": 9.67,
|
|
"tps": 70.95,
|
|
"eval_criteria": [
|
|
"korean_summary",
|
|
"action_items",
|
|
"conciseness"
|
|
]
|
|
},
|
|
{
|
|
"id": "tool_calling",
|
|
"category": "tool_use",
|
|
"name": "Function Calling (JSON)",
|
|
"model": "gemma4",
|
|
"response": "",
|
|
"tokens": 800,
|
|
"time": 11.19,
|
|
"tps": 71.49,
|
|
"eval_criteria": [
|
|
"correct_sequence",
|
|
"valid_json",
|
|
"complete_args"
|
|
]
|
|
},
|
|
{
|
|
"id": "structured_output",
|
|
"category": "tool_use",
|
|
"name": "구조화 출력 (JSON)",
|
|
"model": "gemma4",
|
|
"response": "",
|
|
"tokens": 800,
|
|
"time": 11.41,
|
|
"tps": 70.12,
|
|
"eval_criteria": [
|
|
"correct_parsing",
|
|
"valid_json",
|
|
"completeness"
|
|
]
|
|
},
|
|
{
|
|
"id": "reasoning",
|
|
"category": "reasoning",
|
|
"name": "논리 추론",
|
|
"model": "gemma4",
|
|
"response": "To find the amount of wheat produced by each field, we can use algebra. We will express the production of all fields in terms of one variable.\n\n### Step 1: Define the variables\nLet **$B$** be the amount of wheat produced by **Field B**.\n\nBased on the problem description, we can define the other fields relative to $B$:\n* **Field A** produces 20% more than Field B:\n $A = B + 0.20B = 1.2B$\n* **Field C** produces ",
|
|
"tokens": 800,
|
|
"time": 11.2,
|
|
"tps": 71.44,
|
|
"eval_criteria": [
|
|
"correct_answer",
|
|
"clear_steps",
|
|
"math_accuracy"
|
|
]
|
|
}
|
|
] |