Page:
Tuning 2026 04 Summary
Clone
This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
LLM 튜닝 종합 기록 (2026-04)
Session dates: 2026-04-15 ~ 2026-04-16 Scope: 4개 역할 모델 (fast, balanced, deep-logic, deep-coder) 종합 튜닝·평가·비교
결론 한 줄
fast (Gemma 4 26B-A4B) 주 모델 잠정 확정. 속도 1,341 t/s prompt / 28 t/s gen (140K ctx). 나머지 3 모델은 명시적 스위치 용도.
4 역할 최종 config
| Role | Model | ctx | ub | KV | mmproj | ts | Prompt t/s | Gen t/s |
|---|---|---|---|---|---|---|---|---|
| fast 🥇 | Gemma 4 26B-A4B | 140K | 512 | q8_0 | VRAM | 0.46,0.54 | 1,341 | 28 |
| balanced | Qwen 3.5 35B-A3B | 140K | 320 | q4_0 | RAM | 0.50,0.50 | 1,058 | 25.7 |
| deep-logic | Qwen 3.5 27B | 140K | 256 | q4_0 | VRAM | 0.47,0.53 | 403 | 17.7 |
| deep-coder | Gemma 4 31B | 128K | 128 | q4_0 | RAM | 0.50,0.50 | 224 | 7.6 |
주요 발견
🚨 Qwen 3.5 greedy 금지
temperature=0.0 시 thinking endless loop. 47분 hang 검증. 공식 sampling 필수:
- General:
temp=1.0, top_p=0.95, top_k=20, min_p=0, presence_penalty=1.5 - Coding:
temp=0.6, top_p=0.95, top_k=20, min_p=0, presence_penalty=0
✅ fast FULL ctx 최대치
- Verified 안전: 140K + ub512
- 실험 확인: 174K + ub384 (99.98% fill FULL 완주)
✅ Gemma 4 31B 물리 한계 128K
140K 시도 시 재현적으로 seq 114K에서 OOM. -sm row는 역효과.
✅ Qwen 3.5 27B sweet spot 140K
실사용자 Aayush Garg 2026-04 보고 "4090 24GB에서 130K sweet spot"과 일치.
문서 전체 구조
프로젝트 로컬: docs/tuning-2026-04/
README.md— 인덱스 및 목차00-overview.md— 요약, 잠정 확정, 미완료 과제01-hardware-server.md— 원격 Ubuntu 서버 (192.168.10.4), RTX 3060 ×202-methodology.md— VRAM 계산 공식, 샘플링 연구, 테스트 방법론03-model-profiles.md— 4 모델 아키텍처·설정·성능 상세04-test-cases-complete.md— 모든 실행 테스트 기록 (성공/실패/대안)05-final-recommendations.md— 최종 config + 스위칭 전략06-lessons-learned.md— 교훈 10개, 함정, 향후 작업07-references.md— 공식 문서, 학계 논문, 커뮤니티 레퍼런스
결과 아카이브
docs/tuning-2026-04/results/— 모든 테스트 실행 결과 JSON (9개)scripts/eval_suite.py— per-model 공식 sampling 내장 평가 러너
향후 작업
High Priority
- T7 언어 드리프트 테스트 (사용자 직접 보고한 Gemma 드리프트 검증)
- T9 도구 체인 후 한국어 유지 (Hermes/OpenClaude 핵심 패턴)
Medium Priority
- N=3 이상 통계적 반복 (현 N=1 한계 극복)
- 자체 벤치마크 일부 (MMLU Korean, HumanEval Korean)
Low Priority
--main-gpu 1실험 (mmproj G1 이동으로 fast 180K+ 가능성)-otdummy override PP auto-off 트릭- fast ub ladder clean 측정 (256/384/512/768)
Application Layer
- Hermes 컨텍스트 관리 스킬 (60% compact, 85% offload 임계)
- OpenClaude context management 통합
참고 작업
- Vikunja 작업 ID: #633 (프로젝트 14, Done)
- Gitea Wiki: 이 페이지
- 다음 세션 재개 체크리스트: 06-lessons-learned.md "다음 세션 시작 체크리스트" 섹션 참조