docs: initialize Variet LLM project
This commit is contained in:
@@ -1,38 +1,46 @@
|
||||
# Project Context: Zero-Pollution Agent Bootstrap Kit
|
||||
# Variet LLM: Dual-Orchestration AI Assistant
|
||||
|
||||
## What This Is
|
||||
`new_gene`은 향후 모든 AI 에이전트 개발 및 자동화 프로젝트에 포크(Fork)되거나 복제되어 즉각적으로 활용되는 **'완전 자율형·무오염(Zero-Pollution) 부트스트랩 마스터 템플릿'** 입니다.
|
||||
A high-performance, locally-hosted AI assistant system built on two RTX 3060 12GB GPUs. It uses a "2+0" architecture where Machine A acts as a dedicated inference server running large language models, while Machine B handles the user interface (VS Code, Discord) and tool execution.
|
||||
|
||||
## Core Value
|
||||
코딩을 시작할 때 발생하는 세팅 오류, 프롬프트 해킹, 메인 브랜치 훼손, API 키 유출을 원천적으로 막습니다. 누구나 이 저장소만 클론(`git clone`) 받으면 환경 설정이나 별도의 복잡한 스크립트 실행 없이 19개의 최고급 개발 스킬(TDD, Git Worktree)과 GSD 오케스트레이터를 즉시 꺼내 쓸 수 있는 완벽한 턴키(Turn-key) 생태계를 구축합니다.
|
||||
## Problem / Core Value
|
||||
Standard LLM set-ups on a single GPU often struggle with context switching and running multi-tools asynchronously. By dedicating an API server to raw inference (50-80 t/s with Qwen 35B), the system achieves extreme responsiveness for coding while preserving resources for tool execution (Calendar, Mail, Search) on the workstation.
|
||||
|
||||
## Success Criteria
|
||||
1. 사용자가 단 1개의 글로벌 패키지를 설치하지 않아도 로컬(`.agent/env/node_modules`)만을 통해 100% 작동해야 함.
|
||||
2. 터미널 명령어나 히스토리에 API 토큰이 노출되지 않고 자동 동기화(Vikunja/Gitea)가 이루어져야 함.
|
||||
3. 에이전트는 코딩 전 반드시 TDD 가설을 세우고, 서브 브랜치(Worktree)로 격리되어 안전하게 작업해야 함.
|
||||
4. **[Key Constraint]** 템플릿의 모든 아키텍처는 `git clone`만으로 완전한 작업 흐름이 이어져야 하며, 각 파생 프로젝트들은 `git pull` 명령어 단 한 번만으로 최신 무기와 스킬(Agent 엔진)이 완벽히 업데이트되어야 함.
|
||||
## Target Audience
|
||||
Single developer working on complex coding tasks alongside daily administrative tasks.
|
||||
|
||||
## Key Decisions
|
||||
|
||||
| Decision | Rationale | Outcome |
|
||||
|----------|-----------|---------|
|
||||
| 2+0 GPU Architecture | Placing both GPUs in Machine A allows Qwen 35B to fully load into VRAM, increasing speed from 30t/s to 50-80t/s. | Machine A: API Server only.<br/>Machine B: All orchestrations & tools. |
|
||||
| Separation of Agent Logic | Machine A is a pure "brain" (llama-server). Machine B has the "hands and eyes" (VS Code extension and Discord Bot). | Simplified infrastructure; tools execute directly on the workstation. |
|
||||
| 3-Tier Model Strategy | Need balanced speeds depending on the complexity of the task requested. | Fast: Gemma4 26B (~70t/s)<br/>Balanced: Qwen 35B (~50t/s)<br/>Deep: Qwen 122B (~11t/s) |
|
||||
|
||||
## Requirements
|
||||
|
||||
### Validated
|
||||
- ✓ [Zero-Pollution] 모든 스킬(`superpowers`, `obsidian-skills`)이 글로벌 영역이 아닌 내부(`.agent/skills/`)로 캡슐화되어 직접 Git 트래킹을 받음.
|
||||
- ✓ [API Bridge] `sync_wiki.js`와 `sync_vikunja.js`를 통해 토큰 노출 없이 서버와 통신 구조 확보.
|
||||
- ✓ [Persistence] `claude-mem` (SQLite MCP) 기반의 오답노트 기억 능력 탑재.
|
||||
|
||||
(None yet — ship to validate)
|
||||
|
||||
### Active
|
||||
- [x] `git clone`/`git pull`만으로 19개 스킬 즉각 로드 (Master Sync Hub 토폴로지 확립)
|
||||
- [ ] GSD Phase 계획과 실제 코드 실행 간 오차를 자동으로 검증할 브릿지 시스템 보완
|
||||
- [ ] `.env.agent`만 셋업하면 모든 것이 알아서 연결되는 완전 자율화 체계 구축 지속
|
||||
|
||||
### Out of Scope (배포 제약)
|
||||
- **하위 프로젝트(Satellite Repo)에서의 오픈소스 서브모듈(Vendor) 직접 업데이트 행위 원천 금지.** (오직 ఈ Master 템플릿의 `sync_vendors` 스크립트만이 서브모듈의 버전을 평탄화 추출/번역하여 100% 검증된 정적 파일(`.agent/skills/`)로 Git 트래킹합니다.)
|
||||
- 하위 패키지에 글로벌 NPM 패키지 설치 요구 및 부트스트랩 스크립트 실행 강요 금지 (오직 `git pull` 하나만으로 마스터의 스킬셋 변동분을 수동적으로 상속받을 것).
|
||||
- `/start` 및 `/end` 같은 과거 유산(Legacy) 도입 금지
|
||||
- [ ] Deploy headless llama-server setup on Machine A.
|
||||
- [ ] Build a model hot-swap utility (Fast/Balanced/Deep) for Machine A.
|
||||
- [ ] Develop a VS Code Extension (TypeScript) on Machine B for coding agent loop.
|
||||
- [ ] Develop a Discord Bot (discord.py) on Machine B for personal assistant tools.
|
||||
- [ ] Implement MCP tools (SearXNG, Google Calendar, Gmail) securely on Machine B.
|
||||
|
||||
### Out of Scope
|
||||
|
||||
- [ ] Running inference directly on Machine B (It lacks VRAM/GPU resources in this architecture).
|
||||
- [ ] Exposing Machine A to the public internet (LAN traffic only).
|
||||
|
||||
---
|
||||
*Last updated: 2026-03-29 after Phase 1 initialization*
|
||||
*Last updated: 2026-04-05 after initialization*
|
||||
|
||||
## Evolution
|
||||
|
||||
This document evolves at phase transitions and milestone boundaries.
|
||||
|
||||
**After each phase transition** (via `/gsd-transition`):
|
||||
|
||||
Reference in New Issue
Block a user