feat: initial project setup - Merton-KMV model, data pipeline, .agents workflows

2026-03-11 19:59:38 +09:00
commit a20a7207c4
28 changed files with 3212 additions and 0 deletions
--- a/docs/technical_methodology.md
+++ b/docs/technical_methodology.md
@@ -0,0 +1,827 @@
+# 주식 변동성 기반 등급별 부도율 산출 — 기술 문서
+
+> **프로젝트**: KRX 상장 한국 기업 대상 Equity Volatility → Default Rate by Rating  
+> **작성일**: 2026-03-11  
+> **버전**: v0.1 (초안)
+
+---
+
+## 목차
+
+1. [이론적 기초](#1-이론적-기초)
+2. [핵심 수학적 프레임워크](#2-핵심-수학적-프레임워크)
+3. [한국 시장 등급 관측 문제 및 대안](#3-한국-시장-등급-관측-문제-및-대안)
+4. [글로벌 접근 방법론 비교](#4-글로벌-접근-방법론-비교)
+5. [구현 아키텍처](#5-구현-아키텍처)
+6. [데이터 명세](#6-데이터-명세)
+7. [알고리즘 상세](#7-알고리즘-상세)
+8. [검증 방법론](#8-검증-방법론)
+9. [한국 시장 특수 고려사항](#9-한국-시장-특수-고려사항)
+10. [기술 스택 및 의존성](#10-기술-스택-및-의존성)
+11. [참고 문헌](#11-참고-문헌)
+
+---
+
+## 1. 이론적 기초
+
+### 1.1 구조적 모형(Structural Model) 계보
+
+```
+Black-Scholes (1973)
+    └─ Merton (1974) ─── 기업부도를 옵션으로 해석
+         ├─ Black-Cox (1976) ─── First Passage Time (배리어 부도)
+         ├─ Geske (1977) ─── 복합옵션 (쿠폰부 부채)
+         ├─ Longstaff-Schwartz (1995) ─── 확률적 이자율
+         └─ KMV (Kealhofer-McQuown-Vasicek)
+              └─ Moody's Analytics EDF™ ─── 상용화
+```
+
+### 1.2 Merton 모형 (1974)
+
+**핵심 가정:**
+- 기업의 자산가치 `V(t)`는 기하 브라운 운동(GBM)을 따름
+- 부채는 만기 `T`에 원금 `D`가 일시 상환되는 제로쿠폰 채권
+- 자기자본 `E`는 자산 `V`에 대한 유럽형 콜옵션
+
+**자산 역학:**
+```
+dV = μ·V·dt + σ_V·V·dW
+```
+- `μ`: 자산 기대수익률 (drift)
+- `σ_V`: 자산 변동성
+- `W`: 위너 과정
+
+**부도 조건:**
+```
+Default ⟺ V(T) < D    (만기 시점에 자산가치 < 부채)
+```
+
+**자기자본의 옵션 해석:**
+```
+E = Call(V, D, T) = V·N(d₁) - D·e^{-rT}·N(d₂)
+```
+
+### 1.3 KMV-Moody's EDF 모형
+
+Merton 모형의 실무 확장:
+
+| 구분 | Merton 원형 | KMV 수정 |
+|------|-------------|----------|
+| 부도점 | D (총부채) | STD + 0.5×LTD |
+| 부도 시점 | 만기 T 시점만 | 임의 시점 (First Passage) |
+| EDF 산출 | N(-DD) 이론값 | 경험적 부도 빈도 매핑 |
+| 데이터 | 단일 시점 | 시계열 반복 추정 |
+
+### 1.4 축약형 모형(Reduced-Form Model)
+
+**CreditRisk+ (Credit Suisse)**
+- 부도를 포아송 과정으로 모형화
+- 부도율의 변동성을 명시적 반영 (부도율 자체가 확률변수)
+- 섹터별 체계적 요인으로 부도 상관관계 간접 포착
+- 장점: 구현 용이, 대규모 포트폴리오 적합
+- 한계: 시장 데이터 반영 제한, 등급전이 미반영
+
+**Jarrow-Turnbull / Duffie-Singleton**
+- 부도 강도(hazard rate)가 시장 변수에 의존
+- CDS/채권 스프레드에서 내재 부도확률 추출
+- 한국 적용 한계: CDS 시장 유동성 부족
+
+### 1.5 CreditMetrics 접근법
+
+- 등급전이행렬(Rating Transition Matrix) 기반
+- 잠재 변수 `Zt`를 통해 체계적 리스크 반영
+- 전이확률 × 등급별 스프레드 → 포트폴리오 가치 분포
+- 한국 시장: 신평사 발표 전이행렬과 연동 가능
+
+---
+
+## 2. 핵심 수학적 프레임워크
+
+### 2.1 Merton 연립방정식
+
+관측 가능한 `(E, σ_E)`로부터 비관측 `(V, σ_V)`를 추정:
+
+**방정식 1 — 자기자본 가치:**
+```
+E = V·N(d₁) - D·e^{-rT}·N(d₂)
+```
+
+**방정식 2 — 변동성 관계 (Itô's Lemma):**
+```
+σ_E = (V/E)·N(d₁)·σ_V
+```
+
+**여기서:**
+```
+d₁ = [ln(V/D) + (r + σ²_V/2)·T] / (σ_V·√T)
+d₂ = d₁ - σ_V·√T
+```
+
+### 2.2 Distance-to-Default (DD)
+
+```
+DD = [ln(V/DP) + (μ - σ²_V/2)·T] / (σ_V·√T)
+```
+
+- `DP = STD + 0.5 × LTD` (KMV 부도점)
+- `μ`: 자산 기대수익률 (실무에서는 r 또는 과거 추정값 사용)
+
+**해석:** DD는 자산가치가 부도점까지 하락하는 데 필요한 표준편차 수
+
+### 2.3 EDF 산출
+
+**이론적 EDF (정규분포 가정):**
+```
+EDF_theoretical = N(-DD) = Φ(-DD)
+```
+
+**경험적 EDF (KMV 방식):**
+```
+EDF_empirical = (DD 구간별 실제 부도 기업 수) / (DD 구간별 전체 기업 수)
+```
+
+**한국 시장 보정 EDF:**
+```
+EDF_KR = EDF_theoretical × Calibration_Factor(rating_grade)
+```
+
+### 2.4 주가 변동성 추정 방법
+
+#### (a) 역사적 변동성 (Historical Volatility)
+```
+σ_E = √(252) × std(ln(P_t / P_{t-1}))
+```
+- 일별 로그수익률의 표준편차 × √252 (연환산)
+- 추정 윈도우: 1년 (약 250 거래일)
+
+#### (b) EWMA (Exponentially Weighted Moving Average)
+```
+σ²_t = λ·σ²_{t-1} + (1-λ)·r²_{t-1}
+```
+- `λ = 0.94` (RiskMetrics 표준)
+- 최근 변동에 더 높은 가중치
+
+#### (c) GARCH(1,1)
+```
+σ²_t = ω + α·ε²_{t-1} + β·σ²_{t-1}
+```
+- `ω, α, β`: 최대우도추정(MLE)으로 산출
+- `α + β < 1` (정상성 조건)
+- 변동성 클러스터링 반영 가능
+
+---
+
+## 3. 한국 시장 등급 관측 문제 및 대안
+
+### 3.1 문제 진단
+
+```
+KRX 상장사 약 2,500개
+├── 신용등급 보유: 약 500~600개 (주로 회사채/CP 발행사)
+│   ├── 관측 가능 등급: BBB ~ A 중심 (약 70%)
+│   ├── 고등급 (AAA~AA): 소수 (우량사, 등급 불필요)
+│   └── 저등급 (B 이하): 극소수 (상장 유지 자체가 어려움)
+└── 신용등급 미보유: 약 1,900개 (소형주, 미발행사)
+```
+
+**등급별 관측 분포 추정:**
+
+| 등급군 | KRX 상장사 중 비율 | 부도 관측 가능성 | 주요 이슈 |
+|--------|-------------------|-----------------|-----------|
+| AAA~AA | ~5% | 극히 낮음 | 부도 사례 거의 0 |
+| A      | ~20% | 낮음 | 부도 희소하나 관측 가능 |
+| BBB    | ~40% | 보통 | 가장 관측 풍부 |
+| BB     | ~20% | 높음 | 투기등급 진입, 데이터 확보 |
+| B 이하 | ~5% | 높으나 표본 부족 | 상장폐지와 혼재 |
+| 무등급 | ~10% (등급보유 대비) | Shadow 필요 | 대부분 소형주 |
+
+### 3.2 대안 전략 상세
+
+#### 대안 1: Shadow Rating (내재등급) 모형
+
+**목적:** DD 및 재무비율을 기반으로 무등급 기업에 내재등급 부여
+
+**방법론 — Ordered Probit 모형:**
+
+```
+y* = β'X + ε,   ε ~ N(0, 1)
+
+y = k  if  τ_{k-1} < y* ≤ τ_k
+
+여기서:
+- y: 관측등급 (AAA=1, AA+=2, ..., D=n)
+- X: [DD, log(총자산), 부채비율, 이자보상비율, EBITDA마진, ROA, 유동비율, 산업더미]
+- τ_k: 등급 경계 절단점(cutoff)
+```
+
+**학습 과정:**
+1. 등급 보유 기업의 (X, y) 쌍으로 β, τ를 MLE 추정
+2. 등급 미보유 기업에 추정된 β'X를 적용하여 각 등급 확률 계산
+3. 최대 확률 등급을 Shadow Rating으로 부여
+
+**설명변수 후보:**
+
+| 변수 | 정의 | 기대 부호 |
+|------|------|-----------|
+| DD | Distance-to-Default | + (높을수록 고등급) |
+| log_assets | ln(총자산) | + 규모 효과 |
+| leverage | 총부채/총자산 | - |
+| int_coverage | EBITDA/이자비용 | + |
+| ebitda_margin | EBITDA/매출 | + |
+| roa | 순이익/총자산 | + |
+| current_ratio | 유동자산/유동부채 | + |
+| cash_ratio | 현금/유동부채 | + |
+| industry | 산업 더미 | 산업별 상이 |
+
+#### 대안 2: DD-Rating 직접 매핑
+
+글로벌 벤치마크를 기반으로 DD 구간 → 등급 매핑:
+
+| DD 범위 | Moody's 등급 | 한국 등급 (추정) | 이론적 EDF |
+|---------|-------------|-----------------|------------|
+| > 6.0 | Aaa ~ Aa1 | AAA ~ AA+ | < 0.02% |
+| 5.0 ~ 6.0 | Aa2 ~ Aa3 | AA ~ AA- | 0.02% ~ 0.05% |
+| 4.0 ~ 5.0 | A1 ~ A3 | A+ ~ A- | 0.05% ~ 0.20% |
+| 3.0 ~ 4.0 | Baa1 ~ Baa2 | BBB+ ~ BBB | 0.20% ~ 0.70% |
+| 2.5 ~ 3.0 | Baa3 | BBB- | 0.70% ~ 1.50% |
+| 2.0 ~ 2.5 | Ba1 | BB+ | 1.50% ~ 3.00% |
+| 1.5 ~ 2.0 | Ba2 ~ Ba3 | BB ~ BB- | 3.00% ~ 5.00% |
+| 1.0 ~ 1.5 | B1 ~ B2 | B+ ~ B | 5.00% ~ 10.00% |
+| 0.5 ~ 1.0 | B3 ~ Caa1 | B- ~ CCC+ | 10.00% ~ 20.00% |
+| < 0.5 | Caa2 이하 | CCC 이하 | > 20.00% |
+
+> 주의: 글로벌 매핑은 한국 시장에 직접 적용 시 보정(calibration) 필수
+
+#### 대안 3: 등급군 병합(Grade Pooling)
+
+표본 부족 등급을 인접 등급과 통합:
+
+```
+Pool 1: AAA + AA+ + AA + AA- → "최우량군"    (Super-Prime)
+Pool 2: A+ + A + A-           → "우량군"      (Prime)
+Pool 3: BBB+ + BBB + BBB-     → "투자적격군"  (Investment)
+Pool 4: BB+ + BB + BB-        → "투기등급군"  (Speculative)
+Pool 5: B+ 이하               → "고위험군"    (High-Risk)
+```
+
+**병합 기준:**
+- 각 풀 내 최소 관측수: 30개 이상 (통계적 유의성)
+- Hosmer-Lemeshow 검정 등으로 풀 내 균질성 확인
+
+#### 대안 4: 글로벌 데이터 블렌딩
+
+한국 데이터와 글로벌 벤치마크를 표본수 기반 가중 혼합:
+
+```
+DR_blended(g) = w(g) × DR_KR(g) + [1 - w(g)] × DR_Global(g)
+
+w(g) = min(1, N_KR(g) / N_threshold)
+```
+
+- `DR_KR(g)`: 한국 등급 g의 관측 부도율
+- `DR_Global(g)`: Moody's/S&P 등급 g의 글로벌 부도율
+- `N_KR(g)`: 한국 등급 g의 관측 표본수
+- `N_threshold`: 신뢰도 임계치 (예: 50)
+
+#### 대안 5: 베이지안 보정
+
+```
+사전분포(Prior):     π(θ_g) ~ Beta(α_0, β_0)    ← 글로벌 부도율에서 유도
+우도(Likelihood):    L(data|θ_g) = θ_g^d × (1-θ_g)^{n-d}
+사후분포(Posterior): π(θ_g|data) ~ Beta(α_0 + d, β_0 + n - d)
+
+여기서:
+- θ_g: 등급 g의 실제 부도율 (추정 대상)
+- d: 한국 등급 g에서 관측된 부도 건수
+- n: 한국 등급 g에서 관측된 전체 기업수
+- α_0, β_0: 글로벌 데이터에서 유도된 사전 파라미터
+```
+
+**장점:** 표본 부족 등급에서 글로벌 Prior에 자연스럽게 의존, 표본 충분 등급에서는 한국 데이터 위주로 수렴
+
+---
+
+## 4. 글로벌 접근 방법론 비교
+
+| 방법론 | 모형 유형 | 핵심 입력 | 장점 | 한계 | 한국 적용성 |
+|--------|-----------|-----------|------|------|-------------|
+| **Merton-KMV** | 구조적 | 주가, 부채 | 시장기반, 전향적 | 상장사 한정, 분포가정 | ★★★★★ |
+| **CreditMetrics** | 전이행렬 | 등급전이, 스프레드 | 포트폴리오 리스크 | 등급 의존적 | ★★★☆☆ |
+| **CreditRisk+** | 축약형 | 부도율, 변동성 | 구현 용이 | 시장 미반영 | ★★☆☆☆ |
+| **Jarrow-Turnbull** | 축약형 | CDS스프레드 | 시장가격 반영 | CDS시장 미발달 | ★★☆☆☆ |
+| **Altman Z-Score** | 판별분석 | 재무비율 | 간단, 검증됨 | 시장변동 미반영 | ★★★☆☆ |
+| **ML (XGBoost)** | 비모수 | 다양한 데이터 | 유연, 비선형 | 해석부족, 과적합 | ★★★☆☆ |
+| **Bharath-Shumway** | 구조적(간편) | 주가, 부채 | 단순 구현 | 정밀도 한계 | ★★★★☆ |
+
+### Bharath-Shumway 간편 DD (Naïve DD)
+
+반복 추정 없이 직접 DD 계산 (실무 빠른 적용용):
+
+```
+V_naive = E + D
+σ_V_naive = (E/(E+D)) × σ_E + (D/(E+D)) × (0.05 + 0.25×σ_E)
+DD_naive = [ln(V_naive/D) + (μ - σ²_V_naive/2)×T] / (σ_V_naive × √T)
+```
+
+- Bharath & Shumway (2008) 연구에서 반복추정 DD와 유사한 부도예측력 보고
+- 대규모 데이터 처리 시 1차 필터로 유용
+
+---
+
+## 5. 구현 아키텍처
+
+### 5.1 시스템 구조
+
+```
+EDF/
+├── config/
+│   ├── settings.yaml          # 전역 설정 (기간, 파라미터)
+│   └── rating_mapping.yaml    # DD-등급 매핑 테이블
+├── data/
+│   ├── raw/                   # 원본 데이터
+│   ├── processed/             # 전처리된 데이터
+│   └── external/              # 글로벌 부도율 통계
+├── src/
+│   ├── data/
+│   │   ├── krx_fetcher.py     # KRX 주가 수집
+│   │   ├── dart_fetcher.py    # DART 재무제표 수집
+│   │   ├── rating_fetcher.py  # 신용등급 수집
+│   │   └── preprocessor.py    # 데이터 전처리
+│   ├── models/
+│   │   ├── merton.py          # Merton 연립방정식 풀이
+│   │   ├── dd_calculator.py   # DD/EDF 산출
+│   │   ├── shadow_rating.py   # Shadow Rating 모형
+│   │   └── volatility.py      # 변동성 추정 (Historical/EWMA/GARCH)
+│   ├── calibration/
+│   │   ├── global_benchmark.py  # 글로벌 벤치마크 로딩
+│   │   ├── blending.py          # 블렌딩/베이지안 보정
+│   │   └── grade_pooling.py     # 등급군 병합
+│   ├── validation/
+│   │   ├── backtesting.py     # 백테스팅
+│   │   ├── discriminatory.py  # 변별력 검증 (ROC, KS, CAP)
+│   │   └── calibration_test.py # 보정력 검증 (Hosmer-Lemeshow)
+│   └── utils/
+│       ├── financial.py       # 재무비율 계산
+│       └── statistics.py      # 통계 유틸리티
+├── notebooks/
+│   ├── 01_data_exploration.ipynb
+│   ├── 02_merton_analysis.ipynb
+│   ├── 03_shadow_rating.ipynb
+│   └── 04_default_rate_output.ipynb
+├── outputs/
+│   ├── dd_results/            # DD/EDF 산출 결과
+│   ├── rating_results/        # 등급별 부도율 결과
+│   └── reports/               # 검증 보고서
+├── docs/
+│   └── technical_methodology.md  # 이 문서
+├── requirements.txt
+└── README.md
+```
+
+### 5.2 처리 파이프라인
+
+```
+[Phase 1: 데이터 수집]
+    KRX 주가 → 전처리 → 주가변동성 산출
+    DART 재무제표 → 부채 구조(STD/LTD) 추출
+    신평사 등급 → 연도별 등급 스냅샷
+
+[Phase 2: Merton-KMV 모형]
+    (E, σ_E, D, r, T) → 반복 추정 → (V, σ_V) → DP → DD → EDF
+
+[Phase 3: Shadow Rating]
+    등급 보유 기업: (DD, 재무비율) ↔ 등급 매핑 학습
+    등급 미보유 기업: 학습 모형 → Shadow Rating 부여
+
+[Phase 4: 등급별 부도율 집계]
+    실제등급 + Shadow Rating → 등급별 연간 부도율 집계
+    표본 부족 등급 → 글로벌 블렌딩 / 등급군 병합
+
+[Phase 5: 검증]
+    백테스팅, 변별력/보정력 검증, CRA 발표 데이터 비교
+```
+
+---
+
+## 6. 데이터 명세
+
+### 6.1 필수 데이터
+
+| 데이터 항목 | 소스 | 수집 주기 | 필수/선택 |
+|-------------|------|-----------|-----------|
+| 일별 종가 | KRX / pykrx | 일별 | 필수 |
+| 시가총액 | KRX / pykrx | 일별 | 필수 |
+| 발행주식수 | KRX / DART | 분기 | 필수 |
+| 유동부채 (STD) | DART 재무제표 | 분기/연간 | 필수 |
+| 비유동부채 (LTD) | DART 재무제표 | 분기/연간 | 필수 |
+| 총자산 | DART 재무제표 | 분기/연간 | 필수 |
+| 신용등급 | 한기평/한신평/나이스 | 연간 스냅샷 | 필수 |
+| 무위험이자율 | 한국은행(ECOS) | 일별 | 필수 |
+| 부도/워크아웃 이력 | KRX 상장폐지, 뉴스 | 사건 기반 | 필수 |
+
+### 6.2 보조 데이터 (Shadow Rating 강화용)
+
+| 데이터 항목 | 소스 | 용도 |
+|-------------|------|------|
+| EBITDA | DART | 이자보상비율, 마진 |
+| 이자비용 | DART | 이자보상비율 |
+| 매출액 | DART | EBITDA 마진 |
+| 현금 및 현금성 자산 | DART | 유동성 비율 |
+| 산업분류코드 (KSIC) | KRX / DART | 산업 더미 변수 |
+| 거래량 | KRX | 유동성 필터링 |
+
+### 6.3 글로벌 벤치마크 데이터
+
+| 데이터 | 소스 | 내용 |
+|--------|------|------|
+| 등급별 연간 부도율 | Moody's Annual Default Study | Aaa~C 20년+ 평균 |
+| 등급별 누적 부도율 | S&P Global Default Study | AAA~D 1~20년 |
+| 한국 등급별 부도율 | 한기평/한신평/나이스 연간 발표 | 국내 기준 |
+
+### 6.4 부도(Default) 정의
+
+```
+다음 이벤트 중 하나 이상 발생 시 "부도"로 정의:
+
+1. 법정관리(회생절차) 개시 결정
+2. 워크아웃(채권단 자율협약) 개시
+3. 상장폐지 (재무 사유: 자본잠식, 감사의견 거절 등)
+4. 부도어음/부도수표 발생
+5. 기업회생절차 신청
+6. 파산 선고
+
+※ 제외: 합병·분할·자진 상장폐지 등 비재무적 사유
+```
+
+---
+
+## 7. 알고리즘 상세
+
+### 7.1 Merton 연립방정식 풀이
+
+```python
+import numpy as np
+from scipy.optimize import fsolve
+from scipy.stats import norm
+
+def solve_merton(E: float, sigma_E: float, D: float, 
+                  r: float, T: float = 1.0) -> tuple[float, float]:
+    """
+    Merton 연립방정식을 풀어 자산가치(V)와 자산변동성(σ_V)을 추정.
+    
+    Parameters
+    ----------
+    E : float
+        자기자본 시장가치 (시가총액, 억원)
+    sigma_E : float
+        주가수익률 변동성 (연환산, 예: 0.30 = 30%)
+    D : float
+        부도점 = STD + 0.5 × LTD (억원)
+    r : float
+        무위험이자율 (연, 예: 0.035 = 3.5%)
+    T : float
+        시간 수평선 (년, 기본 1.0)
+    
+    Returns
+    -------
+    V : float
+        추정 자산가치 (억원)
+    sigma_V : float
+        추정 자산변동성 (연환산)
+    """
+    def equations(params):
+        V, sigma_V = params
+        d1 = (np.log(V / D) + (r + 0.5 * sigma_V**2) * T) / (sigma_V * np.sqrt(T))
+        d2 = d1 - sigma_V * np.sqrt(T)
+        
+        eq1 = V * norm.cdf(d1) - D * np.exp(-r * T) * norm.cdf(d2) - E
+        eq2 = (V / E) * norm.cdf(d1) * sigma_V - sigma_E
+        return [eq1, eq2]
+    
+    # 초기값: V0 = E + D, sigma_V0 = sigma_E * E / (E + D)
+    V0 = E + D
+    sigma_V0 = sigma_E * E / (E + D)
+    
+    solution = fsolve(equations, [V0, sigma_V0], full_output=True)
+    V, sigma_V = solution[0]
+    
+    return max(V, E), max(sigma_V, 0.01)  # 하한 설정
+
+
+def calculate_dd(V: float, sigma_V: float, D: float,
+                  mu: float, T: float = 1.0) -> float:
+    """Distance-to-Default 산출"""
+    if D <= 0 or V <= 0 or sigma_V <= 0:
+        return np.nan
+    DD = (np.log(V / D) + (mu - 0.5 * sigma_V**2) * T) / (sigma_V * np.sqrt(T))
+    return DD
+
+
+def calculate_edf(DD: float) -> float:
+    """이론적 EDF 산출 (정규분포 가정)"""
+    if np.isnan(DD):
+        return np.nan
+    return norm.cdf(-DD)
+```
+
+### 7.2 변동성 추정
+
+```python
+def historical_volatility(prices: np.ndarray, window: int = 252) -> float:
+    """역사적 변동성 (연환산)"""
+    log_returns = np.diff(np.log(prices))
+    if len(log_returns) < window:
+        window = len(log_returns)
+    return np.std(log_returns[-window:]) * np.sqrt(252)
+
+
+def ewma_volatility(prices: np.ndarray, lmbda: float = 0.94) -> float:
+    """EWMA 변동성 (연환산)"""
+    log_returns = np.diff(np.log(prices))
+    variance = log_returns[0]**2
+    for ret in log_returns[1:]:
+        variance = lmbda * variance + (1 - lmbda) * ret**2
+    return np.sqrt(variance * 252)
+
+
+def garch_volatility(prices: np.ndarray) -> float:
+    """GARCH(1,1) 변동성 (arch 패키지 사용)"""
+    from arch import arch_model
+    log_returns = np.diff(np.log(prices)) * 100  # 백분율
+    model = arch_model(log_returns, vol='Garch', p=1, q=1, dist='normal')
+    result = model.fit(disp='off')
+    # 최신 조건부 변동성을 연환산
+    cond_vol = result.conditional_volatility[-1] / 100
+    return cond_vol * np.sqrt(252)
+```
+
+### 7.3 Shadow Rating (Ordered Probit)
+
+```python
+import statsmodels.api as sm
+import pandas as pd
+
+def fit_shadow_rating_model(df_rated: pd.DataFrame, 
+                              feature_cols: list,
+                              rating_col: str = 'rating_numeric') -> object:
+    """
+    등급 보유 기업 데이터로 Ordered Probit 모형 적합.
+    
+    Parameters
+    ----------
+    df_rated : pd.DataFrame
+        등급 보유 기업 데이터 (DD, 재무비율, 등급 포함)
+    feature_cols : list
+        설명변수 컬럼명 리스트
+    rating_col : str
+        등급 숫자 컬럼 (1=AAA, 2=AA+, ...)
+    """
+    X = df_rated[feature_cols]
+    y = df_rated[rating_col]
+    
+    model = sm.OrderedModel(y, X, distr='probit')
+    result = model.fit(method='bfgs', disp=False)
+    
+    return result
+
+
+def predict_shadow_rating(model_result, df_unrated: pd.DataFrame,
+                            feature_cols: list) -> pd.DataFrame:
+    """등급 미보유 기업에 Shadow Rating 부여"""
+    X = df_unrated[feature_cols]
+    pred_probs = model_result.predict(X)
+    
+    # 각 기업의 최대 확률 등급
+    df_unrated = df_unrated.copy()
+    df_unrated['shadow_rating_numeric'] = pred_probs.values.argmax(axis=1) + 1
+    
+    return df_unrated
+```
+
+### 7.4 등급별 부도율 산출 (블렌딩)
+
+```python
+def compute_blended_default_rates(df: pd.DataFrame,
+                                    rating_col: str,
+                                    default_col: str,
+                                    global_dr: dict,
+                                    threshold: int = 50) -> pd.DataFrame:
+    """
+    등급별 부도율을 한국 관측 + 글로벌 벤치마크 블렌딩으로 산출.
+    
+    Parameters
+    ----------
+    df : pd.DataFrame
+        전체 기업 데이터 (등급 + 부도여부 포함)
+    rating_col : str
+        등급 컬럼명
+    default_col : str
+        부도 여부 컬럼명 (0/1)
+    global_dr : dict
+        {등급: 글로벌 부도율} 매핑
+    threshold : int
+        블렌딩 전환 표본수 임계치
+    """
+    results = []
+    for grade in sorted(df[rating_col].unique()):
+        subset = df[df[rating_col] == grade]
+        n = len(subset)
+        d = subset[default_col].sum()
+        kr_dr = d / n if n > 0 else 0
+        
+        g_dr = global_dr.get(grade, kr_dr)
+        w = min(1.0, n / threshold)
+        blended = w * kr_dr + (1 - w) * g_dr
+        
+        results.append({
+            'grade': grade,
+            'n_firms': n,
+            'n_defaults': d,
+            'korean_dr': kr_dr,
+            'global_dr': g_dr,
+            'weight_kr': w,
+            'blended_dr': blended
+        })
+    
+    return pd.DataFrame(results)
+```
+
+### 7.5 베이지안 부도율 추정
+
+```python
+from scipy.stats import beta as beta_dist
+
+def bayesian_default_rate(n: int, d: int,
+                           prior_mean: float,
+                           prior_strength: float = 50) -> dict:
+    """
+    베이지안 방식 등급별 부도율 추정.
+    
+    Parameters
+    ----------
+    n : int
+        관측 기업수
+    d : int
+        부도 건수
+    prior_mean : float
+        사전 부도율 (글로벌 벤치마크)
+    prior_strength : float
+        사전 강도 (글로벌 표본수에 비례)
+    """
+    # Beta prior 파라미터
+    alpha_0 = prior_mean * prior_strength
+    beta_0 = (1 - prior_mean) * prior_strength
+    
+    # 사후 분포 (Beta-Binomial conjugacy)
+    alpha_post = alpha_0 + d
+    beta_post = beta_0 + (n - d)
+    
+    # 사후 통계량
+    posterior_mean = alpha_post / (alpha_post + beta_post)
+    posterior_mode = (alpha_post - 1) / (alpha_post + beta_post - 2) \
+                     if (alpha_post > 1 and beta_post > 1) else posterior_mean
+    ci_lower, ci_upper = beta_dist.ppf([0.025, 0.975], alpha_post, beta_post)
+    
+    return {
+        'posterior_mean': posterior_mean,
+        'posterior_mode': posterior_mode,
+        'ci_95_lower': ci_lower,
+        'ci_95_upper': ci_upper,
+        'prior_mean': prior_mean,
+        'n_obs': n,
+        'n_defaults': d
+    }
+```
+
+---
+
+## 8. 검증 방법론
+
+### 8.1 변별력(Discriminatory Power) 검증
+
+| 지표 | 설명 | 기준 |
+|------|------|------|
+| **AUROC** | ROC 곡선 하 면적 | > 0.70 (수용), > 0.80 (양호) |
+| **KS 통계량** | 부도/비부도 분포 최대 이격 | > 0.30 (수용) |
+| **CAP/AR** | 정확도 비율 | > 0.50 (수용) |
+| **정보값(IV)** | 변수별 변별 기여도 | > 0.10 (유의미) |
+
+### 8.2 보정력(Calibration) 검증
+
+| 지표 | 설명 |
+|------|------|
+| **Hosmer-Lemeshow** | 예측 부도율 vs 실제 부도율 적합도 |
+| **Binomial Test** | 등급별 실제 부도율이 예측 구간 내 존재 여부 |
+| **Traffic Light** | Basel II 권장 — 녹색/황색/적색 신호 |
+
+### 8.3 백테스팅 프로세스
+
+```
+for year in [T-5, T-4, T-3, T-2, T-1]:
+    1. year 말 기준 DD/EDF 산출
+    2. year+1 동안의 실제 부도 여부 관측
+    3. 예측 EDF vs 실현 부도율 비교
+    4. 변별력/보정력 지표 산출
+```
+
+### 8.4 CRA 발표 데이터와 비교
+
+- 한기평·한신평·나이스 연간 발표 등급별 부도율과 본 모형 산출치 비교
+- 등급별 편차(bias) 및 상관관계 분석
+- 부도 시점 대비 DD 하락 시점의 선행성 분석
+
+---
+
+## 9. 한국 시장 특수 고려사항
+
+### 9.1 데이터 관련
+
+| 항목 | 고려사항 | 대응 |
+|------|----------|------|
+| KOSPI vs KOSDAQ | KOSDAQ 소형·고변동성 기업 다수 | 시장별 분리 분석 또는 통합+더미 |
+| 금융업 | 부채 구조 상이 (예금 = 부채) | **분석 제외** 또는 별도 모형 |
+| 등급 불일치 | 한기평·한신평·나이스 등급 차이 | 중위값 또는 최빈값 사용 |
+| 분기 vs 연간 | 재무제표 시차 | 분기 데이터 우선, 없으면 연간 보간 |
+| 상장폐지 | 부도 vs 비부도 폐지 구분 | 폐지 사유 코드로 필터링 |
+
+### 9.2 구조적 특성
+
+| 특성 | 영향 | 모형 반영 방법 |
+|------|------|---------------|
+| **재벌 계열** | 그룹 지원으로 개별 DD 대비 부도율 하락 | 계열사 더미 / 그룹 DD 산출 |
+| **정부 지원** | 공기업 부도율 ≈ 0 | 정부지원 등급에서 제외 또는 별도 처리 |
+| **채권단 자율협약** | 형식적 부도 회피 | 워크아웃 개시를 부도 사건에 포함 |
+| **유상증자/CB** | 부도 직전 자본 확충으로 DD 왜곡 | 이벤트 전 DD 사용 또는 플래그 |
+
+### 9.3 변동성 추정 주의사항
+
+| 상황 | 문제 | 대응 |
+|------|------|------|
+| 장기 거래정지 | 변동성 과소추정 | 정지 기간 제외, 30일 이상 정지 시 분석 제외 |
+| 저거래량 | 비유동성 프리미엄 혼재 | 거래량 하위 10% 제외 또는 유동성 보정 |
+| 극단 이벤트 | 일시적 급등락으로 변동성 왜곡 | Winsorization (상하 1%) 또는 트리밍 |
+| 공매도 제한 | 하락 변동성 억제 | 변동성 하향 편의 인지, 글로벌 대비 보정 |
+
+---
+
+## 10. 기술 스택 및 의존성
+
+### 10.1 Python 패키지
+
+```
+# 핵심 (requirements.txt)
+numpy>=1.24
+pandas>=2.0
+scipy>=1.10
+statsmodels>=0.14
+
+# 데이터 수집
+pykrx>=1.0          # KRX 주가 데이터
+OpenDartReader>=0.3  # DART 전자공시 API
+
+# 변동성 모형
+arch>=6.0           # GARCH/EWMA 모형
+
+# 시각화
+matplotlib>=3.7
+plotly>=5.15
+seaborn>=0.12
+
+# 머신러닝 (선택)
+scikit-learn>=1.3
+xgboost>=2.0
+
+# 유틸리티
+tqdm>=4.65
+pyyaml>=6.0
+```
+
+### 10.2 무위험이자율
+
+- 한국은행 ECOS의 **국고채 1년물 금리** 사용
+- 또는 통화안정증권(MSB) 1년물
+
+### 10.3 데이터베이스
+
+- 개발 단계: SQLite (로컬 파일)
+- 운영 단계: PostgreSQL (필요시)
+
+---
+
+## 11. 참고 문헌
+
+### 핵심 논문
+1. Merton, R.C. (1974). "On the Pricing of Corporate Debt: The Risk Structure of Interest Rates." *Journal of Finance*, 29(2), 449-470.
+2. Black, F. & Cox, J.C. (1976). "Valuing Corporate Securities: Some Effects of Bond Indenture Provisions." *Journal of Finance*, 31(2), 351-367.
+3. Bharath, S.T. & Shumway, T. (2008). "Forecasting Default with the Merton Distance to Default Model." *Review of Financial Studies*, 21(3), 1339-1369.
+4. Crosbie, P. & Bohn, J. (2003). "Modeling Default Risk." Moody's KMV Working Paper.
+
+### 한국 시장 연구
+5. 한국은행. "IRB 접근법 하에서의 장기 부도확률 추정."
+6. 한국기업평가. "연간 부도율 통계" (korearatings.com)
+7. 한국신용평가. "신용등급별 부도율 및 전이행렬" (kisrating.com)
+
+### 기술 참고
+8. Credit Suisse Financial Products. (1997). "CreditRisk+: A Credit Risk Management Framework."
+9. JP Morgan. (1997). "CreditMetrics — Technical Document."
+10. Basel Committee on Banking Supervision. "Studies on the Validation of Internal Rating Systems."