짜리몽땅 매거진
[금융 AI] AI 기반의 신용 리스크 모델링(2) 본문
신용 평가 모델 평가 지표
신용 평가 모델을 개발하고 최적화하는 과정에서 모델의 성능을 정확하게 평가하는 것은 매우 중요하다. 이를 위해 다양한 평가 지표들이 사용되며, 각 지표는 모델의 다른 측면을 측정하여 모델이 신용 리스크를 얼마나 잘 예측하는지에 대한 통찰을 제공한다.
K-S 통계량
K-S 통계량은 우량집단과 불량집단 사이의 누적 분포 차이를 최대화하는 값으로 정의된다. 즉 신용 평가 모델이 생성한 점수에 따라 고객을 우량과 불량으로 분류했을 때, 이 두 집단의 누적 분포 곡선 사이의 최대 거리를 K-S 통계량으로 측정한다. 예를 들어 신용 평가 모델의 K-S 통계량이 30이라면, 이는 모델이 우량 고객과 불량 고객을 매우 잘 구분하고 있음을 의미한다. K-S 통계량이 20 이상일 때, 모델의 변별력이 충분하다고 간주된다.

PSI
PSI는 모델의 안정성을 평가하는데 사용되는 지표다. 기준 시점(모델이 개발되거나 마지막으로 검증된 시점)과 비교 시점(현재 또는 특정 시점)을 정하고, 각 시점에 대한 모델 입력 변수의 분포를 구한다. 이때 변수의 전체 범위를 몇 개의 구간으로 나누고, 각 구간에 속하는 관측치의 비율을 계산한다. 각 구간에 대해 기준 시점과 비교 시점의 분포 비율 차이를 계산한다. 그 후 모든 구간에 대해 계산한 값들을 합산하여 PSI값을 얻는다. PSI값이 0.1 이하인 경우 , 모델의 분포가 안정적이라고 판단하며, 0.1에서 0.25 사이면 경미한 변화가 있음을, 0.25 이상이면 모델의 분포가 크게 변화했음을 의미한다. PSI를 통해 모델이 시간에 따라 얼마나 안정적인지를 평가함으로써, 금융기관은 모델을 지속적으로 모니터링하고 필요한 경우 모델을 조정하거나 재개발할 수 있다. K-S 통계량은 우량집단과 불량집단 사이의 누적 분포 차이를 최대화하는 값으로 정의된다. 즉 신용 평가 모델이 생성한 점수에 따라 고객을 우량과 불량으로 분류했을 때, 이 두 집단의 누적 분포 곡선 사이의 최대 거리를 K-S 통계량으로 측정한다. 예를 들어 신용 평가 모델의 K-S 통계량이 30이라면, 이는 모델이 우량 고객과 불량 고객을 매우 잘 구분하고 있음을 의미한다. K-S 통계량이 20 이상일 때, 모델의 변별력이 충분하다고 간주된다.

K-S 통계량, PSI 외에도 정밀도, 재현율, AUC-ROC 처럼 머신러닝의 분류 모델을 평가할 때 사용되는 평가 지표들이 동일하게 적용된다.
신용 평가 모델 개발을 위한 사전 지식
- 연체 기간 : 대출자가 상환 일정에 뒤쳐지는 기간을 얼마로 정의할 것인가에 대한 기준이다. 이 기간 설정은 모델링에서 대출자의 '위험' 상태를 정의하는데 사용된다.
- 관찰 시점 : 모델링을 위해 데이터를 수집하는 특정 시점을 말한다. 이 시점을 기준으로 고객 데이터를 분석하고, 이후의 신용 행동을 예측한다.
- 관찰 기간 : 고객의 신용 데이터를 관찰하는 기간으로, 이 기간 동안의 고객 행동과 데이터가 모델의 학습 자료로 사용된다.
- 성능 기간 : 관찰 시점 이후로 설정된 기간으로, 이 기간 동안 고객의 신용 성과를 추적한다. 이를 통해 모델의 예측력을 검증할 수 있다.
- 종속변수 : 모델이 예측하고자 하는 목표 변수로, 예를 들어 고객의 대출 상환 능력이 될 수 있다. 이 변수의 정의는 모델링의 목적에 따라 달라진다.
- 성능 기간 설정과 빈티지 분석 : 빈티지 분석은 다양한 시간대에 발생한 대출의 성능을 비교 분석하는 방법이다. 이를 통해 성능 기간을 어떻게 설정할지 결정할 수 있다.
데이터 분할 전략
데이터 분할 전략은 머신러닝 모델, 특히 신용 평가 모델의 학습 과정에서 모델의 정확도와 일반화 능력을 결정하는 핵심 요소다. 신용 평가 모델링에서 데이터 분할을 효과적으로 수행하기 위해 다음 세 가지 주요 고려 사항을 명심해야 한다.
층화 추출
신용 평가 데이터셋은 대부분의 고객이 연체 없이 대출을 상환하는 '리스크가 없는 고객'과 소수의 '리스크가 높은 고객'으로 구성되는 경향이 있다. 따라서 데이터 불균형 문제가 자주 발생한다. 이러한 불균형은 모델의 예측 성능에 영향을 줄 수 있기 때문에, 층화 추출 방법을 사용하여 학습 및 검증 데이터셋에서 각 클래스의 비율을 균등하게 유지하는 것이 중요하다. 모델링에서 교차 검증 시 층화된 교차 검증(Stratified cross-validation) 기법을 사용하면 된다.
외부 금융 이벤트 고려
금융 위기와 같은 큰 금융 이벤트는 전체 신용 환경에 영향을 미칠 수 있다. 이러한 이벤트는 데이터 분석과 모델링에 반영되어야 하며, 이를 위해 특정 시기의 데이터를 별도로 구분하여 분석하는 것이 필수다.
Time Series Split
시계열 데이터를 활용하여 다양한 피처를 생성한 경우, 데이터 분할 과정에서 시간 요소를 고려하는 것이 중요하다. 시계열 피처는 고객의 신용 행동 패턴, 계절적 변동, 추세 등을 반영하는데, 이러한 피처를 사용할 때는 데이터를 시간 순서대로 분할하는 Time Series Split 방법을 적용해야 한다. 이 방법은 과거의 데이터를 학습에 사용하고, 미래의 데이터를 검증에 사용함으로써, 미래 예측에서 미래 참조 편향을 방지한다.
'Data > Financial AI' 카테고리의 다른 글
[금융 AI] AI 기반의 신용 리스크 모델링(4) - OptBinning 기반 신용 평가 모델 (0) | 2025.04.10 |
---|---|
[금융 AI] AI 기반의 신용 리스크 모델링(3) - 머신러닝 기반 신용 평가 모델 (0) | 2025.03.29 |
[금융 AI] AI 기반의 신용 리스크 모델링(1) (1) | 2025.03.08 |
[금융 AI] 금융 투자 영역에서의 AI(4) - 딥러닝을 이용한 투자 전략 (0) | 2025.03.02 |
[금융 AI] 금융 투자 영역에서의 AI(3) - 머신러닝을 이용한 투자 전략 (0) | 2025.02.17 |