목록Data (99)
짜리몽땅 매거진
금융 사기 거래 탐지는 단순희 범죄를 막는 것 이상의 중요성을 가진다. 이는 금융 거래의 신뢰성과 안정성을 보장함으로써, 전반적인 금융 생태계의 건강을 유지하는데 필수다. 사기 거래가 무분별하게 이루어질 경우, 소비자들의 신뢰는 급격히 하락하고, 이는 결국 금융 시장의 불안정으로 이어질 수 있다. 따라서 사기 거래 탐지와 예방은 단순히 개별 기업이나 소비자들을 보호하는 것을 넘어서, 금융 시장 전체의 안정과 성장을 도모하는 중요한 활동이다. 이와 동시에 AI와 머신러닝 기술을 활용한 금융 사기 거래 탐지 방법이 더욱 중요해지고 있다. 이러한 기술들은 대량의 거래 데이터를 실시간으로 분석하여 사기성 거래를 효과적으로 식별할 수 있는 능력을 제공한다. 또한 지속적인 학습과 개선을 통해 새로운 사기 유형에 빠..
OptBinning 라이브러리를 사용해 신용평가 모델링을 하면서 궁금했던 점을 정리해보려 한다. Q1. 변수 구간화(binning)은 왜 하는가?1. 변수와 목표값(y)의 관계를 더 명확하게 만들기 위해원래 연속형 데이터(ex. 소득, 나이)는 y(부도 여부)와 바로 선형 관계를 가지기 어렵거나 노이즈가 많음.binning을 하면 범위별로 평균 부도율이 확연하게 달라짐.binning을 하면 위험 구간 vs 안전 구간이 명확해짐.2. WoE / IV 같은 신용평가 전용 Feature 생성 가능binning을 해야 WoE, IV값을 계산할 수 있다. → WoE를 쓰면 좋은 이유변수와 y의 관계를 log-odds 형태로 정량화 가능outlier 영향 적음선형 모델에 적합→ IV는 변수 중요도 지표로 씀. 정..
지난 머신러닝 기반 신용평가 모델에 이어 이번에는 OptBinning 라이브러리 기반의 신용 평가 모델을 개발해보자. OptBinning 라이브러리는 변수의 binning(구간화)을 최적화해주는 파이썬 기반 오픈소스 라이브러리로, 주로 신용평가 모형 개발이나 머신러닝 feature engineering 과정에서 활용된다. 특히 연속형 변수나 범주형 변수를 적절하게 구간화해서 모델 성능 향상이나 해석력을 높일 때 유용하다. 지난 머신러닝 기반 신용평가 모델링의 전처리 및 시각화 과정까지는 동일하므로 그 다음 단계부터 살펴보자. [금융 AI] AI 기반의 신용 리스크 모델링(3) - 머신러닝 기반 신용 평가 모델머신러닝 기반의 신용 평가 모델링을 진행하고자 두 가지 데이터셋을 준비한다. 아메리칸 익스프레스..
머신러닝 기반의 신용 평가 모델링을 진행하고자 두 가지 데이터셋을 준비한다. 아메리칸 익스프레스 주최 파산 예측 경진대회 데이터셋(https://www.kaggle.com/competitions/amex-default-prediction/data)홈 크레딧 경진대회 데이터셋(https://www.kaggle.com/c/home-credit-credit-risk-model-stability/data)두 데이터셋은 실제 금융 데이터에 기반을 둔 광범위 데이터이기 때문에 실습 편의를 위해 데이터를 고객당 하나의 행을 가진 데이터 테이블 형식으로 변환하고, 그 중에서 10만 개의 행을 임의 추출하여 사용할 예정이다. import numpy as npimport pandas as pdimport osfor dir..

1. 파인튜닝(Fine-tuning)이란?파인튜닝은 사전 학습된 모델을 특정한 데이터셋에 맞춰 추가로 학습시키는 과정이다. 이미 대량의 데이터로 학습된 모델의 기본적인 표현학습 능력을 유지하면서, 특정 도메인 또는 특정 태스크에 맞게 미세 조정하는 방식이다.💡 예시:GPT-4를 금융 문서 요약에 맞춰 파인튜닝ResNet을 의료 이미지 분석에 맞춰 파인튜닝BERT를 법률 문서 분류 태스크에 맞춰 파인튜닝2. 파인튜닝의 주요 개념사전 학습(Pre-training)대규모 데이터셋으로 학습한 일반적인 특징을 학습하는 과정예: GPT, BERT, ResNet, EfficientNet 등전이 학습(Transfer Learning)사전 학습된 모델을 특정한 작업에 맞게 재사용기존의 가중치를 활용하여 학습량을 줄이고..

신용 평가 모델 평가 지표신용 평가 모델을 개발하고 최적화하는 과정에서 모델의 성능을 정확하게 평가하는 것은 매우 중요하다. 이를 위해 다양한 평가 지표들이 사용되며, 각 지표는 모델의 다른 측면을 측정하여 모델이 신용 리스크를 얼마나 잘 예측하는지에 대한 통찰을 제공한다.K-S 통계량K-S 통계량은 우량집단과 불량집단 사이의 누적 분포 차이를 최대화하는 값으로 정의된다. 즉 신용 평가 모델이 생성한 점수에 따라 고객을 우량과 불량으로 분류했을 때, 이 두 집단의 누적 분포 곡선 사이의 최대 거리를 K-S 통계량으로 측정한다. 예를 들어 신용 평가 모델의 K-S 통계량이 30이라면, 이는 모델이 우량 고객과 불량 고객을 매우 잘 구분하고 있음을 의미한다. K-S 통계량이 20 이상일 때, 모델의 변별력이..
신용 리스크 관리신용 리스크 관리는 금융 산업의 핵심적인 부분으로, 대출과 투자 과정에서 발생하는 상대방의 미상환 가능성, 즉 신용 위험을 식별, 평가, 모니터링하고 이를 적절히 관리하는 것이 매우 중요하다. 금융 기관은 이 위험을 실질적으로 관리하기 위해 신용 평가 시스템을 리스 관리의 필수 도구로 활용하고 있다. 신용 평가 시스템은 대출 심사부터 신용카드 발급, 대출 금리 산출, 채권투자 결정, 보험료 책정에 이르기까지 금융 분야 전반에 걸쳐 광범위하게 활용된다. 핀테크에서의 신용 평가 모델 활용신용 평가 모델이 전통적인 금융 기업의 도메인에만 머물지 않는 듯 보이는데, 이런 현상은 금융 산업 전반에 걸쳐 혁신적인 변화를 예고한다. 예를 들어 애플 같은 기업이 애플페이와 애플 카드를 통해 금융 서비..

트랜스포머를 이용한 주가 방향성 예측이전 글에서 머신러닝을 이용한 주가 방향성 예측 실습을 진행했다. 이번 장에서는 딥러닝, 특히 트랜스포머 모델을 활용한 주가 방향성 예측 실습을 진행해보려 한다. 트랜스포머 모델은 자연어 처리에서 큰 성과를 거두었지만, 시계열 데이터에서도 효과적으로 사용될 수 있다. import pandas as pdimport numpy as npimport tensorflow as tffrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import accuracy_score, confusion_matrix, classi..