목록Data (105)
짜리몽땅 매거진

대규모 언어모델(LLM)은 많은 사람들이 알고있듯이 질문에 답변하거나 글을 작성하는 데 탁월하다. 하지만 LLM 하나만으로는 한계가 있다.모델은 학습 시점 이후의 정보는 모름 (지식이 고정됨).계산이나 검색 같은 외부 작업을 못 함.긴 대화에서 맥락을 유지하기 어려움.👉 LangChain은 이 한계를 극복하기 위해, LLM을 외부 데이터·도구·메모리와 연결하는 프레임워크로 등장했다. 단순히 모델에 프롬프트를 입력해서 답변을 얻는 것에 그치지 않고, 외부 데이터·API·메모리 등을 결합해 복잡한 애플리케이션을 만들 수 있게 도와주는 도구라고 생각하면 된다. 그래서 LangChain에 대한 개념 이해와 LangChain을 활용해 요즘 많이 뜨고있는 'AI Agent'까지 간단한 실습까지 진행해보려하는데, ..
Chapter 1. 투자 : 배경과 과제1.1 실물자산과 금융자산실물자산: 재화와 용역의 생산에 사용되는 자산 (EX) 토지, 건물 기계- 통합 재무상태표 → 실물자산만 남음- 국내 순자산 = 실물자산의 합계 → 실제 부(순소득)를 창출함금융자산: 실물자산 또는 실물자산에 의해 발생된 소득에 대한 청구권- 개인이 실물자산에 대한 소유권을 행사하는 수단 / 소득 또는 부를 투자자 사이에 분배하는 방법을 규정 1) 주식(Stock)- 주주로써 주주권 행사 가능(보통주), 이사회 소집, 청구권 (Common Stock) = 배당2) 채권(Bond) - Creditor 이 있어 파산시 청구권 있음. (주식은 없음) (EX) 기업이 3년짜리 만기 상품 판매. 100 만원 중 5%이자 ➜ 3년간 매년 5만원 + 액..

이번 실습에서는 이커머스 거래 데이터를 활용하여 커뮤니티 탐지 방법을 사용해 사기 집단을 찾아보자. 온라인 거래에서 발생하는 사기는 종종 조직적으로 이루어지며, 이를 탐지하는 것은 매우 중요하다. 데이터는 Faker 라이브러리를 사용하여 실제 데이터와 유사하게 생성되며, 이 데이터에는 사용자 ID, 거래 시 사용한 IP, 기기 ID, 신용카드 번호, 전화번호 등이 포함된다. 이 데이터를 그래프 형태로 변환하여 분석하기 위해 Networkx 라이브러리를 사용한다. 또한 커뮤니티 탐지 알고리즘으로 사용하는 Louvain 알고리즘은 복잡한 네트워크 내에서 밀접하게 연결된 노드 그룹, 즉 커뮤니티를 찾아내는데 특히 유용하다. 이 알고리즘의 주요 특성은 '모듈성'이다. 모듈성은 네트워크가 얼마나 잘 분할되어 있는..

비지도 학습 방법 중 하나인 오토인코더는 금융 사기 거래 탐지 분야에서도 그 가치를 발휘한다. 오토인코더는 핵심 특징을 유지하면서 데이터를 효과적으로 압축하고 복원하는 방법을 학습한다. 이러한 특성 때문에 오토인코더는 효과적인 차원 축소 도구로 사용되며, 잡음 제거나 이상 탐지 등에도 적용된다. 오토인코더는 본질적으로 고차원 입력의 저차원 표현을 생성하는데 신경망을 사용한다. 주성분 분석과 유사하지만, 비선형 활성화 함수를 사용할 때 주성분 분석의 선형적 제한을 극복한다. 두가지 주요 부분인 인코더와 디코더를 포함하고, 인코더는 주어진 데이터의 압축 표현을 발견하는 역할을 하고, 디코더는 원래의 입력을 재구성하는데 사용된다. 위 원리에 따라 이번 실습에서는 비지도 학습법인 오토인코더를 사용해 잠재적인..
금융 사기 거래 탐지는 끊임없이 진화하는 사기꾼들과의 지능적인 싸움과 같다. 새로운 패턴을 학습하고 대응 방안을 찾는 동안 사기꾼들도 사기 방법을 지속적으로 변화시킨다. 이러한 상황에서는 기존의 접근 방식만으로는 충분하지 않다. 특히 사기 거래의 패턴이 빠르게 변화하고, 레이블링된 데이터가 부족한 상황에서는 더욱 그렇다. 따라서 사기의 새로운 패턴을 빠르게 감지하고 효과적으로 대응할 수 있는 새로운 기술과 방법론을 모색해야 한다. 지난 SMOTE 및 XGBoost 기반 모델에 이어 이번에는 Isolation Forest 기반 신용카드 사기 거래 탐지 모델링 실습을 진행해보자. Isolation Forest 알고리즘에 대한 설명은 지난 포스팅을 참고하자. [Python] 데이터에서의 Outlier 처리데이..
본격적으로 사기 거래 탐지를 위한 모델링을 해보자. 첫 번째로 살펴볼 방법은 머신러닝 지도학습법을 활용한 모델 개발이다. 이 접근법은 레이블링 과정을 거쳐 사기로 분류된 거래 데이터를 사용한다. 이번 실습에서 사용할 데이터셋은 다음과 같다. Credit Card Fraud DetectionAnonymized credit card transactions labeled as fraudulent or genuinewww.kaggle.com 사기 거래는 전체 거래에서 차지하는 비율이 매우 낮아, 이러한 불균형한 데이터 상태에서 효과적인 모델링을 위해서는 특별한 접근 방법이 필요하다. 이를 위해 트리 기반 모델을 활용할 예정이며, 데이터 불균형 문제를 해결하기 위해 SMOTE 기법을 사용한다. SMOTE는 소수..
금융 사기 거래 탐지는 단순희 범죄를 막는 것 이상의 중요성을 가진다. 이는 금융 거래의 신뢰성과 안정성을 보장함으로써, 전반적인 금융 생태계의 건강을 유지하는데 필수다. 사기 거래가 무분별하게 이루어질 경우, 소비자들의 신뢰는 급격히 하락하고, 이는 결국 금융 시장의 불안정으로 이어질 수 있다. 따라서 사기 거래 탐지와 예방은 단순히 개별 기업이나 소비자들을 보호하는 것을 넘어서, 금융 시장 전체의 안정과 성장을 도모하는 중요한 활동이다. 이와 동시에 AI와 머신러닝 기술을 활용한 금융 사기 거래 탐지 방법이 더욱 중요해지고 있다. 이러한 기술들은 대량의 거래 데이터를 실시간으로 분석하여 사기성 거래를 효과적으로 식별할 수 있는 능력을 제공한다. 또한 지속적인 학습과 개선을 통해 새로운 사기 유형에 빠..
OptBinning 라이브러리를 사용해 신용평가 모델링을 하면서 궁금했던 점을 정리해보려 한다. Q1. 변수 구간화(binning)은 왜 하는가?1. 변수와 목표값(y)의 관계를 더 명확하게 만들기 위해원래 연속형 데이터(ex. 소득, 나이)는 y(부도 여부)와 바로 선형 관계를 가지기 어렵거나 노이즈가 많음.binning을 하면 범위별로 평균 부도율이 확연하게 달라짐.binning을 하면 위험 구간 vs 안전 구간이 명확해짐.2. WoE / IV 같은 신용평가 전용 Feature 생성 가능binning을 해야 WoE, IV값을 계산할 수 있다. → WoE를 쓰면 좋은 이유변수와 y의 관계를 log-odds 형태로 정량화 가능outlier 영향 적음선형 모델에 적합→ IV는 변수 중요도 지표로 씀. 정..