목록전체 글 (91)
짜리몽땅 매거진
1. 신용 평가에서의 AI와 대체 데이터의 활용전통적으로 개인과 기업의 재무 건전성을 평가할 때 재무제표, 신용 기록, 시장 위치 등의 정보에만 의존해왔는데, 이런 전통적인 데이터 소스만으로는 개인과 기업의 신용 리스크를 전면적으로 평가하기에 한계가 있다는 점이 드러나고 있다. 이러한 상황에서 AI와 대체 데이터의 결합은 신용 평가 방법론에 혁신을 가져온다. 여기서 대체 데이터란 온라인 거래 기록, 소셜 미디어 활동, 온라인 고객 리뷰 등 전통적인 재무 데이터에서 파악하기 어려운 다양한 측면의 정보를 제공한다. AI와 머신러닝 알고리즘을 활용하여 이 대체 데이터를 분석함으로써, 신용 리스크 평가에 깊이와 정확성을 더할 수 있다.전통적인 데이터 : 금융 거래 내역, 소득 정보, 대출 이력 등신용평가에 활동..
앱서비스를 운영할 때 유저는 피로를 느끼고 중도 이탈을 하거나 앱에 오랜기간 접속을 하지 않는 등 다양한 단계에서 이탈 유저가 발생한다. 사전에 이탈 유저를 예측하고, 어떤 원인으로 인해 이탈했는지 파악한다면 기업 입장에서 리스크를 최소화할 수 있다. 그래서 오늘은 머신러닝 모델을 활용해 이탈 유저와 일반 유저를 분류해보는 예측 모형을 개발해보고자 한다. 데이터셋은 유저 및 기능별 로그 데이터를 전처리한 데이터셋을 활용하였다.* 실제 기업 데이터로, 수치는 비공개 처리합니다. 1. 라이브러리 호출 및 데이터 불러오기import pandas as pdimport numpy as npfrom datetime import datetimefrom sklearn.preprocessing import Label..

앱서비스의 DB와 로그데이터를 활용해 각 유저와 기능 관련 수치들을 변수로 설정한 뒤 상관분석을 진행하면, 어떤 기능들이 상호 연관성이 높은지 쉽게 파악해 추후 새로운 전략을 짜는데 용이하게 활용할 수 있다. 더불어 상관분석 결과를 '상관계수 네트워크 차트' 형태로 시각화한다면 한 눈에 파악하기 쉽다. 그래서 오늘은 실제 앱서비스 데이터를 바탕으로 위 과정을 실습해보자. * 실제 기업 데이터로, 수치는 비공개 처리합니다. 1. 라이브러리 호출 및 데이터 불러오기import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdf_merged = pd.read_csv('상관분석 데이터.csv') 날짜를 인덱스로 설정해 각 유저별 기능별 수치를..

오늘은 GRU와 LSTM 모델을 활용해 간단한 유통데이터 시계열 분석을 진행해보자. 1. 라이브러리 호출 및 데이터 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import train_test_splitfrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import LSTM, GRU, Densefrom sklearn.metrics import mean_squared_error, mean_absolute_err..

추천 시스템의 종류 콘텐츠 기반 필터링(Content-based Filtering)콘텐츠 자체의 특성과 사용자의 이전 행동 기록을 기반으로 사용자에게 추천함예를 들어, 사용자가 영화 '캡틴 마블'을 재밌게 보았다면 '캡틴 마블'에 대한 분석을 바탕으로 성격이 유사한 영화 '블랙 위도우'를 추천함장점개인화된 추천: 사용자의 개별적인 취향을 반영 가능함새로운 아이템 대응: 아이템 자체의 특성을 기반으로 하기 때문에 새로운 아이템에도 상대적으로 잘 대응 가능함콜드 스타트에 강함: 사용자의 이력이 없는 초기 상태에도 추천 가능함단점제한된 다양성: 각 콘텐츠에서 얻을 수 있는 정보가 달라 다양한 형식의 항목 추천이 어려움협업 필터링(Collaborative Filtering)어떤 아이템에 대해서 비슷한 취향을 가..

정성데이터를 가공할 때, 텍스트 데이터에서 단어를 추출해야할 때 등 여러 케이스에서 자연어처리(NLP)를 해야하는 경우가 많다. 이때 초반에 진행해야하면서 기초적이지만 중요한 부분이 바로 '벡터화'이다. 텍스트 벡터화는 텍스트 데이터를 수치 데이터로 변환하는 과정으로, 머신러닝 모델이 텍스트를 이해하고 처리할 수 있게 하는 중요한 단계이다. 그 중 가장 널리 알려진 Count Vectorizer와 TFIDF Vectorizer를 다루고자 한다.1. Count VectorizerCountVectorizer는 텍스트 데이터에서 단어의 빈도를 세어 벡터로 변환하는 클래스이다.from sklearn.feature_extraction.text import CountVectorizer# 예시 리스트corpus= ..

머신러닝 모델을 개발하고 실제 운영에 도입하기에는 수많은 과정을 거치게 된다. AutoML은 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위하여 등장하였다. 특히, 데이터 전처리 과정에서부터 알고리즘 선택 및 튜닝까지의 과정에서 분석가의 개입을 최소화 하여 품질 좋은 모델을 효과적으로 개발할 수 있는 기술에 대한 연구가 오랫동안 진행되어 왔다. 그 중에서도 TPOT은 예측 모델링 작업을 위한 고품질 기계 학습 모델을 자동으로 발견하기 위해 널리 사용되는 AutoML 라이브러리다. Genetic programming으로 머신러닝 파이프라인을 최적화하는 파이썬 AutoML 툴fh, 수천 개의 가능한 파이프라인 중에서 가장 적합한 ..

데이터 분석가가 모델링을 진행하려면 EDA(탐색적 데이터분석)부터 변수 선택, 표준화, 학습까지 하나하나 코딩해야한다. 물론 숙련자라면 이 과정에 어려움이 없겠지만, 그래도 더 편하게 할 수 있는 방법이 있다면 좋지 않을까? Sweetviz 라이브러리는 EDA도구로 간단한 결측치 확인, 타겟에 대한 분석, 데이터 간 비교 등을 수행해야 할 때 자동으로 빠르게 직관적 탐색을 도와준다. import seaborn as snsimport sweetviz as svdf =sns.load_dataset('titanic')report =sv.analyze(df)report.show_html('sweetviz_titanic_report.html') 임의로 타이타닉 샘플데이터를 EDA 한다면 위 코드만으로 간단한 결과..