목록Home (103)
짜리몽땅 매거진

하이퍼파라미터 튜닝은 머신 러닝 모델의 성능을 최적화하는 중요한 과정이다. 하이퍼파라미터는 모델 학습 전에 설정되는 파라미터로, 학습 과정 자체를 제어한다. 이러한 하이퍼파라미터의 적절한 조정은 모델의 성능을 크게 향상시킬 수 있다. 하이퍼파라미터 튜닝의 중요성하이퍼파라미터 튜닝은 모델의 성능을 최대화하고, 과적합을 방지하는 데 중요하다. 특히, 대규모 데이터셋과 복잡한 모델에서 하이퍼파라미터의 영향이 크기 때문에, 적절한 튜닝 과정을 거치는 것이 중요하다. 이 과정은 시간과 자원이 많이 소모되기 때문에, 효율적인 방법을 선택하는 것이 중요하다. car_evaluation 샘플 데이터셋을 활용해 랜덤포레스트 모델링을 한 뒤, 하이퍼파라미터 튜닝을 진행해보자.1. 모델링from sklearn.ensembl..
모델 성능 평가란, 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이를 구하는 것으로 과적합을 방지하고 최적의 모델을 찾기 위해 실시한다. 머신러닝 회귀 모델 평가 방법회귀 모델의 평가 지표로는 MSE, RMSE, MAPE 등이 있고 이 값들은 오차이기 때문에 값이 작을수록 해당 모델이 우수한 성능을 가지고 있다는 것을 의미한다. 1. MAE (Mean Absolute Error)실제값과 예측값의 차이에 대한 절대값의 평균from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_scoremae = mean_absolute_error(y_test, y_pred)print(f"MAE: {mae}") 2. MSE (Mean Squa..

전국 터널별 위도, 경도, 터널길이, 차선 수, 터널 연식, 높이, 내진설계여부 등의 변수가 포함된 데이터셋을 바탕으로 태블로 시각화를 진행해보았다. 주요 시각화 차트는 '레이더 차트'이다. 레이더 차트는 동심원 위에 점을 찍어 그 도형의 모양으로 능력치 등의 변수 분포를 확인하는 데 쓰이는 차트이다. 그 모양이 거미줄 같기도 해서 거미줄 차트(Spider chart)라고도 불린다. 레이더 차트는 태블로 상에서 따로 마크 형식이 없기 때문에 계산된 필드 기능을 활용해 직접 만들어야 한다. 그러나 여러 항목과 그 분포를 한 눈에 분석하는데 용이해 이번 태블로 프로젝트에서 직접 제작해보았다.0. 데이터 준비 및 연결전처리한 엑셀이나 csv파일을 태블로에 연결한다. 시도별 터널에 대한 평균 터널 연식, 내진설..

KNN 알고리즘은 대표적인 거리기반 분류 모델로 거리를 기반으로 분류하는 알고리즘이며 따라서 상대적으로 거리가 더 짧은 이웃이 더 가까운 이웃으로 취급된다. 즉, KNN 알고리즘은 어떤 새로운 데이터로부터 거리가 가까운 K개의 다른 데이터의 레이블(속성)을 참고하여 K개의 데이터 중 가장 빈도 수가 높게 나온 데이터의 레이블로 분류하는 알고리즘이다.KNN 모델 성능의 주요 이슈1) 데이터 간의 거리는 어떻게 측정하는가 (거리 측정 방법)2) K 값의 크기는 어떻게 설정할 것인가 (탐색할 이웃의 개수)1) 데이터 간의 거리는 어떻게 측정하는가어떤 계산법을 사용하느냐에 따라서 이웃의 선택기준이 달라진다.2) 적절한 K 값의 크기는 어떻게 설정할 것인가K 값이 너무 작으면, 민감도가 높아서 잘못 예측할 확률이..

Northwind 식품업체 가상 데이터베이스를 바탕으로 현황을 분석할 수 있는 쿼리 작성 후, 간단한 시각화를 통해 대시보드를 만드는 작업을 수행했다.1. 현황 분석하기(1) 2분기 총 매출액select concat(round(sum(od.quantity*od.unit_price),1),' $') as '매출액' from orders oleft join order_details od on o.id=od.order_idwhere order_date between '2006-04-01' and '2006-06-30';round 함수를 이용해 소수점 첫째자리까지 반올림 후, concat 함수를 통해 '$' 문자와 결합해준다. (2) 상반기 월별 매출액select substr(order_date,1,7) as..

Northwind 데이터 분석 보고서 작성 Redash에서 Northwind 데이터에 대한 가설을 3개 정하고, 그 가설에 대한 핵심 지표 및 보조 지표를 설정한 뒤, 그 지표를 분석해 가설에 대한 분석 보고서 작성해보자. 보고서 순서 : '가설 수립 > 가설을 검증하기 위한 지표 선정 > 지표 측정 및 분석 > 분석 결과 및 결론(인사이트)'0. 지표에 대한 이해 지표란 기업에서 어떤 대상(서비스, 프로덕트, 사람 등)의 성과 평가를 하기 위해 사용되는 기준을 말한다. 예를 들어 새로 진행한 온라인 광고의 성과 평가를 위해 ‘노출수, CTR(Click-Through Rate, 클릭률), CVR(Conversion Rate, 전환율)’ 등을 본다고 했을 때 각각은 온라인 광고 성과 평가를 위한 지표가 ..

데이터 스케일링이란 데이터 값의 스케일(범위)를 조정해주는 것이다. 피처 별로 값의 스케일이 다르다면, 머신러닝이 제대로 작동하지 않을 수 있기 때문에 데이터 스케일링 작업을 해주어야 한다. 데이터 스케일링은 주로 회귀 모델에 적용된다. 1. Standard Scaler데이터의 평균을 0, 분산을 1이 되도록 즉, 표준 정규분포를 따르드록 스케일링한다.from sklearn.preprocessing import StandardScalerStandardScaler = StandardScaler()df_mm = StandardScaler.fit_transform(x) #스케일링 작업, x는 종속변수x_mm = pd.DataFrame(data= df_mm, columns=x.columns) #스케일링된 값으로..

주식 데이터는 복잡한 숫자와 통계 정보를 보유하고 있다. 따라서 그래프나 차트를 통해 주가의 변화 추이를 한눈에 파악할 수 있다. 실시간으로 변동하는 주식 시장에서는 신속한 의사 결정이 중요한데, 시각화된 데이터는 빠르게 정보를 전달하고 분석할 수 있도록 도와준다. 위와 같은 주식 데이터 시각화 필요성에 따라 주식 데이터를 가져오는 법과 가져온 주식 데이터를 Tableau를 활용해 차트로 시각화해보았다.1-1. 구글 스프레드 시트로 주식 데이터 수집하기 =GOOGLEFINANCE() : Google Finance에서 현재 또는 과거 유가증권 정보를 가져오는 함수 [각 파라미터 설명]ticker고려할 유가증권에 대한 시세 표시attribute - [선택사항]Google Finance에서 ticker에 대해..