목록Data (72)
짜리몽땅 매거진
금산인삼축제와 금산천벚꽃축제에 대한 전반적인 여론과 인식을 파악하고자 해당 축제명을 네이버에 검색했을 때 뜨는 뉴스기사 리스트를 크롤링한 후 크롤링한 기사의 제목을 네이버 CLOVA Sentiment API를 활용해 감성분석해보자. 먼저 네이버 뉴스기사를 크롤링해보자.1. 라이브러리 호출import pandas as pdimport numpy as npimport timeimport refrom bs4 import BeautifulSoupfrom datetime import datetimefrom tqdm import tqdmimport requestspath = "/Users/your name/Desktop/" 2. 검색 키워드 및 개수 설정# 필요한 키워드 입력search_content = input..
연도별 구인인원, 구직건수, 취업건수를 태블로에서 Radial Bar 차트로 시각화해보자. 0. 데이터 불러오기데이터를 태블로에 연결하고, 해당 시트를 다시 유니온으로 결합한다. 1. 계산된 필드 만들기(1) Path Order :원래 데이터는 0, 추가된 데이터는 1 로 합니다. 그리고 측정값에서 차원으로 변환한다.IIF([테이블 이름]="구인구직 동향", 0, 1) (2) Radial Field: [Trip Duration] 2. 매개변수 만들기(1) Radial Inner (2) Radial Outer3. 계산된 필드 (또) 만들기(1) Radial Angle(INDEX()-1)*(1/WINDOW_COUNT(COUNT([Radial Field])))*2*PI() (2) Radial Normalize..
하이퍼파라미터 튜닝은 머신 러닝 모델의 성능을 최적화하는 중요한 과정이다. 하이퍼파라미터는 모델 학습 전에 설정되는 파라미터로, 학습 과정 자체를 제어한다. 이러한 하이퍼파라미터의 적절한 조정은 모델의 성능을 크게 향상시킬 수 있다. 하이퍼파라미터 튜닝의 중요성하이퍼파라미터 튜닝은 모델의 성능을 최대화하고, 과적합을 방지하는 데 중요하다. 특히, 대규모 데이터셋과 복잡한 모델에서 하이퍼파라미터의 영향이 크기 때문에, 적절한 튜닝 과정을 거치는 것이 중요하다. 이 과정은 시간과 자원이 많이 소모되기 때문에, 효율적인 방법을 선택하는 것이 중요하다. car_evaluation 샘플 데이터셋을 활용해 랜덤포레스트 모델링을 한 뒤, 하이퍼파라미터 튜닝을 진행해보자.1. 모델링from sklearn.ensembl..
모델 성능 평가란, 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이를 구하는 것으로 과적합을 방지하고 최적의 모델을 찾기 위해 실시한다. 머신러닝 회귀 모델 평가 방법회귀 모델의 평가 지표로는 MSE, RMSE, MAPE 등이 있고 이 값들은 오차이기 때문에 값이 작을수록 해당 모델이 우수한 성능을 가지고 있다는 것을 의미한다. 1. MAE (Mean Absolute Error)실제값과 예측값의 차이에 대한 절대값의 평균from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_scoremae = mean_absolute_error(y_test, y_pred)print(f"MAE: {mae}") 2. MSE (Mean Squa..
전국 터널별 위도, 경도, 터널길이, 차선 수, 터널 연식, 높이, 내진설계여부 등의 변수가 포함된 데이터셋을 바탕으로 태블로 시각화를 진행해보았다. 주요 시각화 차트는 '레이더 차트'이다. 레이더 차트는 동심원 위에 점을 찍어 그 도형의 모양으로 능력치 등의 변수 분포를 확인하는 데 쓰이는 차트이다. 그 모양이 거미줄 같기도 해서 거미줄 차트(Spider chart)라고도 불린다. 레이더 차트는 태블로 상에서 따로 마크 형식이 없기 때문에 계산된 필드 기능을 활용해 직접 만들어야 한다. 그러나 여러 항목과 그 분포를 한 눈에 분석하는데 용이해 이번 태블로 프로젝트에서 직접 제작해보았다.0. 데이터 준비 및 연결전처리한 엑셀이나 csv파일을 태블로에 연결한다. 시도별 터널에 대한 평균 터널 연식, 내진설..
KNN 알고리즘은 대표적인 거리기반 분류 모델로 거리를 기반으로 분류하는 알고리즘이며 따라서 상대적으로 거리가 더 짧은 이웃이 더 가까운 이웃으로 취급된다. 즉, KNN 알고리즘은 어떤 새로운 데이터로부터 거리가 가까운 K개의 다른 데이터의 레이블(속성)을 참고하여 K개의 데이터 중 가장 빈도 수가 높게 나온 데이터의 레이블로 분류하는 알고리즘이다.KNN 모델 성능의 주요 이슈1) 데이터 간의 거리는 어떻게 측정하는가 (거리 측정 방법)2) K 값의 크기는 어떻게 설정할 것인가 (탐색할 이웃의 개수)1) 데이터 간의 거리는 어떻게 측정하는가어떤 계산법을 사용하느냐에 따라서 이웃의 선택기준이 달라진다.2) 적절한 K 값의 크기는 어떻게 설정할 것인가K 값이 너무 작으면, 민감도가 높아서 잘못 예측할 확률이..
Northwind 식품업체 가상 데이터베이스를 바탕으로 현황을 분석할 수 있는 쿼리 작성 후, 간단한 시각화를 통해 대시보드를 만드는 작업을 수행했다.1. 현황 분석하기(1) 2분기 총 매출액select concat(round(sum(od.quantity*od.unit_price),1),' $') as '매출액' from orders oleft join order_details od on o.id=od.order_idwhere order_date between '2006-04-01' and '2006-06-30';round 함수를 이용해 소수점 첫째자리까지 반올림 후, concat 함수를 통해 '$' 문자와 결합해준다. (2) 상반기 월별 매출액select substr(order_date,1,7) as..
Northwind 데이터 분석 보고서 작성 Redash에서 Northwind 데이터에 대한 가설을 3개 정하고, 그 가설에 대한 핵심 지표 및 보조 지표를 설정한 뒤, 그 지표를 분석해 가설에 대한 분석 보고서 작성해보자. 보고서 순서 : '가설 수립 > 가설을 검증하기 위한 지표 선정 > 지표 측정 및 분석 > 분석 결과 및 결론(인사이트)'0. 지표에 대한 이해 지표란 기업에서 어떤 대상(서비스, 프로덕트, 사람 등)의 성과 평가를 하기 위해 사용되는 기준을 말한다. 예를 들어 새로 진행한 온라인 광고의 성과 평가를 위해 ‘노출수, CTR(Click-Through Rate, 클릭률), CVR(Conversion Rate, 전환율)’ 등을 본다고 했을 때 각각은 온라인 광고 성과 평가를 위한 지표가 ..