'분류 전체보기' 카테고리의 글 목록 (3 Page)

« 2024/09 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

데이터 스케일링이란 데이터 값의 스케일(범위)를 조정해주는 것이다. 피처 별로 값의 스케일이 다르다면, 머신러닝이 제대로 작동하지 않을 수 있기 때문에 데이터 스케일링 작업을 해주어야 한다. 데이터 스케일링은 주로 회귀 모델에 적용된다. 1. Standard Scaler데이터의 평균을 0, 분산을 1이 되도록 즉, 표준 정규분포를 따르드록 스케일링한다.from sklearn.preprocessing import StandardScalerStandardScaler = StandardScaler()df_mm = StandardScaler.fit_transform(x) #스케일링 작업, x는 종속변수x_mm = pd.DataFrame(data= df_mm, columns=x.columns) #스케일링된 값으로..

Data/Machine Learning 2024. 6. 5. 01:26

[Tableau] 주식 데이터 시각화하기(+데이터 가져오는 법)

주식 데이터는 복잡한 숫자와 통계 정보를 보유하고 있다. 따라서 그래프나 차트를 통해 주가의 변화 추이를 한눈에 파악할 수 있다. 실시간으로 변동하는 주식 시장에서는 신속한 의사 결정이 중요한데, 시각화된 데이터는 빠르게 정보를 전달하고 분석할 수 있도록 도와준다. 위와 같은 주식 데이터 시각화 필요성에 따라 주식 데이터를 가져오는 법과 가져온 주식 데이터를 Tableau를 활용해 차트로 시각화해보았다.1-1. 구글 스프레드 시트로 주식 데이터 수집하기 =GOOGLEFINANCE() : Google Finance에서 현재 또는 과거 유가증권 정보를 가져오는 함수 [각 파라미터 설명]ticker고려할 유가증권에 대한 시세 표시attribute - [선택사항]Google Finance에서 ticker에 대해..

Data/Tableau 2024. 6. 5. 00:18

[SQL] solvesql 코딩테스트 연습10

문제1. 폐쇄할 따릉이 정류소 찾기 1출처 : solvesql 연습문제문제 정보 : 난이도 5 / 정답률 52.50%https://solvesql.com/problems/find-unnecessary-station-1/ https://solvesql.com/problems/find-unnecessary-station-1/ solvesql.com 정답 쿼리select a.station_id, a.namefrom station ajoin station b on a.station_id != b.station_idwhere a.updated_at = 5 문제 해설 1. 주요 포인트 1 - 불일치 조건 joinjoin station b on a.station_id != b.station_id 반경 내의 다른 따..

Data/SQL 2024. 6. 4. 18:21

[SQL] 코멘토 프로젝트 - SQL을 활용해 다양한 지표 추출하기

Redash 쿼리 편집기 Northwind Database를 활용한 지표 추출하기 Northwind Database는 Northwind라는 가상의 식품회사에 대한 데이터베이스이다. 고객, 상품, 주문, 직원, 발주 등 총 20개의 테이블로 구성되어 있으며, 실제 기업의 데이터베이스와 유사한 구조로 되어있어 실무와 가까운 프로젝트를 하기에 적합하다.문제1. 상품(product)의 카테고리(category)별로, 상품 수와 평균 가격대(list_price)를 찾는 쿼리를 작성하세요.SELECT category, COUNT(*) AS product_count, AVG(list_price) AS average_priceFROM productsGROUP BY category 문제2. 2006년 1분기에 고객(cu..

Data/SQL 2024. 5. 28. 18:37

[SQL] solvesql 코딩테스트 연습9

문제1. 두 테이블 결합하기출처 : solvesql 연습문제문제 정보 : 난이도 2 / 정답률 31.18%https://solvesql.com/problems/join/ https://solvesql.com/problems/join/ solvesql.com 정답 쿼리select DISTINCT athlete_idfrom records a join events b on a.event_id = b.idwhere b.sport = 'Golf' 문제 해설문제2. 버뮤다 삼각지대에 들어가버린 택배출처 : solvesql 연습문제문제 정보 : 난이도 2 / 정답률 35.35%https://solvesql.com/problems/shipment-in-bermuda/ https://solvesql.com/p..

Data/SQL 2024. 5. 27. 22:37

[SQL] 코멘토 프로젝트 - SQL 기본 문법 익히기

출처 : w3schoolshttps://www.w3schools.com/sql/trysql.asp?filename=trysql_select_all SQL Tryit Editor v1.6WebSQL stores a Database locally, on the user's computer. Each user gets their own Database object. WebSQL is supported in Chrome, Safari, Opera, and Edge(79). If you use another browser you will still be able to use our Try SQL Editor, but a different verwww.w3schools.com 문제1. Country 별로 Con..

Data/SQL 2024. 5. 21. 15:24

[ML] train_test_validation 데이터와 교차검증(CV)

보통 머신러닝 모델링 프로세스는 다음 사진과 같이 진행된다. 문제 정의 후 데이터를 수집하고, 탐색적 데이터 분석(EDA)까지 진행했다면 중요 피처를 파악하는 피처 선택(Feature Selection)에 돌입한다. 중요 피처를 파악했다면 본격적인 모델링을 시작할텐데, 이때 우선적으로 진행해야하는 것이 바로 데이터셋 분리이다. 머신러닝 모델링을 마치고 모델의 정확한 성능 평가를 위해서는 train 세트와 test 세트가 필요하다. 우선 샘플 데이터셋을 활용해 train 데이터와 test 데이터로 나누는 방법을 알아보자.1. 필요 모듈 importfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomFo..

Data/Machine Learning 2024. 5. 14. 19:01

[SQL] solvesql 코딩테스트 연습8

문제1. 레스토랑의 요일별 VIP출처 : solvesql 데이터리안 sql캠프 실전반문제 정보 : 난이도 2 / 정답률 56.77%https://solvesql.com/problems/restaurant-vip/ https://solvesql.com/problems/restaurant-vip/ solvesql.com 정답 쿼리select *from tipswhere total_bill in (select max(total_bill) from tips group by day) 문제 해설 1. 주요 포인트 1 - where절 서브쿼리where total_bill in (select max(total_bill) from tips group by day) 각 요일별로 그룹핑했을 때, 가장 높은 매출금액이 to..

Data/SQL 2024. 5. 8. 13:54

짜리몽땅 매거진

목록Home (73)

짜리몽땅 매거진

티스토리툴바