목록전체 글 (70)
짜리몽땅 매거진
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bGrPhH/btsHvx3PO4Z/U0AmaTgGkyhgXC7jk2Dmo1/img.png)
출처 : w3schoolshttps://www.w3schools.com/sql/trysql.asp?filename=trysql_select_all SQL Tryit Editor v1.6WebSQL stores a Database locally, on the user's computer. Each user gets their own Database object. WebSQL is supported in Chrome, Safari, Opera, and Edge(79). If you use another browser you will still be able to use our Try SQL Editor, but a different verwww.w3schools.com 문제1. Country 별로 Con..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/viVAy/btsHpnfFK2a/Xqgnph833U5tz9zOnoZYrk/img.png)
보통 머신러닝 모델링 프로세스는 다음 사진과 같이 진행된다. 문제 정의 후 데이터를 수집하고, 탐색적 데이터 분석(EDA)까지 진행했다면 중요 피처를 파악하는 피처 선택(Feature Selection)에 돌입한다. 중요 피처를 파악했다면 본격적인 모델링을 시작할텐데, 이때 우선적으로 진행해야하는 것이 바로 데이터셋 분리이다. 머신러닝 모델링을 마치고 모델의 정확한 성능 평가를 위해서는 train 세트와 test 세트가 필요하다. 우선 샘플 데이터셋을 활용해 train 데이터와 test 데이터로 나누는 방법을 알아보자.1. 필요 모듈 importfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomFo..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/emXbn0/btsHgYlPrOf/F5o2C8DZSTzbrLWcoT0Fu0/img.png)
문제1. 레스토랑의 요일별 VIP출처 : solvesql 데이터리안 sql캠프 실전반문제 정보 : 난이도 2 / 정답률 56.77%https://solvesql.com/problems/restaurant-vip/ https://solvesql.com/problems/restaurant-vip/ solvesql.com 정답 쿼리select *from tipswhere total_bill in (select max(total_bill) from tips group by day) 문제 해설 1. 주요 포인트 1 - where절 서브쿼리where total_bill in (select max(total_bill) from tips group by day) 각 요일별로 그룹핑했을 때, 가장 높은 매출금액이 to..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b1LTjS/btsG2UQ4iFz/P92T0Xl7awlmnSvx8hJ1S0/img.png)
문제1. 레스토랑의 일일 매출출처 : solvesql 연습문제문제 정보 : 난이도 2 / 정답률 69.23%https://solvesql.com/problems/daily-revenue/ https://solvesql.com/problems/daily-revenue/ solvesql.com 정답 쿼리select day, sum(total_bill) as revenue_dailyfrom tipsgroup by dayhaving revenue_daily >=1000order by revenue_daily desc 문제 해설문제2. 쇼핑몰의 일일 매출액과 ARPPU출처 : solvesql 데이터리안 sql캠프 입문반문제 정보 : 난이도 3 / 정답률 37.09%https://solvesql.com/prob..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/04c9z/btsGQ1Xk9AP/ZFH01PzNNwhcs30sOdQ1J1/img.png)
데이터 전처리에는 여러 과정이 포함되지만, 그 중에서도 이상치(Outlier) 처리는 매우 중요한 단계이다. 이상치란 일반적인 데이터 패턴에서 벗어난 값으로, 종종 잘못된 데이터 입력이나 측정 오류로 인해 발생한다. 이상치 처리는 데이터 분석 결과의 신뢰성을 높이고 모델 성능을 향상시키는 데 도움을 준다. 0. 이상치 처리 방법 이상치 탐색: 가장 먼저 해야 할 작업은 데이터에서 이상치를 탐색하는 것이다. 상자 그림(box plot)이나 히스토그램(histogam) 등의 시각화 도구를 사용하여 데이터의 분포를 확인하고 이상치를 찾을 수 있다. 이상치 제거: 이상치를 발견했다면, 해당 이상치를 제거하는 것이 일반적이다. 이 단계에서는 이상치가 잘못된 데이터 입력이나 측정 오류로 인해 발생한 것인지 확인해야..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/mjCcz/btsGOclg5Ra/8djjt8RrQuJPIDzk2lE0A0/img.png)
문제1. 우리 플랫폼에 정착한 판매자 2 출처 : solvesql 연습문제 문제 정보 : 난이도 2 / 정답률 28.17% https://solvesql.com/problems/settled-sellers-2/ https://solvesql.com/problems/settled-sellers-2/ solvesql.com 정답 쿼리 select seller_id, count(distinct order_id) as orders from olist_order_items_dataset where price >= 50 group by seller_id having orders >=100 order by orders desc 문제 해설 1. 주요 포인트 1 - 조건에 대하여 where절과 having절의 차이 wh..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bmCMI2/btsGZMlWtt2/imiu96QBSERvdLnyvkRRG0/img.png)
지난번 beautifulsoap 라이브러리를 활용해 당근마켓 인기매물 리스트를 정적 크롤링해보았다. 오늘은 워크넷 구인구직 플랫폼에서 검색어와 클릭에 따라 원하는 정보를 크롤링하는 동적 크롤링을 학습했다. 정적 크롤링과 동적 크롤링의 개념 및 차이에 대해서는 지난 포스팅을 참고하면 된다. [Python] beautifulsoap으로 당근마켓 정적 크롤링하기당근마켓은 모바일에 최적화된 서비스 구조이기 때문에 웹크롤링을 통해서는 한정적인 정보만을 가져올 수 밖에 없다. 하지만 나의 동네 인기 매물을 검색했을 때 인기 게시글들의 '제목', '주zzarimongddang.tistory.com워크넷 구인구직 사이트에서 중장년층과 상용직 필터만 클릭했을 때, 뜨는 구인구직 게시글들의 제목, 기..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cldGUA/btsGBfQyabc/KgRvddC6K4gHD4YKQKKGK0/img.png)
문제1. 쇼핑몰의 일일 매출액 출처 : solvesql 연습문제 문제 정보 : 난이도 2 / 정답률 55.27% https://solvesql.com/problems/olist-daily-revenue/ 정답 쿼리 select strftime('%Y-%m-%d', order_purchase_timestamp) as dt, round(sum(payment_value),2) as revenue_daily from olist_orders_dataset a join olist_order_payments_dataset b on a.order_id = b.order_id where dt >= '2018-01-01' group by dt order by dt 문제 해설 1. 주요 포인트 1 - select 절 sel..